本地大模型的熱門討論通常集中在7B到12B參數區間,這也是硬件配置不錯的用戶最常見的選擇。更小的模型往往還沒得到公平測試就被當成玩具 dismissed。但并非人人都有16GB以上的顯存,那些不足2B參數的微型模型,實際能力正在超出體積暗示的預期。我想看看,既然我能跑中等規模的模型,這些超小模型是否還值得折騰。
我日常用的兩個模型是Qwen 3.5 9B和Gemma 4 E4B,都能在8GB顯存上流暢運行,硬件對我來說不是瓶頸。真正的問題是:參數能壓縮到什么程度,本地模型才會徹底失效?我挑了三個宣稱能勝任實際工作的最小選項,做了兩項測試:一份結構化的周末學習指南,以及通過Brave Search MCP進行的實時天氣查詢。
![]()
第一個是Google的Gemma 4 E2B,面向手機筆記本等邊緣設備的Gemma 4系列中最小的版本。E代表"有效參數",采用逐層嵌入技術降低活躍內存占用,完整權重存儲在其他位置。實際運行中,4-bit量化下約需5GB內存,支持128K上下文窗口、原生函數調用、可配置思考模式和完整的系統提示支持——功能清單和E4B一致,只是規模縮水。
結構化學習指南測試中,E2B完成了全部六個必填章節,格式保持完整,也沒有像提示詞明確禁止的那樣虛構課程名稱或書名。但毛病和E4B如出一轍:把規劃過程直接漏進回答里。我的答案 literally 以"Planning Process - Analyze the Request…"開頭。我寫的系統提示專門要求不要把思考內容和回答混在一起,它完全無視,和E4B一個德行。深挖之后發現這似乎是LM Studio的問題,而非模型本身。暫時只能接受。
Brave Search實時測試第一次順利,問開普敦天氣得到了合理的攝氏溫度。但新開對話問同樣的問題,它把華氏度數標成了攝氏度。我再次要求攝氏,它依然默認華氏。如果你打算用它查實時數據,這點值得注意。
第二個是阿里Qwen 3.5 Small Series中最小的0.8B版本,2026年3月發布。這個體積下我沒抱太高期望,但表現還是讓我意外——以糟糕的方式。學習指南測試完全失敗:漏掉六個必填章節中的兩個,編造了一整本書的書名和作者,還杜撰了一個課程代碼。實時天氣查詢更離譜,第一次就搞砸,給出的溫度數字和實際天氣對不上,單位也錯。新開對話再問,它直接說無法獲取實時數據,盡管Brave Search MCP明明正常運行。我手動觸發工具調用后才得到答案,但溫度依然錯誤。基本上,它在所有任務上都自信地犯錯。
第三個是微軟的Phi-4 Mini,1.6B參數,2025年底發布。這是Phi-4系列中面向邊緣部署的輕量版本,設計目標是在手機筆記本上運行完整推理。和E2B類似,支持128K上下文和原生函數調用,但量化后內存占用略高,約6GB。
學習指南測試中,Phi-4 Mini完成了全部六個章節,格式正確,沒有虛構書名或課程代碼。和E2B的關鍵區別:它嚴格遵守系統提示,沒有把規劃過程混進回答。實時天氣查詢第一次就給出正確的開普敦溫度和單位,新開對話重復測試依然準確。唯一的小瑕疵是響應速度比E2B稍慢,但在可接受范圍內。
三個模型測完,結論清晰:體積不是唯一指標。E2B功能完整但有行為缺陷,Qwen 0.8B基本不可用,Phi-4 Mini在最小可用體積上找到了平衡點。如果你顯存嚴重受限,Phi-4 Mini是目前少數能真正干活的選項;E2B等LM Studio修復提示詞處理問題后可以重新考慮;Qwen 0.8B除非純粹做實驗,否則不建議投入時間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.