開發者 jola 分享了自己在M4 MacBook Pro(24GB 內存)上運行本地大語言模型的完整實踐經驗。在經歷了多次模型選型、量化配置和前端適配的試錯后,他最終搭建出了一套「不需要聯網、能在筆記本上流暢運行」的本地 AI 工作流——核心模型是Qwen 3.5-9B(Q4_K_S 量化版),在 LM Studio 中跑出了約40 tokens/秒的生成速度,同時支持思維鏈(thinking)和工具調用(tool use)。
![]()
M4 MacBook Pro本地運行大模型
選型之路:不是「能裝下」就能用
本地部署大模型的第一道坎是選型。jola 嘗試過多種方案:Ollama、llama.cpp、LM Studio,各自有不同的模型兼容性和配置 quirks。模型方面,他先后測試了 Qwen 3.6 Q3、GPT-OSS 20B、Devstral Small 24B 以及 Gemma 4B——前幾個雖然理論上能在 24GB 內存中加載,但實際運行中「基本不可用」;Gemma 4B 能跑,但在工具調用場景下表現糟糕。
真正讓他滿意的是Qwen 3.5-9B @ Q4_K_S。這個量化版本在壓縮后仍能保留足夠的推理能力,同時留出足夠內存給日常運行的 Electron 應用和其他開發工具。更關鍵的是,它支持128K 的上下文窗口,對于代碼分析和文檔閱讀場景非常實用。
配置細節:Thinking 模式與代碼優化參數
在 LM Studio 中,jola 為代碼和精確任務場景推薦了一組參數配置:
- temperature=0.6
- top_p=0.95
- top_k=20
- min_p=0.0
- presence_penalty=0.0
- repetition_penalty=1.0
啟用 thinking 模式還需要在 Prompt Template 底部手動添加{%- set enable_thinking = true %}。這些細節說明,本地模型的「可用性」不僅取決于硬件和模型本身,前端推理引擎的配置同樣關鍵。
前端接入:Pi 與 OpenCode
模型跑起來后,jola 將其接入了兩個開發向 AI 前端:
Pi的配置相對簡潔,通過~/.pi/agent/models.json指向 LM Studio 的本地 OpenAI-compatible API(http://localhost:1234/v1),并在 settings 中開啟hideThinkingBlock來隱藏思維鏈的干擾輸出。
OpenCode的配置則更加明確,指定了 131072 的上下文長度和 32768 的最大輸出 token 數,同時開啟 tools 支持。
jola 的個人感受是 Pi 更輕快,但配置過程容易讓人陷入「調參陷阱」——花太多時間打磨工具設置,反而擠占了實際開發的時間。
與 SOTA 模型的差距:不是替代品,是另一種工作方式
jola 非常坦誠地指出了本地模型與云端 SOTA 模型的差距:Qwen 3.5-9B(Q4)無法獨立完成復雜的多步驟任務,容易分心、陷入循環、誤解需求。如果你期望像使用 Claude 或 GPT-4 那樣「一句話生成整個應用」,本地模型會讓你失望。
但 jola 發現了一個意想不到的好處:本地模型迫使你保持更高的參與度。與 SOTA 模型合作時,開發者很容易不自覺地將所有認知負擔外包給 AI;而本地模型需要更明確的指令、更細致的引導,反而讓開發者始終處于思考和規劃的核心位置。它更像一個「研究助理、橡皮鴨、以及擁有即時回憶能力的編程語言專家」,而不是一個能替你思考的「全棧外包」。
對于擁有 24GB 內存的 M 系列 MacBook 用戶來說,這套方案提供了一個切實可行的「離線 AI 助手」選項。它不需要訂閱費、不依賴網絡、不將數據發送到第三方服務器——代價是你必須接受它的能力上限,并愿意付出更多的交互精力。在大模型越來越「黑箱化」和「云端化」的今天,這種「可控但有限」的本地方案,或許代表了一種值得保留的替代路徑。
參考來源:jola.dev - Running local models on an M4:https://jola.dev/posts/running-local-models-on-m4
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.