算算你上周的Claude Code賬單。讀文件、寫代碼、跑測試、修復bug再重新跑——一次完整的智能編程會話消耗的token數量,是普通聊天對話的10到50倍。項目稍微復雜一點,這個數字會迅速膨脹。再加上速率限制可能在你調試到一半時突然中斷會話,以及API定價隨時可能調整、政策收緊甚至服務宕機的風險,把推理任務搬到本地的理由變得相當直接。
時間到了2026年,本地模型的水平已經足夠應對日常開發需求。代碼補全、重構、調試、代碼庫解釋,這些Claude Code每天處理的核心任務,選一個合適的量化模型在本地跑,既能覆蓋絕大多數實際使用場景,又不需要為每個token付費,也沒有速率限制。關鍵是找到正確的連接方式和值得運行的模型。
![]()
連接機制本身比大多數教程展示的要簡單。Claude Code默認用Anthropic Messages API格式發送請求,目標地址是Anthropic的服務器。設置ANTHROPIC_BASE_URL環境變量后,這些請求會被重定向到任何支持相同API格式的服務器上。目前Ollama、LM Studio和llama.cpp都已經原生支持這種格式,不需要額外的翻譯代理。根據Claude Code官方環境變量文檔,有四組關鍵變量:ANTHROPIC_BASE_URL負責重定向所有API調用到本地推理服務器地址;ANTHROPIC_API_KEY在請求頭中發送,本地服務器通常不驗證身份,填一個占位字符串如"local"即可;ANTHROPIC_AUTH_TOKEN是另一種認證方式,同樣設成占位符;而ANTHROPIC_DEFAULT_SONNET_MODEL、ANTHROPIC_DEFAULT_HAIKU_MODEL和ANTHROPIC_DEFAULT_OPUS_MODEL這三個變量最為關鍵,它們把Claude Code內部按任務復雜度劃分的三個模型等級分別映射到你本地模型的名字上。
如果不設置這三個模型映射變量,Claude Code會向你的本地服務器請求claude-sonnet-4-20250514這樣的模型名,服務器會因為找不到對應模型而拒絕請求。2026年1月,Ollama添加了對Anthropic Messages API的原生支持,這是讓整個工作流程變得實用的技術轉折點。LM Studio在0.4.1版本中加入了原生的/v1/messages接口,而llama.cpp支持直接Anthropic API的時間更早。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.