无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Unsloth API 來了,24GB 顯存就能在 Claude Code、Codex、OpenClaw 里跑本地 Agent

0
分享至

今天聊點更有意思的:把 Claude Code、Codex、OpenClaw 這三個最火的 Agent 終端,全都接到本地 24GB 顯存的開源大模型上跑

之前對接 Claude Code 的常規(guī)姿勢,是把環(huán)境變量指到 DeepSeek、Kimi 這種云端 API,體驗不錯,但月底賬單也是真不便宜

Unsloth 團隊最近放了個大招——給自家 Studio 直接掛上了一個 OpenAI 兼容 + Anthropic 兼容 的雙協(xié)議 API 端點,本地一條命令起服務(wù),Claude Code、Codex、OpenClaw、OpenCode、Cursor、Cline 全都能直接接

24GB 內(nèi)存(不論 Mac 統(tǒng)一內(nèi)存還是 RTX 顯卡)就能跑得起 Gemma 4 26B-A4B 或 Qwen3.6-27B,全程不聯(lián)網(wǎng),自己的代碼不出本機

簡介

先說說 Unsloth API 到底是啥

它其實是 Unsloth Studio(Unsloth 自家的本地推理 UI)開出來的一個對外 HTTP 端口,背后是 llama.cppllama-server,前面套了一層兼容層,同一個端口同時講兩種話

  • POST /v1/messages —— Anthropic Messages API,給 Claude Code、Anthropic SDK、OpenClaw 用

  • POST /v1/chat/completions/v1/responses —— OpenAI 兼容,給 OpenAI SDK、Codex、OpenCode、Cursor、Continue、Cline、Open WebUI 用

  • GET /v1/models —— 列出當前已加載的模型

認證方式跟 OpenAI 一模一樣,請求頭帶 Authorization: Bearer sk-unsloth-…,啟動后 key 在終端里直接打出來一份


Unsloth API 雙協(xié)議示意

最關(guān)鍵的是它帶了三個云端 API 才有的高級能力:

  • Self-healing tool calling :模型偶爾會把工具參數(shù)寫歪(少個引號、JSON 嵌套亂了),Unsloth 服務(wù)端會自動修一下再喂給客戶端,工具調(diào)用成功率明顯高一截

  • 服務(wù)端代碼執(zhí)行 :在請求里加 enable_tools: trueenabled_tools: ["python", "bash"] ,Bash / Python 直接在服務(wù)端沙箱里跑完把結(jié)果回流,跟 Claude artifacts 那個味兒差不多

  • Advanced Web Search :模型能真去訪問網(wǎng)頁、讀正文,不是只看一下 snippet

這幾個能力以前是 Claude / OpenAI 這種閉源 API 的護城河,現(xiàn)在全本地化了

安裝

整個鏈路就兩件事:裝 Unsloth Studio,再裝你要用的 Agent CLI

裝 Unsloth Studio(一行)

# macOS / Linux / WSL
curl -fsSL https://unsloth.ai/install.sh | sh


# Windows PowerShell
irm https://unsloth.ai/install.ps1 | iex

加載一個 GGUF 模型并啟動 API

unsloth run unsloth/Qwen3.6-27B-GGUF
# 或者跑 Gemma 4
unsloth run unsloth/gemma-4-26B-A4B-it-GGUF

啟動完終端會打印出兩行很重要的東西,一行是端口(一般是 http://localhost:80008888),一行是 sk-unsloth-... 開頭的 API key,這玩意兒只顯示一次,記得馬上存下來

也可以從 UI 里手動建:左下角頭像 → Settings → API → 起個名字 → Create

硬件門檻

24GB 內(nèi)存能跑哪些模型,Unsloth 官方給了一張實測表,老章挑兩個最值得本地用的列出來:

模型

4-bit 推薦內(nèi)存

適合誰

Gemma 4 26B-A4B(MoE)

28–30 GB

M-series Mac 32GB 統(tǒng)一內(nèi)存最穩(wěn)

Gemma 4 E4B(密集)

9–12 GB

8GB 顯卡也能跑

Qwen3.6-27B

18 GB

24GB 顯存富裕

Qwen3.6-35B-A3B(MoE)

23 GB

24GB 卡踩線,30GB 舒服

老章自己 M4 Pro 48GB 跑 Qwen3.6-27B Q4_K_XL,上下文 32K,吐字速度大概 25 tok/s,寫代碼完全夠用

? ?? 提醒一下,CUDA 13.2 跑 GGUF 現(xiàn)在有 bug 會輸出亂碼,N 卡用戶先用 13.1 或 12.x,NVIDIA 還在修
三家 CLI 接入對照 接入 Claude Code

裝 Claude Code

curl -fsSL https://claude.ai/install.sh | bash
# 或 brew install --cask claude-code

指向 Unsloth 端點

export ANTHROPIC_BASE_URL="http://localhost:8888"
export ANTHROPIC_API_KEY="sk-unsloth-你的key"

關(guān)掉那個讓推理慢 90% 的坑

這是個老章踩過的坑,Claude Code 最近會在每次請求前偷偷加一個 attribution header,header 一變 KV Cache 直接全廢,推理速度掉 90%

export CLAUDE_CODE_ATTRIBUTION_HEADER=0 是沒用的,必須寫到配置文件里

cat > ~/.claude/settings.json <<'EOF'
{
"env": {
"CLAUDE_CODE_ATTRIBUTION_HEADER": "0"
}
}
EOF

進項目目錄跑 claude,再 /model 一下確認走的是本地模型,就齊活了

接入 Codex

Codex 現(xiàn)在只認 OpenAI Responses API(Chat Completions 已經(jīng)在棄用路上),還好 Unsloth 在同一個端口上把 /v1/responses 也開了

裝 Codex

brew install --cask codex
# 或 npm install -g @openai/codex

配置 ~/.codex/config.toml

[model_providers.unsloth]
name = "unsloth"
base_url = "http://localhost:8888/v1"
wire_api = "responses"
env_key = "UNSLOTH_API_KEY"


[profiles.local]
model_provider = "unsloth"
model = "Qwen3.6-27B-GGUF"

export UNSLOTH_API_KEY="sk-unsloth-你的key"
codex --profile local

模型 ID 不知道寫啥,直接 curl http://localhost:8888/v1/modelsid 字段抄過去

接入 OpenClaw

OpenClaw 是個開源 Agent 終端,用 Anthropic Messages 協(xié)議跟模型說話,跟 Unsloth 是天作之合

裝 OpenClaw

curl -fsSL https://openclaw.ai/install.sh | bash

編輯 ~/.openclaw/openclaw.json

{
"models": {
"mode": "merge",
"providers": {
"unsloth": {
"baseUrl": "http://localhost:8888/v1",
"api": "anthropic-messages",
"authHeader": true,
"apiKey": "sk-unsloth-你的key",
"models": [
{ "id": "Qwen3.6-27B-GGUF", "name": "Qwen3.6 本地" }
]
}
}
}
}

注意 baseUrl 必須以 /v1 結(jié)尾,apianthropic-messages 是告訴 OpenClaw 走 /v1/messages 這條路

實測體驗

老章用 Qwen3.6-27B 在 Claude Code 里跑了一上午,幾個真實感受寫在這

好的方面

  • 第一次 cold start 大概 30 秒,之后提示詞響應(yīng)秒回,本地跑不用等隊列

  • self-healing tool calls 真的有用,之前直接掛 llama.cpp 給 Claude Code 用,工具調(diào)用十次有三次參數(shù) JSON 裂開,Unsloth 這邊幾乎沒翻車

  • 隱私這塊踏實,公司項目敏感代碼再也不用糾結(jié)要不要傳出去

  • 不用再盯賬單了,電費怎么也比 API token 便宜

不太好的地方

  • 27B 4-bit 比起 Claude Sonnet 4 / GPT-5 這種頂級模型,長鏈路任務(wù)(比如重構(gòu)十幾個文件)還是會糊,復(fù)雜任務(wù)老章建議拆小步喂

  • 工具調(diào)用響應(yīng)整體比云端慢一點,尤其是帶 web search 的,本地瀏覽器抓頁面就是慢

  • Codex 現(xiàn)在一定要 wire_api = "responses" ,老的 chat 模式已經(jīng)不推薦,配錯了會一直 400

我的建議

把它當 日常副駕 用,寫腳手架、改 bug、跑測試、刷文檔,本地模型完全夠用,性能還穩(wěn)定不限速

真要啃硬骨頭(架構(gòu)設(shè)計、跨多文件大重構(gòu)),切回 Claude / GPT-5 這種頂級 API,按需混用最劃算

One More Thing

Unsloth 這一手在我看來意義挺大的——以前本地跑 Agent,瓶頸不在模型,而在 協(xié)議生態(tài)

llama.cpp 自己有 OpenAI 兼容端點,但 Claude Code 走的是 Anthropic 協(xié)議,兩邊對不上;想接 Claude Code 就得自己寫代理層,門檻勸退

Unsloth 直接把 OpenAI 和 Anthropic 兩個協(xié)議都喂在同一個端口上,再把 self-healing、tool calling、code execution、web search 這些原本要各家 SDK 各搞一遍的能力做成服務(wù)端默認開啟

裝一次,三家 CLI 全通,這才是本地 Agent 應(yīng)該有的樣子

如果你之前因為生態(tài)不全沒真的把 Claude Code 接到本地用過,這次值得再試一遍

文檔地址:unsloth.ai/docs/basics/api

制作不易,如果這篇文章覺得對你有用,可否點個關(guān)注。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“我朝思暮想要住在女婿旁邊”,杭州72歲丈母娘選房現(xiàn)場落淚:女兒去世后他一直照顧我,別人家兒子都沒這么好;女婿:若再婚也會帶著她

“我朝思暮想要住在女婿旁邊”,杭州72歲丈母娘選房現(xiàn)場落淚:女兒去世后他一直照顧我,別人家兒子都沒這么好;女婿:若再婚也會帶著她

都市快報橙柿互動
2026-06-17 22:17:34
上海這天,林志玲扁頭油膩,王玉雯驚艷,孫儷穿對衣服狀態(tài)回春

上海這天,林志玲扁頭油膩,王玉雯驚艷,孫儷穿對衣服狀態(tài)回春

一個小豹子
2026-06-16 20:23:20
陳紅曬全家福,兒子兒媳顏值高很般配,自曝前夫一直跟著她想復(fù)婚

陳紅曬全家福,兒子兒媳顏值高很般配,自曝前夫一直跟著她想復(fù)婚

喜歡歷史的阿繁
2026-06-18 02:13:58
還是來了,為了制裁中國,特朗普開出天價籌碼!普京這次真心動了

還是來了,為了制裁中國,特朗普開出天價籌碼!普京這次真心動了

史料布籍
2026-06-17 10:27:47
正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

健康科普365
2026-05-09 21:05:04
有梅西勝率76%,沒他75%!名記直言:梅西是球王,但阿根廷走不遠

有梅西勝率76%,沒他75%!名記直言:梅西是球王,但阿根廷走不遠

圣西羅的太陽
2026-06-17 12:07:38
在美菲壓力下,中方已撤出在黃巖島安裝的所謂設(shè)施?外交部:敦促有關(guān)國家立即停止造謠污蔑

在美菲壓力下,中方已撤出在黃巖島安裝的所謂設(shè)施?外交部:敦促有關(guān)國家立即停止造謠污蔑

每日經(jīng)濟新聞
2026-06-17 15:58:49
20萬家公司倒閉,欠薪暴漲94%,克里姆林宮嘴里的“穩(wěn)中向好”?

20萬家公司倒閉,欠薪暴漲94%,克里姆林宮嘴里的“穩(wěn)中向好”?

戧詞奪理
2026-06-17 16:00:17
離開東方甄選活不下去?曾經(jīng)跟著董宇輝的明明如今帶貨榜直接反超

離開東方甄選活不下去?曾經(jīng)跟著董宇輝的明明如今帶貨榜直接反超

情感大頭說說
2026-06-18 01:10:50
3-2!3-0!世聯(lián)賽:有驚無險,中國女排3:2逆轉(zhuǎn)德國女排

3-2!3-0!世聯(lián)賽:有驚無險,中國女排3:2逆轉(zhuǎn)德國女排

寶哥精彩賽事
2026-06-17 21:49:22
穆勒曬和梅西的合照:這家伙是goat

穆勒曬和梅西的合照:這家伙是goat

懂球帝
2026-06-17 11:44:39
烏軍在多戰(zhàn)場取得重大突破,俄軍節(jié)節(jié)敗退。

烏軍在多戰(zhàn)場取得重大突破,俄軍節(jié)節(jié)敗退。

世界探索發(fā)現(xiàn)
2026-04-22 01:08:43
特朗普罵奧巴馬“蠢貨”,《觀點》主持人群嘲:你的協(xié)議更爛?

特朗普罵奧巴馬“蠢貨”,《觀點》主持人群嘲:你的協(xié)議更爛?

追星雷達站
2026-06-18 01:00:22
你在無意中發(fā)現(xiàn)別人什么秘密?網(wǎng)友爆料,電視劇都不敢這樣演

你在無意中發(fā)現(xiàn)別人什么秘密?網(wǎng)友爆料,電視劇都不敢這樣演

夜深愛雜談
2026-03-16 22:21:03
賭王三太陳婉珍究竟有多美?一組最全的老照片,帶你了解真正三太

賭王三太陳婉珍究竟有多美?一組最全的老照片,帶你了解真正三太

夢醉為紅顏一笑
2026-06-12 20:44:29
中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的

中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的

明天后天大后天
2026-06-17 04:42:38
佛山徹底失守!廣東第三城易主

佛山徹底失守!廣東第三城易主

洞見報告
2026-05-02 18:55:22
特朗普突然表態(tài):以色列不用停火,但必須"保持分寸"

特朗普突然表態(tài):以色列不用?;穑仨?quot;保持分寸"

桂系007
2026-06-17 23:50:23
官方:B席加盟皇馬,雙方簽約至2028年

官方:B席加盟皇馬,雙方簽約至2028年

懂球帝
2026-06-17 17:23:22
再訪蔡磊:每天工作12小時,只有死亡才能讓我停下

再訪蔡磊:每天工作12小時,只有死亡才能讓我停下

一條
2026-06-17 11:25:07
2026-06-18 04:35:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數(shù) 11165關(guān)注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態(tài)保持沉默

財經(jīng)要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態(tài)度原創(chuàng)

本地
教育
藝術(shù)
公開課
軍事航空

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

教育要聞

認知天性|一本改變你人生的書

藝術(shù)要聞

235米!曼谷地標“金字塔”動工,BIG操刀

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進入關(guān)懷版