網易首頁 > 網易號 > 正文 申請入駐

實測 Claude-Opus-4.6蒸餾版Qwen3.5,9B 已能打,用LM-Studio本地跑,對接 Claude Code

0
分享至

Qwen3.5 系列繼續:

上篇文章介紹了 Jackrong 和 TeichAI 兩個團隊做的 Claude Opus 4.6 蒸餾版 Qwen3.5-27B,發完之后好多網友在評論區催我:光說不練假把式,能不能實際跑一下?

今天就拿 Jackrong 放出的GGUF 量化版,用 LM Studio 在本地實測一把,看看這個號稱"平替 Opus"的蒸餾模型到底幾斤幾兩。


我選擇 Jackrong 的版本,原因無他,開發者用腳投票,它曾經登錄過 Huggingface 熱榜第一


熱榜第一.png

2B、9B、27B、35B 都有,豐儉由人了可以說

其中 2B 版本模型文件只有 2GB


https://modelscope.cn/models/Jackrong/Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

Q4_K_M 只有 1.2GB


這個大家別試了,很多任務都無法完成,給他現成的 Skills 也不行


接入到 Claude Code


它花了 8 分鐘才找全可用 skills,指定了也無法完全調用


一定要說優點:它是 256K 上下文,而且有 Vision 能力,生成速度 40+t/s


還有它翻譯還可以


也不精神錯亂


9B 版本 6GB

我是 16G 的 MacMini M4

所以本文只測試了 2B 和 9B

我建議大家能力尚可 從 27B 開始,我的機器其實也可以上 27B Q3,但是下載,測試,太耗時了,我幾乎半天都耗在測試了,時長氣的腦仁疼


35-A3B 36GB,這也是為何它干不過 27B 的原因之一


為什么選 GGUF + LM Studio?

GGUF是目前本地部署大模型最主流的格式,基于 llama.cpp 生態,對 CPU 和消費級 GPU 都非常友好。相比原始的 safetensors 權重動輒 50+GB,GGUF 量化后最低 10GB 就能跑 27B 模型,這才是我們普通玩家的菜。

LM Studio就不用多介紹了吧,之前專門寫過一篇

一句話概括:圖形界面一鍵下載運行 + OpenAI/Anthropic 雙兼容 API + CLI 命令行 + 遠程 LM Link,從小白到開發者全覆蓋。

用它來測模型,門檻最低、體驗最好

模型概覽

Jackrong 在 HuggingFace 上放出了27B完整的 GGUF 量化家族:

量化版本

文件大小

顯存占用(估算)

推薦場景

Q2_K

10.1 GB

~12 GB

極致省內存,精度有損

Q3_K_S

12.1 GB

~14 GB

內存緊張時的折中選擇

Q3_K_M

13.3 GB

~15 GB

Q3 里精度最好的

Q4_K_S

15.6 GB

~17 GB

性價比之選

Q4_K_M

16.5 GB

~18 GB

精度與體積最佳平衡Q8_0

28.6 GB

~30 GB

追求精度,顯存充裕時用

社區大佬 @ 在單卡 RTX 3090(24GB 顯存)上實測 Q4_K_M 版本的數據:

  • 顯存占用約 16.5 GB,3090/4090 毫無壓力

  • 生成速度 29–35 tok/s,日常使用足夠絲滑

  • 完整保留 262K 上下文窗口,沒有打折

  • 修復了官方模型 Jinja 模板不支持developerrole 的崩潰問題

我的建議:閉眼選 Q4_K_M。24GB 顯存的卡(3090/4090)輕松裝下,精度損失可以忽略。如果你是 Mac 用戶,統一內存 32GB 以上也能跑。

本文測試 9B 實屬無奈

Jackrong 的蒸餾版有什么特別的?

回顧一下上篇文章講過的核心要點

這個模型的訓練方法很"暴力":

  1. 數據來源:大約 3,280 條高質量的 Claude Opus 4.6 推理數據,外加 TeichAI 和 Jackrong 自己整理的補充數據集

  2. 訓練策略train_on_responses_only——Loss 只在 思考過程和最終答案上計算,逼模型去模仿 Claude 那種深度結構化思考

  3. 微調方式:Unsloth + LoRA(Rank=64),非常高效

蒸餾完的模型在推理時會主動展開思維鏈:

 

Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency...


和原版 Qwen3.5-27B 容易在簡單問題上"繞圈子"不同,這個蒸餾版學到了 Claude 的風格——先分析、再拆解、再執行,推理效率明顯更高。

而且社區測試發現,它在 AI 代碼智能體場景(Claude Code、OpenCode)中表現極其穩定:連續自主運行超過 9 分鐘不中斷,能自動讀報錯、改代碼、寫 README,中途不卡頓不死機。

這一點確實可以,2B/9B 版都能做到。

原版模型在這種場景下經常半途卡住,差距很明顯。

LM Studio 部署步驟

用 LM Studio 跑這個模型,總共就三步:

第一步:下載模型

打開 LM Studio,在搜索欄直接搜索Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF,或者在 Discover 頁面找到它。


如果你更喜歡命令行,也可以用lmsCLI:

lms get Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF --file Qwen3.5-9B.Q4_K_M.gguf

或者用 huggingface-cli 手動下載到 LM Studio 的模型目錄:

huggingface-cli download Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF \
--include "Qwen3.5-9B.Q4_K_M.gguf" \
--local-dir ~/.cache/lm-studio/models/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

網絡不通可以使用 modelscope

pip install modelcope
modelscope download --model Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-9B.Q4_K_M.gguf --local_dir ~/.cache/lm-studio/models/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF


第二步:加載模型

下載完成后,在 LM Studio 左側模型列表中找到它,點擊加載

加載時建議調整幾個參數:

  • GPU Offload:拉滿(如果你有獨立 GPU)

  • Context Length:先設 8192 或 16384 試試,夠用再加,我上 262144

  • Max Concurrent Predictions:保持默認 1 即可

第三步:開聊

加載完成后直接在 Chat 界面對話

模型會自動啟用思維鏈模式,你會看到 ... 標簽包裹的推理過程。

我用看家測試題目,背影閱讀理解+svg 代碼生成+審美測試題測它

令我吃驚的是,它完全可以理解到


就是速度差點意思,13t/s

這是曾經一種旗艦模型都可能滑鐵盧的


生成的 svg 也只能說能看吧


進階:當 API 服務器用

LM Studio 加載模型后,點擊左側的Developer標簽,開啟本地服務器(默認端口 1234)。然后你就能用 OpenAI SDK 直接調用:

from openai import OpenAI

client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="lmstudio"
)

response = client.chat.completions.create(
model="Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF",
messages=[
{"role": "user", "content": "用Python寫一個LRU緩存,要求線程安全"}
],
temperature=0.6,
top_p=0.95,
max_tokens=8192
)

print(response.choices[0].message.content)

甚至可以直接對接 Claude Code:

    "ANTHROPIC_AUTH_TOKEN": "lm-studio-local",
"ANTHROPIC_BASE_URL": "http://localhost:1234",
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled"

本地蒸餾模型驅動 Claude Code,白嫖到底,就問你香不香。


工具調用能力

請在當前目錄下創建一個名為 debug_test.py 的 Python 腳本,代碼內容是計算 1 到 10
的平均值,但請在代碼中故意留下一個邏輯錯誤(比如除以 或者變量名寫錯)。接著運行這個腳本,捕獲錯誤日志,分析原因并自動修復它,最后再次運行以確保輸出正確的平均值

結果write_file、run_shell_command、read_file、write_file、run_shell_command一路下來都是 ok 的


能不能干點稍微重點的活兒呢?

有點難,比如查找 skills 調用 skills

看起來是瞎編的


本地有的 他也要 web search


除非你特殊強調


它很慢,又特別能思考,我實在沒有精力等下去了,一下午荒廢了。。。

算是幫大家踩過了,看的腦仁疼

總結

可以玩玩,但是能力有限,需要勞心費神

或許 27B 會好很多,至少評論區這么說

再挖個坑吧


-Opus .5

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全球外交大地震!美俄同月訪華,世界徹底看清,中國才是終極港灣

全球外交大地震!美俄同月訪華,世界徹底看清,中國才是終極港灣

小祁談歷史
2026-04-24 05:23:52
一位漂亮素雅的新娘子!

一位漂亮素雅的新娘子!

情感大頭說說
2026-04-24 04:45:22
田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

以茶帶書
2026-04-23 16:11:50
小寶與王某雷,誰探訪花的數量更多?

小寶與王某雷,誰探訪花的數量更多?

挪威森林
2026-01-31 12:15:26
笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

火山詩話
2026-04-21 09:46:21
身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆都有誰?

身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆都有誰?

小椰的奶奶
2026-04-23 14:52:12
ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

芯火相承
2026-04-23 17:33:03
酒店里,擠滿了偷偷開房的已婚女性

酒店里,擠滿了偷偷開房的已婚女性

二胡的歲月如歌
2026-04-22 19:03:26
更大規模海戰來了?

更大規模海戰來了?

中國新聞周刊
2026-04-22 20:50:08
段睿深夜悲痛發文:再也沒有人等我回去了!

段睿深夜悲痛發文:再也沒有人等我回去了!

原夢叁生
2026-04-22 20:06:36
劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

離離言幾許
2026-04-24 07:12:13
她一嫁演員祝延平,二嫁杜淳老爸杜志國,現在老了與兒子相依為命

她一嫁演員祝延平,二嫁杜淳老爸杜志國,現在老了與兒子相依為命

混沌錄
2026-04-23 17:11:04
單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

思思夜話
2026-04-23 11:30:19
人民日報發文,揭張桂梅真實現狀,卸任華坪女高校長傳聞早有真相

人民日報發文,揭張桂梅真實現狀,卸任華坪女高校長傳聞早有真相

歲暮的歸南山
2026-04-23 16:31:58
5月1日起,3萬塊就能把老板送進去,不明財產門檻卻漲到了300萬!

5月1日起,3萬塊就能把老板送進去,不明財產門檻卻漲到了300萬!

今朝牛馬
2026-04-23 23:23:59
比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或將被切斷

比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或將被切斷

芳芳歷史燴
2026-04-23 18:30:17
遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

極目新聞
2026-04-23 10:00:21
中央定調,2026年養老金或調整,低于3600,補發7個月能漲700嗎?

中央定調,2026年養老金或調整,低于3600,補發7個月能漲700嗎?

游古史
2026-04-24 04:01:53
10萬元不翼而飛!上海老夫妻放在洗衣機里的現金沒了,護工堅稱自己清白,真相竟是→

10萬元不翼而飛!上海老夫妻放在洗衣機里的現金沒了,護工堅稱自己清白,真相竟是→

環球網資訊
2026-04-23 19:39:20
高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

瘋狂小菠蘿
2026-04-23 14:27:12
2026-04-24 09:23:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

旅游
游戲
數碼
公開課
軍事航空

旅游要聞

走進櫸溪村

《AC黑旗RE》超高清截圖公布!遠洋風光極致重塑

數碼要聞

榮耀新平板發布,全球最薄OLED,起步價3499元

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進入關懷版