網易首頁 > 網易號 > 正文 申請入駐

Claude Opus 蒸餾 Qwen3.5,V3 來了

0
分享至

大家好,我是 Ai 學習的老章

Claude Opus 蒸餾 Qwen3.5 這條線,我從 v1 一路追到現在,算是全網跟得最緊的了:

Now,v3 來了

這一版改動很大,大到連名字都換了——從原來拗口的Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,改名為Qwopus3.5(Qwen + Opus 的合體)

名字更短了,野心更大了

一句話說清 v3 的核心變化

v1 是"讓 Qwen 學會 Opus 的推理",v2 是"讓它想得更少答得更快",**v3 是"讓它學會用工具干活"**。

這是一個質的飛躍——從"會思考"到"會行動"

先看下載量:大家用腳投票

在聊技術細節之前,先看一組數據

Jackrong 這次 v3 同時發布了 4B、9B、27B 三個尺寸,加上各種量化和 MLX 版本,一共 9 個模型

大家猜猜哪個最火?

模型

參數量

下載量

Qwopus3.5-9B-v3-GGUF9B10.9k

112

Qwopus3.5-4B-v3-GGUF

4B

699

7

Qwopus3.5-9B-v3

10B

603

47

MLX-Qwopus3.5-9B-v3-4bit

1B

435

13

MLX-Qwopus3.5-9B-v3-8bit

9B

232

6

MLX-Qwopus3.5-9B-v3-bf16

9B

166

1

MLX-Qwopus3.5-9B-v3-6bit

9B

170

2

Qwopus3.5-4B-v3

5B

72

4

Qwopus3.5-27B-v3-GGUF

27B

39

39

Qwopus3.5-27B-v3

27B

13

39

9B GGUF 版本以 10.9k 的下載量斷崖式領先,是第二名的 15 倍。

這說明什么?大家心里門兒清——9B 是甜蜜點

16GB 內存的 MacBook 就能跑,Windows 上普通顯卡也沒壓力

27B 雖然能力更強,但門檻也更高;4B 太小,容易翻車

9B 剛好在"能用"和"能跑"之間找到了最佳平衡

所以今天這篇文章,我重點實測的就是Qwopus3.5-9B-v3

v3 到底改了什么?從"想好再做"到"做了再改"

v3 最大的理念轉變,用一句話概括:

從 "reason-then-act"(想好再做)到 "act-then-refine"(做了再改)

這個思路來自兩篇重要的研究:

  1. Reflexion論文證明,Agent 通過"試錯 + 反思"的方式,比純靠內心推理更有效

  2. 另一項研究發現,失敗后反思再重試能帶來巨大提升:數學推理任務 **+34.7%**,函數調用任務+18.1%

說人話就是:與其讓模型在腦子里反復推演(v2 的路線),不如讓它先動手試,試錯了再修正。這對做 Agent、用工具的場景特別管用——畢竟現實世界的反饋比模型自己的想象靠譜得多

v3 三大核心升級

1?? 結構化推理優化

v2 靠蒸餾 Claude 的思維鏈(CoT),但 Jackrong 在 v3 里坦誠地指出了一個問題:v2 用的第三方蒸餾數據,有些思維鏈可能是"偽造"的——看起來像是 Claude 生成的,實際上未必是

Anthropic 自己也發表過研究,說推理模型的思維鏈有時候只是"事后合理化",并非真正的逐步推理

學生模型去模仿這種"假推理",學到的可能只是表面的模式匹配,而非真正的問題解決能力

v3 的做法是:用更高質量、可驗證的推理鏈做訓練,讓模型學的是過程級推理,而非簡單模仿答案

對比項

v2(蒸餾)

v3(結構對齊)

思維鏈來源

第三方蒸餾數據

精選可驗證推理鏈

學習目標

模仿教師輸出

學習過程級推理

推理風格

壓縮式

顯式、逐步、可驗證

泛化能力

較弱

更強

2?? 工具調用強化訓練

這是 v3 最重要的新增能力

v3專門做了針對工具調用的強化學習(RL)訓練,為 Agent 框架(如 OpenClaw)優化了工具調用的穩定性和準確性

這意味著 v3 在 Agent 場景下——比如自動搜索、調用 API、操作文件——應該比 v1/v2 強得多

3?? "做了再改" 范式

整個模型的設計理念從"一次推理到位"轉向"迭代交互糾正"

這對多步驟任務特別友好——不要求第一步就完美,允許在執行中不斷修正

HumanEval 跑分:9B 打出了新高度

Jackrong 在相同條件下測了三個 9B 級別的模型:

模型

Base pass@1

Plus pass@1

相比 Qwen3.5-9B

Qwopus3.5-9B-v387.80% (144/164)82.93% (136/164)

+4.87 / +5.49

Qwen3.5-9B

82.93% (136/164)

77.44% (127/164)

基線

Claude-Distilled-v2

82.32% (135/164)

78.66% (129/164)

-0.61 / +1.22

幾個關鍵發現:

  • v3 在 HumanEval 上比原版 Qwen3.5-9B 高了將近 5 個百分點,這個差距在 9B 級別已經非常顯著

  • v2 在 9B 上其實沒怎么提升(甚至 base 還略降了),但v3 一下子拉開了差距

  • 在更嚴格的 Plus 評估中,v3 領先原版超過 5.49 個百分點

MMLU-Pro 跑分:這次知識能力也沒掉

還記得 v2 的一個代價嗎?

MMLU-Pro(通用知識推理)掉了 7.2%。當時我說這是"專精 vs 通用"的權衡

v3 把這個問題修復了:

模型

正確數

總數

準確率

Qwen3.5-9B

225

280

80.36%

Qwopus3.5-9B-v322928081.79%

v3 在 MMLU-Pro 上反超原版 1.43 個百分點!

代碼能力提升的同時,通用知識也沒丟——這是 v2 做不到的

推理效率:用更少的 Token 辦更多的事

指標

Qwen3.5-9B

Qwopus3.5-9B-v3

平均思維鏈長度

7116 字符

5313 字符

每萬字符通過數

1.26

1.66

每個正確答案的字符成本

7938

6032

三組數據總結:

  • 思維鏈縮短 25.3%

  • 推理效率提升 31.7%

  • 每個正確答案的 Token 成本降低 24.0%

跟 v2 的 27B 版本效率提升幾乎一致,但這次是在 9B 上做到的,意義完全不同——9B 模型本來就是為資源受限場景設計的,效率提升的價值在這里被放大了

v1 → v2 → v3 全家族進化圖譜

v1

v2

v3

名字

Claude-4.6-Opus-Reasoning-Distilled

同上

Qwopus3.5核心思路

蒸餾 Claude 推理能力

優化推理效率

工具調用 + 結構對齊

訓練方法

SFT + LoRA

SFT + LoRA

SFT + LoRA +RL(工具調用)

HumanEval(9B)

~82%

~82%

87.80%MMLU-Pro

基準

-7.2%

+1.43%思維鏈長度

短(-24%)

短(-25.3%)

工具調用

未優化

未優化

專項 RL 訓練理念

模仿 Claude

更快更省

做了再改

一路看下來,v3 是一次全面的升級:代碼更準、知識不丟、效率更高、還新增了工具調用能力

這在蒸餾模型里相當少見——通常每一代都要在某個維度做取舍,v3 居然做到了"全都要"

怎么跑?

老規矩,GGUF 格式用 LM Studio、Ollama、llama.cpp 都行:

模型地址:Jackrong/Qwopus3.5-9B-v3-GGUF

硬件需求:

  • Mac:16GB 內存即可流暢運行(推薦 MLX 版本)

  • Windows/Linux:8GB 顯存的顯卡即可(如 RTX 3060/4060)

  • 量化推薦:根據之前的 ToolCall-15 測試經驗,Q6 是工具調用場景的最優量化精度

快速上手(以 Ollama 為例):

# 下載并運行
ollama run hf.co/Jackrong/Qwopus3.5-9B-v3-GGUF:Q6_K

,支持 Gemma 4,支持 Anthropic 的 1/messages(low,medium,high,max)


用 ToolCall-15 實測 9B-v3 的工具調用能力

說到工具調用,我之前在寫 這篇文章時,介紹過一個很好用的開源測試工具——ToolCall-15

簡單回顧一下:ToolCall-15(github.com/stevibe/ToolCall-15)是一個專門測大模型工具調用能力的基準測試框架:

  • 15 個場景,覆蓋 5 大類能力

  • 12 個工具,模型每次都能看到全部工具

  • 模擬響應,確保結果確定可復現

  • Temperature 設為 0,排除隨機性

五大考核維度:

類別

測試內容

舉例

工具選擇

能不能選對工具?

問天氣,該用get_weather還是web_search

參數精度

參數傳對了嗎?

用戶要華氏溫度,你傳了fahrenheit沒?

多步鏈式

能不能串聯多個工具?

搜文件 → 讀內容 → 查聯系人 → 發郵件

克制與拒絕

不該用工具時能忍住嗎?

"二戰哪年結束?" 你別去搜啊

? 錯誤恢復

工具報錯了怎么辦?

搜索沒結果,是放棄還是換關鍵詞?

之前測 v2 的 27B 版本拿了15/15 滿分

這次 v3 專門做了工具調用的 RL 訓練,還是在更小的 9B 上——到底行不行?



自然很行!

  • Qwen3.5:9b Q8 (官方)

  • Jackrong 的 Qwopus v3 Q8

ToolCall-15: Qwopus v3 完美通過全部 15 題

ToolCall-15 實測

大家也可以用這個工具自行測試已經本地部署的模型

環境搭建:

git clone https://github.com/stevibe/ToolCall-15.git
cd ToolCall-15
npm install
cp .env.example .env

配置 .env:

# 如果用 LM Studio
LMSTUDIO_HOST=http://localhost:1234
LLM_MODELS=lmstudio:qwopus3.5-9b-v3


# 如果你用的是 Ollama
OLLAMA_HOST=http://localhost:11434
LLM_MODELS=ollama:qwopus3.5-9b-v3

啟動測試:

npm run dev
# 打開 http://localhost:3000,點擊 Run 開始測試
總結:v3 是這個系列真正成熟的一代

從 v1 到 v3,Jackrong 的這個蒸餾系列走過了三個階段:

  • v1:證明了"小模型也能學到大模型的推理能力"

  • v2:證明了"推理效率可以大幅優化,用更少的 Token 辦同樣的事"

  • v3:證明了"蒸餾模型也能做 Agent,工具調用不再是大模型的專利"

v3 的數據也確實支撐了這個結論:

  • HumanEval 87.80%,比原版 Qwen3.5-9B 高了近 5 個百分點

  • MMLU-Pro 81.79%,通用知識也反超了基線

  • 推理效率提升 31.7%,成本降低 24%

  • 新增工具調用 RL 訓練,專為 Agent 場景優化

對于想在本地跑一個"能寫代碼、能調工具、還不太吃資源"的模型來說,Qwopus3.5-9B-v3 可能是目前最值得一試的選擇

下載量已經說明了一切——10.9k,社區用腳投票的結果。

.5

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國11名頂尖科學家連續離奇失蹤或死亡,特朗普:相當嚴重

美國11名頂尖科學家連續離奇失蹤或死亡,特朗普:相當嚴重

新民周刊
2026-04-23 18:56:16
華誼兄弟被申請破產案獲法院受理,7年虧超80億元

華誼兄弟被申請破產案獲法院受理,7年虧超80億元

21世紀經濟報道
2026-04-23 21:28:06
太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

譚談社會
2026-04-23 01:58:02
校慶我捐700萬被安排在角落,我愣了3秒,校長道:不坐就走不差你

校慶我捐700萬被安排在角落,我愣了3秒,校長道:不坐就走不差你

吃貨的分享
2026-04-22 20:30:21
揪心!女生受邀赴泰過潑水節,被轉賣緬甸電詐園,20萬元贖金付完仍被困……

揪心!女生受邀赴泰過潑水節,被轉賣緬甸電詐園,20萬元贖金付完仍被困……

新民周刊
2026-04-23 18:53:58
世錦賽戰報:競逐8強,再爆大冷預警,世界第2第9都被打1波五連鞭

世錦賽戰報:競逐8強,再爆大冷預警,世界第2第9都被打1波五連鞭

求球不落諦
2026-04-24 06:08:52
都在問,海軍宣傳片里的“新兵何劍”,暗示中國第四艘航母嗎?

都在問,海軍宣傳片里的“新兵何劍”,暗示中國第四艘航母嗎?

樞密院十號
2026-04-23 18:31:15
特朗普宣布以黎停火延長三周

特朗普宣布以黎停火延長三周

環球網資訊
2026-04-24 07:19:15
為何以前五一放7天,現在卻改成五天還得調休,原來都是他的建議

為何以前五一放7天,現在卻改成五天還得調休,原來都是他的建議

芭比衣櫥
2026-04-24 03:26:27
蔡磊的妻子段睿深夜發布訃告:他走了,再也沒有人等我回去了!

蔡磊的妻子段睿深夜發布訃告:他走了,再也沒有人等我回去了!

云舟史策
2026-04-24 07:18:26
柬埔寨重大項目啟動!中國電信全力參建!

柬埔寨重大項目啟動!中國電信全力參建!

運營商段子手
2026-04-24 00:05:31
以色列:已準備好重啟戰爭,只要美國同意,將刺殺伊朗最高領袖穆杰塔巴,炸毀其能源和電力設施,使其重回“石器時代”

以色列:已準備好重啟戰爭,只要美國同意,將刺殺伊朗最高領袖穆杰塔巴,炸毀其能源和電力設施,使其重回“石器時代”

揚子晚報
2026-04-24 07:16:02
前廚師:C羅的飲食很均衡且不喝牛奶,因為這違背自然規律

前廚師:C羅的飲食很均衡且不喝牛奶,因為這違背自然規律

懂球帝
2026-04-23 23:43:03
炫富網紅藍戰非不裝了,瘋狂帶貨撈金

炫富網紅藍戰非不裝了,瘋狂帶貨撈金

電商派Pro
2026-04-23 10:09:20
李鴻武:榮威20年,從家庭到“家越”

李鴻武:榮威20年,從家庭到“家越”

AutoBusiness
2026-04-23 12:23:29
羅德里:再這么多比賽我踢不到32歲,歐洲杯奪冠后我筋疲力盡

羅德里:再這么多比賽我踢不到32歲,歐洲杯奪冠后我筋疲力盡

懂球帝
2026-04-24 01:27:07
廣東美女泰國消失最新!被囚禁13天,細節曝光,難怪20萬也救不出

廣東美女泰國消失最新!被囚禁13天,細節曝光,難怪20萬也救不出

閱微札記
2026-04-23 11:35:46
芯片松綁4個月,中國一塊也沒買,中國不急美國急,形勢反轉了

芯片松綁4個月,中國一塊也沒買,中國不急美國急,形勢反轉了

王新喜
2026-04-23 20:37:56
天助馬競:1-1,西甲第3遭西甲倒數第一逼平,僅領先馬競5分

天助馬競:1-1,西甲第3遭西甲倒數第一逼平,僅領先馬競5分

側身凌空斬
2026-04-24 05:31:46
4S要求13萬換電池包,保司堅持維修或全損:只有車主主導“維修權”,壟斷才能破?

4S要求13萬換電池包,保司堅持維修或全損:只有車主主導“維修權”,壟斷才能破?

AC汽車
2026-04-23 14:26:04
2026-04-24 09:24:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

本地
房產
健康
教育
公開課

本地新聞

SAGA GIRLS 2026女團選秀

房產要聞

三亞安居房,突然官宣!

干細胞如何讓燒燙傷皮膚"再生"?

教育要聞

相似無刻度直尺作圖,一個視頻學會!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版