網易首頁 > 網易號 > 正文 申請入駐

Claude-Opus-4.6 蒸餾 Qwen3.5 V2 來了

0
分享至

大家好,我是Ai學習的老章

Claude-Opus-4.6 蒸餾 Qwen3.5 我一直很關注:


現在 v2 來了,這次的升級重點不是"更準",而是"更快更省"——同樣的準確率,思維鏈縮短了 24%,每個 Token 產出的正確答案多了 31.6%。


部署條件沒變,Qwen3.5-27B 4bit 單張 4090 即可本地跑起


v2 到底改了啥?

先看核心數據:

指標

v1

v2

變化

HumanEval pass@1

96.95%

96.91%

基本持平

思維鏈長度

基準

縮短 ~24%

顯著減少

每 Token 正確率

基準

+31.6%

大幅提升

HumanEval+

基準

-1.24%

微降

MMLU-Pro

基準

-7.2%

有所下降

簡單說就是:代碼能力幾乎沒掉,但思考效率提升了三成

這意味著什么?同樣一道編程題,v2 想的更少、答得更快,但正確率一樣。對于跑本地模型的人來說,生成速度本來就是瓶頸,少生成 24% 的 Token 就等于快了 24%——還不用加任何硬件。




怎么做到的?

v2 的訓練數據是關鍵。作者 Jackrong 用了14,000 條 Claude 4.6 Opus 風格的通用推理樣本,注意是"通用推理"——數學題、邏輯推理、文字題,不是代碼題

這個設計思路很有意思:不針對代碼刷分,而是讓模型學會一種更高效的"思考腳手架"。結果在 HumanEval(代碼測試)上照樣拿了 96.91%,說明底層推理能力的提升是可以跨任務遷移的

具體來說,v2 學到的推理模式長這樣:

Let me analyze this request carefully:


1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency.

對比 v1 的長篇大論式思考,v2 更像一個有經驗的工程師——先列大綱再下手,不會在簡單問題上反復糾結。這就是 Claude Opus 的推理風格:結構化、有條理、不廢話


訓練細節

技術棧和 v1 一脈相承:

  • 基座模型:Qwen3.5-27B

  • 訓練框架:Unsloth + LoRA SFT

  • 訓練方式:Response-Only Training,只對 assistant 的思考部分做監督

  • 數據量:~14,000 條篩選后的高質量推理軌跡

Base Model (Qwen3.5-27B)


Qwen3.5-27B fine-tuned with Unsloth


Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n " )


Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

數據來源包括幾個公開的 Claude 4.6 Opus 蒸餾數據集:

數據集

用途

Opus-4.6-Reasoning-3000x-filtered

Claude 4.6 Opus 推理軌跡

claude-opus-4.6-10000x

大規模通用推理遷移

claude-4.5-opus-high-reasoning-250x

高強度結構化推理

Qwen3.5-reasoning-700x

補充多樣性推理樣本


代價是什么?

說完優點,也得說缺點。

v2 在 **MMLU-Pro 上掉了 7.2%**,也就是通用知識推理能力有所下降。Jackrong也很坦誠地說了,由于 SFT 數據主要是通用推理類,對長上下文理解和復雜多步推理場景可能不如原版 Qwen3.5。

我的理解是:這是一個典型的"專精 vs 通用"的權衡。如果你主要用來寫代碼、做邏輯推理、解數學題,v2 毫無疑問更好——又快又準。但如果你需要一個什么都能聊的通用模型,原版 Qwen3.5 或者 v1 可能更穩。


怎么跑?

跟之前一樣,GGUF 格式直接用 LM Studio、llama.cpp、Ollama 這些工具跑就行。HuggingFace 上提供了多種量化版本:

模型地址:Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF

之前我用 4090 跑 v1 的 27B 能到 46 Token/s,v2 思維鏈短了 24%,等效推理速度還能再快不少。

總結

v2 的核心價值就一句話:用更少的 Token 辦同樣的事

  • 代碼準確率不掉:HumanEval 96.91%

  • 思維鏈縮短 24%:生成更快,成本更低

  • 每 Token 正確率 +31.6%:推理效率質的飛躍

  • 代價:通用知識推理(MMLU-Pro)下降 7.2%

對于本地部署場景,這種"推理效率優化"比單純提升準確率更有實際價值——畢竟我們的瓶頸往往不是模型不夠聰明,而是它想得太慢。

.5

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全球外交大地震!美俄同月訪華,世界徹底看清,中國才是終極港灣

全球外交大地震!美俄同月訪華,世界徹底看清,中國才是終極港灣

小祁談歷史
2026-04-24 05:23:52
一位漂亮素雅的新娘子!

一位漂亮素雅的新娘子!

情感大頭說說
2026-04-24 04:45:22
田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

以茶帶書
2026-04-23 16:11:50
小寶與王某雷,誰探訪花的數量更多?

小寶與王某雷,誰探訪花的數量更多?

挪威森林
2026-01-31 12:15:26
笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

火山詩話
2026-04-21 09:46:21
身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆都有誰?

身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆都有誰?

小椰的奶奶
2026-04-23 14:52:12
ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

芯火相承
2026-04-23 17:33:03
酒店里,擠滿了偷偷開房的已婚女性

酒店里,擠滿了偷偷開房的已婚女性

二胡的歲月如歌
2026-04-22 19:03:26
更大規模海戰來了?

更大規模海戰來了?

中國新聞周刊
2026-04-22 20:50:08
段睿深夜悲痛發文:再也沒有人等我回去了!

段睿深夜悲痛發文:再也沒有人等我回去了!

原夢叁生
2026-04-22 20:06:36
劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

離離言幾許
2026-04-24 07:12:13
她一嫁演員祝延平,二嫁杜淳老爸杜志國,現在老了與兒子相依為命

她一嫁演員祝延平,二嫁杜淳老爸杜志國,現在老了與兒子相依為命

混沌錄
2026-04-23 17:11:04
單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

思思夜話
2026-04-23 11:30:19
人民日報發文,揭張桂梅真實現狀,卸任華坪女高校長傳聞早有真相

人民日報發文,揭張桂梅真實現狀,卸任華坪女高校長傳聞早有真相

歲暮的歸南山
2026-04-23 16:31:58
5月1日起,3萬塊就能把老板送進去,不明財產門檻卻漲到了300萬!

5月1日起,3萬塊就能把老板送進去,不明財產門檻卻漲到了300萬!

今朝牛馬
2026-04-23 23:23:59
比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或將被切斷

比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或將被切斷

芳芳歷史燴
2026-04-23 18:30:17
遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

極目新聞
2026-04-23 10:00:21
中央定調,2026年養老金或調整,低于3600,補發7個月能漲700嗎?

中央定調,2026年養老金或調整,低于3600,補發7個月能漲700嗎?

游古史
2026-04-24 04:01:53
10萬元不翼而飛!上海老夫妻放在洗衣機里的現金沒了,護工堅稱自己清白,真相竟是→

10萬元不翼而飛!上海老夫妻放在洗衣機里的現金沒了,護工堅稱自己清白,真相竟是→

環球網資訊
2026-04-23 19:39:20
高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

瘋狂小菠蘿
2026-04-23 14:27:12
2026-04-24 09:23:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

手機
教育
親子
房產
公開課

手機要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

教育要聞

相似無刻度直尺作圖,一個視頻學會!

親子要聞

法國寶媽在網上偷偷賣自己的奶!暗訪“母乳黑市”:細菌、乙肝……這能放心喝?

房產要聞

三亞安居房,突然官宣!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版