網易首頁 > 網易號 > 正文申請入駐

Claude-Opus-4.6 蒸餾 Qwen3.5 V2 來了

2026-03-26 07:07:30　來源: Ai學習的老章

北京舉報

分享至

大家好，我是Ai學習的老章

Claude-Opus-4.6 蒸餾 Qwen3.5 我一直很關注：

現在 v2 來了，這次的升級重點不是"更準"，而是"更快更省"——同樣的準確率，思維鏈縮短了 24%，每個 Token 產出的正確答案多了 31.6%。

部署條件沒變，Qwen3.5-27B 4bit 單張 4090 即可本地跑起

v2 到底改了啥？

先看核心數據：

指標

變化

HumanEval pass@1

96.95%

96.91%

基本持平

思維鏈長度

基準

縮短 ~24%

顯著減少

每 Token 正確率

基準

+31.6%

大幅提升

HumanEval+

基準

-1.24%

微降

MMLU-Pro

基準

-7.2%

有所下降

簡單說就是：代碼能力幾乎沒掉，但思考效率提升了三成。

這意味著什么？同樣一道編程題，v2 想的更少、答得更快，但正確率一樣。對于跑本地模型的人來說，生成速度本來就是瓶頸，少生成 24% 的 Token 就等于快了 24%——還不用加任何硬件。

怎么做到的？

v2 的訓練數據是關鍵。作者 Jackrong 用了14,000 條 Claude 4.6 Opus 風格的通用推理樣本，注意是"通用推理"——數學題、邏輯推理、文字題，不是代碼題。

這個設計思路很有意思：不針對代碼刷分，而是讓模型學會一種更高效的"思考腳手架"。結果在 HumanEval（代碼測試）上照樣拿了 96.91%，說明底層推理能力的提升是可以跨任務遷移的。

具體來說，v2 學到的推理模式長這樣：

Let me analyze this request carefully:


 1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency.

對比 v1 的長篇大論式思考，v2 更像一個有經驗的工程師——先列大綱再下手，不會在簡單問題上反復糾結。這就是 Claude Opus 的推理風格：結構化、有條理、不廢話。

訓練細節

技術棧和 v1 一脈相承：

基座模型：Qwen3.5-27B
訓練框架：Unsloth + LoRA SFT
訓練方式：Response-Only Training，只對 assistant 的思考部分做監督
數據量：~14,000 條篩選后的高質量推理軌跡

Base Model (Qwen3.5-27B)
 │
 ▼
Qwen3.5-27B fine-tuned with Unsloth
 │
 ▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n 

 " 
)
 │
 ▼
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

數據來源包括幾個公開的 Claude 4.6 Opus 蒸餾數據集：

數據集

用途

Opus-4.6-Reasoning-3000x-filtered

Claude 4.6 Opus 推理軌跡

claude-opus-4.6-10000x

大規模通用推理遷移

claude-4.5-opus-high-reasoning-250x

高強度結構化推理

Qwen3.5-reasoning-700x

補充多樣性推理樣本

代價是什么？

說完優點，也得說缺點。

v2 在 **MMLU-Pro 上掉了 7.2%**，也就是通用知識推理能力有所下降。Jackrong也很坦誠地說了，由于 SFT 數據主要是通用推理類，對長上下文理解和復雜多步推理場景可能不如原版 Qwen3.5。

我的理解是：這是一個典型的"專精 vs 通用"的權衡。如果你主要用來寫代碼、做邏輯推理、解數學題，v2 毫無疑問更好——又快又準。但如果你需要一個什么都能聊的通用模型，原版 Qwen3.5 或者 v1 可能更穩。

怎么跑？

跟之前一樣，GGUF 格式直接用 LM Studio、llama.cpp、Ollama 這些工具跑就行。HuggingFace 上提供了多種量化版本：

模型地址：Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF

之前我用 4090 跑 v1 的 27B 能到 46 Token/s，v2 思維鏈短了 24%，等效推理速度還能再快不少。

總結

v2 的核心價值就一句話：用更少的 Token 辦同樣的事。

代碼準確率不掉：HumanEval 96.91%
思維鏈縮短 24%：生成更快，成本更低
每 Token 正確率 +31.6%：推理效率質的飛躍
代價：通用知識推理（MMLU-Pro）下降 7.2%

對于本地部署場景，這種"推理效率優化"比單純提升準確率更有實際價值——畢竟我們的瓶頸往往不是模型不夠聰明，而是它想得太慢。

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.