網易首頁 > 網易號 > 正文申請入駐

Claude Opus 蒸餾 Qwen3.6-27B，v2 來了

2026-05-23 16:16:59　來源: Ai學習的老章

北京舉報

分享至

繼續挖有意思的社區項目 ——Qwopus3.6-27B-v2

作者 Jackrong 上來就給出了一個很賊的思路：商用閉源模型（Claude、GPT）只會給你看高度壓縮的"推理氣泡"，你想蒸餾？其實很難

那就自己造一個 Trace-Inverter，把那些跳步的結論反推回完整的逐步思考鏈，再喂給學生模型

? ?? 先打預防針：這是一個實驗性社區發布，沒有做過完整的安全評估，也沒跑過標準基準全集，作者明確說僅供研究和探索

簡介

Qwopus3.6-27B-v2是一個基于阿里Qwen3.6-27B Dense 模型做 SFT 微調的推理增強模型，整個項目的"靈魂"是兩個東西：

1. Trace Inversion 數據

作者訓了一個專門的反向解碼器 Trace-Inverter-4B（底座是 Qwen3-4B-Instruct），干一件事：

壓縮氣泡（Claude 輸出）
        ↓
   Trace-Inverter-4B
        ↓
完整 step-by-step 的 Learnable CoT

然后把還原出來的 CoT 嵌進標簽，和原 prompt / response 重新拼成 SFT 樣本，最終產出兩個數據集：

claude-opus-4.6-traceInversion-9000x：9,000 條高質量逐步推理軌跡
claude-opus-4.7-traceInversion-5000x：5,000 條復雜多輪邏輯和數學樣本

2. 三階段課程學習 SFT

Phase 1: Format Inception      ( < 4096 tokens, 把格式打穩 )
Phase 2: Complexity Expansion  ( 4096 - 8192, 上中等復雜度推理 )
Phase 3: Long-Context SFT      ( 8192 - 32K, 長上下文 + 10% 回放 )

逐步把 context 拉長、把任務復雜度堆上去，避免長上下文翻車

模型核心特征：

27B Dense Transformer，原生支持 32K / 128K 長上下文
? 原生支持 Vision（需要下mmproj.gguf）和 Tool-use / Function-calling
標簽格式嚴格收斂，方便接下游 RL
跨源 SFT 對齊 + 多教師蒸餾，專門補"能力鴻溝"

訓練框架用的是Unsloth：

核心創新：什么是"推理氣泡"反演？
Trace Inversion · 推理氣泡反向解碼

這部分是整個項目最值得講清楚的地方，搞蒸餾的同學一定要看

【傳統蒸餾的坑】
GPT-4o / Claude 3.5 Sonnet
   ↓ (輸出)
壓縮過的"推理氣泡"（跳步、省略中間過程）
   ↓ (學生硬學)
學到一堆"跳步結論"，缺底層推導 → 邏輯斷裂、泛化崩盤


 【Trace Inversion 思路】
壓縮氣泡 + 答案
   ↓ Trace-Inverter-4B (邏輯重建器)
完整連續的 CoT 鏈
   ↓
嵌進 
 
 標簽做 SFT 
 
   ↓
學生學到的是"推導過程"，不是"跳步答案"

作者管這個叫"負熵重建"（Negentropy Reconstruction），把信息壓縮里損失的中間步驟，靠一個專門訓練的反演模型補回來

我個人覺得這個思路很有想象力，比直接拿商用模型的 raw output 當 ground truth 香多了，可惜的是 Trace-Inverter 本身的還原質量是整套方法的天花板，**如果反演不準，等于在教學生"假裝推理"**，這點作者沒有詳細給出還原準確率，是個想深入研究的同學需要自己測的點

性能數據：Token 省 35%，準確率漲 2.57pp
Qwopus 3.6 vs Qwen 3.6 · 數據說話

這是我最關心的部分，先看效率：

? 推理效率（核心亮點）

維度

Qwen3.6-27B

Qwopus3.6-27B-v2

收益

答對題平均 token

1,433.3

少 35.9%

系統級 token 開銷

2,511.0

2,155.8

少 14.2%

每萬 token 答對數

3.98

4.64+16.6%

思考鏈長度（字符）

5,169.4

2,370.0短 54.1%

答對同一道題，新模型平均少花 35.9% 的 token，思考鏈直接砍半，token 轉化效率提升 16.6%

MMLU-Pro 子集（350 題，7 個類別 × 50）

模型

正確數

準確率

Qwen3.6-27B

297 / 350

84.86%

Qwopus3.6-27B-v2306 / 35087.43%（+2.57pp）

分項里 Business、Physics、Chemistry 都大幅領先，Math 和 Health 反而退步，說明 Trace Inversion 對偏推理的硬核學科收益更大

SWE-bench Verified

配置

解決數

解決率

Qwopus 3.6 27B v2（Dense, temp 1.0）

152 / 202

75.25%

單卡 RTX 5090 跑了 19h 29min，160K fp16 上下文窗口，全部樣本Submitted退出，0 步數耗盡、0 上下文溢出

作者有個反直覺的發現：Agent 任務一定要"高溫度"跑，temp=1.0 + thinking-on 反而能避免推理回路；greedy（temp=0.1）會讓模型過度思考、在塊里無限循環

這條經驗值錢，單獨拎出來：

? Agent 別迷信 temp 0，Qwopus 這種 SFT 出來的模型，需要 temperature 幫它"跳出"訓練時的推理 attractor

Web Design / Canvas / Agent 任務

5 道 Web 頁面生成全部通過（SaaS Landing / 數據看板 / 設計師作品集 / Pricing / 移動 App 營銷頁），WebGL 創意編程也有 Particle Attractor、Generative Flowfield、Soft-Body Physics、Audio Visualizer 這些發布版本

5 個 Agent prompt 全過：多步部署規劃、工具調用規劃、4 個 bug 的代碼調試、結構化抽取、自我批評循環都拿下來了

部署：本地能跑嗎？要多少顯存？

倉庫已經提供了一整套 GGUF 量化版本，覆蓋從 IQ4_XS 到 Q8_0：

Qwopus3.6-27B-v2-IQ4_XS.gguf
Qwopus3.6-27B-v2-Q2_K.gguf
Qwopus3.6-27B-v2-Q3_K_S/M/L.gguf
Qwopus3.6-27B-v2-Q4_K_S/M.gguf
Qwopus3.6-27B-v2-Q5_K_S/M.gguf
Qwopus3.6-27B-v2-Q6_K.gguf
Qwopus3.6-27B-v2-Q8_0.gguf
mmproj.gguf   # 想用 Vision 功能必下

實測吞吐（RTX 5090, Q5_K_M）：

配置

平均吞吐

VRAM 占用

上下文

Dense 27B v2（Q5）

43.9 tok/s

~31 GB

160K fp16

MoE 35B-A3B 兄弟版（Q5）

161.9 tok/s

~25 GB

65K q8

注意這個對比有點反直覺：MoE 兄弟版吞吐高 3.7 倍（因為 A3B 路由只激活 3B），但作者明確推薦Dense 27B 用來跑復雜 Agent / 長上下文 / 代碼任務，單 token 推理深度更扎實

Dense 27B 的吞吐方差只有 ±0.75 tok/s，完全卡在顯存帶寬上，所以你換更高帶寬的顯存就能直接起飛

llama.cpp 跑起來

./llama-server \
    -m Qwopus3.6-27B-v2-Q5_K_M.gguf \
    --mmproj mmproj.gguf \
    -c 32768 \
    --jinja \
    --temp 1.0

Agent 任務記得 temp 拉到 1.0，按作者的話講：別 greedy，會陷入推理回路

MTP 加速：1.66x

作者還開源了一套針對 Qwen 系列Multi-Token Prediction (MTP) heads的拆分合并方法，帶 MTP 頭的 Qwopus3.6-27B-v2-MTP 版本，比官方 Qwen3.6 推理速度快 1.66x，相當贊

訓練數據來自哪里？

公開的兩個數據集都掛在作者 HF 主頁：

合起來 14,000 條 Trace Inversion 樣本，規模不算大，但質量優于數量這個策略目前看是 work 的

我的一些想法

挑點真心話講：

優點：

思路新：Trace Inversion 是個非常聰明的方向，繞開了"壓縮氣泡"的信息熵陷阱
Token 效率真高：35.9% 的輸出 token 減少是看得見的省錢，部署成本直接打折
SWE-bench 75.25% 不虛：單卡 5090 跑出來的 152/202 數據足夠亮眼
生態完整：GGUF 全檔位、MTP 加速、mmproj 視覺支持、數據集開源，社區項目里少見的完整度

需要警惕的地方：

基準是子集：MMLU-Pro 只測了 350 題，不是全集，作者也明說"due to limited resources"
沒第三方復現：所有數據都是作者自測，建議跑業務前自己再 benchmark 一下
安全評估缺失：實驗性發布，企業生產環境慎入
Trace-Inverter 的還原準確率沒公開：整套方法的天花板取決于這個小模型靠不靠譜
Mathematics 和 Health 是退步的：說明 Trace Inversion 也不是萬能藥

適合誰？

玩本地推理、想在 27B 這個甜點檔位找個 Reasoning Model 的同學
跑 Agent / 代碼任務需要長上下文 + 工具調用的開發者
對蒸餾方法本身感興趣、想研究 Trace Inversion 的研究者
RTX 5090 / 4090 雙卡 / Mac Studio 這類配置的本地玩家

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.