无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Claude Opus 蒸餾 Qwen3.6-27B,v2 來了

0
分享至

繼續挖有意思的社區項目 ——Qwopus3.6-27B-v2

作者 Jackrong 上來就給出了一個很賊的思路:商用閉源模型(Claude、GPT)只會給你看高度壓縮的"推理氣泡",你想蒸餾?其實很難

那就自己造一個 Trace-Inverter,把那些跳步的結論反推回完整的逐步思考鏈,再喂給學生模型

? ?? 先打預防針:這是一個實驗性社區發布,沒有做過完整的安全評估,也沒跑過標準基準全集,作者明確說僅供研究和探索
簡介

Qwopus3.6-27B-v2是一個基于阿里Qwen3.6-27B Dense 模型做 SFT 微調的推理增強模型,整個項目的"靈魂"是兩個東西:

1. Trace Inversion 數據

作者訓了一個專門的反向解碼器 Trace-Inverter-4B(底座是 Qwen3-4B-Instruct),干一件事:

壓縮氣泡(Claude 輸出)

Trace-Inverter-4B

完整 step-by-step 的 Learnable CoT

然后把還原出來的 CoT 嵌進 標簽,和原 prompt / response 重新拼成 SFT 樣本,最終產出兩個數據集:

  • claude-opus-4.6-traceInversion-9000x:9,000 條高質量逐步推理軌跡

  • claude-opus-4.7-traceInversion-5000x:5,000 條復雜多輪邏輯和數學樣本

2. 三階段課程學習 SFT

Phase 1: Format Inception      ( < 4096 tokens, 把格式打穩 )
Phase 2: Complexity Expansion ( 4096 - 8192, 上中等復雜度推理 )
Phase 3: Long-Context SFT ( 8192 - 32K, 長上下文 + 10% 回放 )

逐步把 context 拉長、把任務復雜度堆上去,避免長上下文翻車

模型核心特征:

  • 27B Dense Transformer,原生支持 32K / 128K 長上下文

  • ? 原生支持 Vision(需要下mmproj.gguf)和 Tool-use / Function-calling

  • 標簽格式嚴格收斂,方便接下游 RL

  • 跨源 SFT 對齊 + 多教師蒸餾,專門補"能力鴻溝"

訓練框架用的是Unsloth

核心創新:什么是"推理氣泡"反演?
Trace Inversion · 推理氣泡反向解碼

這部分是整個項目最值得講清楚的地方,搞蒸餾的同學一定要看

【傳統蒸餾的坑】
GPT-4o / Claude 3.5 Sonnet
↓ (輸出)
壓縮過的"推理氣泡"(跳步、省略中間過程)
↓ (學生硬學)
學到一堆"跳步結論",缺底層推導 → 邏輯斷裂、泛化崩盤


【Trace Inversion 思路】
壓縮氣泡 + 答案
↓ Trace-Inverter-4B (邏輯重建器)
完整連續的 CoT 鏈

嵌進 標簽做 SFT

學生學到的是"推導過程",不是"跳步答案"

作者管這個叫"負熵重建"(Negentropy Reconstruction),把信息壓縮里損失的中間步驟,靠一個專門訓練的反演模型補回來

我個人覺得這個思路很有想象力,比直接拿商用模型的 raw output 當 ground truth 香多了,可惜的是 Trace-Inverter 本身的還原質量是整套方法的天花板,**如果反演不準,等于在教學生"假裝推理"**,這點作者沒有詳細給出還原準確率,是個想深入研究的同學需要自己測的點

性能數據:Token 省 35%,準確率漲 2.57pp
Qwopus 3.6 vs Qwen 3.6 · 數據說話

這是我最關心的部分,先看效率:

? 推理效率(核心亮點)

維度

Qwen3.6-27B

Qwopus3.6-27B-v2

收益

答對題平均 token

1,433.3

少 35.9%

系統級 token 開銷

2,511.0

2,155.8

少 14.2%

每萬 token 答對數

3.98

4.64+16.6%

思考鏈長度(字符)

5,169.4

2,370.0短 54.1%

答對同一道題,新模型平均少花 35.9% 的 token,思考鏈直接砍半,token 轉化效率提升 16.6%

MMLU-Pro 子集(350 題,7 個類別 × 50)

模型

正確數

準確率

Qwen3.6-27B

297 / 350

84.86%

Qwopus3.6-27B-v2306 / 35087.43%(+2.57pp)

分項里 Business、Physics、Chemistry 都大幅領先,Math 和 Health 反而退步,說明 Trace Inversion 對偏推理的硬核學科收益更大

SWE-bench Verified

配置

解決數

解決率

Qwopus 3.6 27B v2(Dense, temp 1.0)

152 / 202

75.25%

單卡 RTX 5090 跑了 19h 29min,160K fp16 上下文窗口,全部樣本Submitted退出,0 步數耗盡、0 上下文溢出

作者有個反直覺的發現:Agent 任務一定要"高溫度"跑,temp=1.0 + thinking-on 反而能避免推理回路;greedy(temp=0.1)會讓模型過度思考、在 塊里無限循環

這條經驗值錢,單獨拎出來:

? Agent 別迷信 temp 0,Qwopus 這種 SFT 出來的模型,需要 temperature 幫它"跳出"訓練時的推理 attractor
Web Design / Canvas / Agent 任務

5 道 Web 頁面生成全部通過(SaaS Landing / 數據看板 / 設計師作品集 / Pricing / 移動 App 營銷頁),WebGL 創意編程也有 Particle Attractor、Generative Flowfield、Soft-Body Physics、Audio Visualizer 這些發布版本

5 個 Agent prompt 全過:多步部署規劃、工具調用規劃、4 個 bug 的代碼調試、結構化抽取、自我批評循環都拿下來了

部署:本地能跑嗎?要多少顯存?

倉庫已經提供了一整套 GGUF 量化版本,覆蓋從 IQ4_XS 到 Q8_0:

Qwopus3.6-27B-v2-IQ4_XS.gguf
Qwopus3.6-27B-v2-Q2_K.gguf
Qwopus3.6-27B-v2-Q3_K_S/M/L.gguf
Qwopus3.6-27B-v2-Q4_K_S/M.gguf
Qwopus3.6-27B-v2-Q5_K_S/M.gguf
Qwopus3.6-27B-v2-Q6_K.gguf
Qwopus3.6-27B-v2-Q8_0.gguf
mmproj.gguf # 想用 Vision 功能必下

實測吞吐(RTX 5090, Q5_K_M):

配置

平均吞吐

VRAM 占用

上下文

Dense 27B v2(Q5)

43.9 tok/s

~31 GB

160K fp16

MoE 35B-A3B 兄弟版(Q5)

161.9 tok/s

~25 GB

65K q8

注意這個對比有點反直覺:MoE 兄弟版吞吐高 3.7 倍(因為 A3B 路由只激活 3B),但作者明確推薦Dense 27B 用來跑復雜 Agent / 長上下文 / 代碼任務,單 token 推理深度更扎實

Dense 27B 的吞吐方差只有 ±0.75 tok/s,完全卡在顯存帶寬上,所以你換更高帶寬的顯存就能直接起飛

llama.cpp 跑起來

./llama-server \
-m Qwopus3.6-27B-v2-Q5_K_M.gguf \
--mmproj mmproj.gguf \
-c 32768 \
--jinja \
--temp 1.0

Agent 任務記得 temp 拉到 1.0,按作者的話講:別 greedy,會陷入推理回路

MTP 加速:1.66x

作者還開源了一套針對 Qwen 系列Multi-Token Prediction (MTP) heads的拆分合并方法,帶 MTP 頭的 Qwopus3.6-27B-v2-MTP 版本,比官方 Qwen3.6 推理速度快 1.66x,相當贊


訓練數據來自哪里?

公開的兩個數據集都掛在作者 HF 主頁:


合起來 14,000 條 Trace Inversion 樣本,規模不算大,但質量優于數量這個策略目前看是 work 的

我的一些想法

挑點真心話講:

優點:

  • 思路新:Trace Inversion 是個非常聰明的方向,繞開了"壓縮氣泡"的信息熵陷阱

  • Token 效率真高:35.9% 的輸出 token 減少是看得見的省錢,部署成本直接打折

  • SWE-bench 75.25% 不虛:單卡 5090 跑出來的 152/202 數據足夠亮眼

  • 生態完整:GGUF 全檔位、MTP 加速、mmproj 視覺支持、數據集開源,社區項目里少見的完整度

需要警惕的地方:

  • 基準是子集:MMLU-Pro 只測了 350 題,不是全集,作者也明說"due to limited resources"

  • 沒第三方復現:所有數據都是作者自測,建議跑業務前自己再 benchmark 一下

  • 安全評估缺失:實驗性發布,企業生產環境慎入

  • Trace-Inverter 的還原準確率沒公開:整套方法的天花板取決于這個小模型靠不靠譜

  • Mathematics 和 Health 是退步的:說明 Trace Inversion 也不是萬能藥

適合誰?
  • 玩本地推理、想在 27B 這個甜點檔位找個 Reasoning Model 的同學

  • 跑 Agent / 代碼任務需要長上下文 + 工具調用的開發者

  • 對蒸餾方法本身感興趣、想研究 Trace Inversion 的研究者

  • RTX 5090 / 4090 雙卡 / Mac Studio 這類配置的本地玩家

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“我朝思暮想要住在女婿旁邊”,杭州72歲丈母娘選房現場落淚:女兒去世后他一直照顧我,別人家兒子都沒這么好;女婿:若再婚也會帶著她

“我朝思暮想要住在女婿旁邊”,杭州72歲丈母娘選房現場落淚:女兒去世后他一直照顧我,別人家兒子都沒這么好;女婿:若再婚也會帶著她

都市快報橙柿互動
2026-06-17 22:17:34
上海這天,林志玲扁頭油膩,王玉雯驚艷,孫儷穿對衣服狀態回春

上海這天,林志玲扁頭油膩,王玉雯驚艷,孫儷穿對衣服狀態回春

一個小豹子
2026-06-16 20:23:20
陳紅曬全家福,兒子兒媳顏值高很般配,自曝前夫一直跟著她想復婚

陳紅曬全家福,兒子兒媳顏值高很般配,自曝前夫一直跟著她想復婚

喜歡歷史的阿繁
2026-06-18 02:13:58
還是來了,為了制裁中國,特朗普開出天價籌碼!普京這次真心動了

還是來了,為了制裁中國,特朗普開出天價籌碼!普京這次真心動了

史料布籍
2026-06-17 10:27:47
正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

健康科普365
2026-05-09 21:05:04
有梅西勝率76%,沒他75%!名記直言:梅西是球王,但阿根廷走不遠

有梅西勝率76%,沒他75%!名記直言:梅西是球王,但阿根廷走不遠

圣西羅的太陽
2026-06-17 12:07:38
在美菲壓力下,中方已撤出在黃巖島安裝的所謂設施?外交部:敦促有關國家立即停止造謠污蔑

在美菲壓力下,中方已撤出在黃巖島安裝的所謂設施?外交部:敦促有關國家立即停止造謠污蔑

每日經濟新聞
2026-06-17 15:58:49
20萬家公司倒閉,欠薪暴漲94%,克里姆林宮嘴里的“穩中向好”?

20萬家公司倒閉,欠薪暴漲94%,克里姆林宮嘴里的“穩中向好”?

戧詞奪理
2026-06-17 16:00:17
離開東方甄選活不下去?曾經跟著董宇輝的明明如今帶貨榜直接反超

離開東方甄選活不下去?曾經跟著董宇輝的明明如今帶貨榜直接反超

情感大頭說說
2026-06-18 01:10:50
3-2!3-0!世聯賽:有驚無險,中國女排3:2逆轉德國女排

3-2!3-0!世聯賽:有驚無險,中國女排3:2逆轉德國女排

寶哥精彩賽事
2026-06-17 21:49:22
穆勒曬和梅西的合照:這家伙是goat

穆勒曬和梅西的合照:這家伙是goat

懂球帝
2026-06-17 11:44:39
烏軍在多戰場取得重大突破,俄軍節節敗退。

烏軍在多戰場取得重大突破,俄軍節節敗退。

世界探索發現
2026-04-22 01:08:43
特朗普罵奧巴馬“蠢貨”,《觀點》主持人群嘲:你的協議更爛?

特朗普罵奧巴馬“蠢貨”,《觀點》主持人群嘲:你的協議更爛?

追星雷達站
2026-06-18 01:00:22
你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

夜深愛雜談
2026-03-16 22:21:03
賭王三太陳婉珍究竟有多美?一組最全的老照片,帶你了解真正三太

賭王三太陳婉珍究竟有多美?一組最全的老照片,帶你了解真正三太

夢醉為紅顏一笑
2026-06-12 20:44:29
中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的

中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的

明天后天大后天
2026-06-17 04:42:38
佛山徹底失守!廣東第三城易主

佛山徹底失守!廣東第三城易主

洞見報告
2026-05-02 18:55:22
特朗普突然表態:以色列不用?;?,但必須"保持分寸"

特朗普突然表態:以色列不用?;?,但必須"保持分寸"

桂系007
2026-06-17 23:50:23
官方:B席加盟皇馬,雙方簽約至2028年

官方:B席加盟皇馬,雙方簽約至2028年

懂球帝
2026-06-17 17:23:22
再訪蔡磊:每天工作12小時,只有死亡才能讓我停下

再訪蔡磊:每天工作12小時,只有死亡才能讓我停下

一條
2026-06-17 11:25:07
2026-06-18 04:35:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

教育
親子
房產
公開課
軍事航空

教育要聞

認知天性|一本改變你人生的書

親子要聞

你把我也嚇一跳,真的沒必要

房產要聞

最新房價:???、三亞;新房、二手房全線下跌!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進入關懷版