无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Claude Opus 蒸餾Qwen3.6-35B-A3B,開源了,消費級顯卡輕松跑

0
分享至

兄弟們,Claude Opus 蒸餾 Qwen3.6-35B-A3B 來了——Qwopus3.6-35B-A3B-v1,名字看著像是 Qwen 和 Opus 談了場戀愛生的孩子,跑在單張 5090 上能飆到 161.9 tok/s

模型主頁:huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1

Qwen3.6-35B-A3B 底模是什么

  • 總參數 35B ,實際激活參數只有 3B

  • 共有 256 個專家(experts)

  • 原生支持 262k 超長上下文

  • 架構特點: Gated DeltaNet 線性注意力 + 標準門控注意力混合

  • 定位:高性能 Agent 編碼、深度推理、多模態任務

  • 對比同門 27B 稠密版,吞吐直接起飛

MoE 架構的好處在這里體現得很明顯:推理時只激活一小部分參數,速度快、顯存省


Base Model Benchmark 精調做了什么

Jackrong 在Qwen3.6-35B-A3B上用三階段課程學習 SFT 做了精調:

第一階段(格式建立)
短到中等長度的格式穩定推理樣本,主要任務是把輸出格式和基本推理路徑固定下來,避免底模的風格被破壞

第二階段(復雜度提升 + 多教師蒸餾)
逐步加大復雜推理樣本比例,蒸餾數據來自一個 27B 教師模型——刻意選了跟底模風格接近的,防止能力跨度太大導致學不進去

第三階段(長上下文強化 + 抗漂移)
強化長上下文推理,同時保留 10% 短樣本回放,防止模型忘掉基本指令跟隨能力(災難性遺忘)

訓練方法:LoRA 精調,可訓參數約占總參數的 9%

? 作者自己也寫了:9% 是個有風險的配置——MoE 架構下這么高的可訓參數比例,訓練不穩定和權重合并沖突的概率會顯著上升
關鍵測評數據 Evaluation Screenshot 1 Evaluation Screenshot 2 Evaluation Screenshot 3 Evaluation Screenshot 4 Evaluation Screenshot 5 Evaluation Screenshot 6

速度是最大亮點:

  • RTX 5090 單卡 平均 161.9 tok/s

  • 比同量級 27B 密集模型快 2.6 倍

  • 對消費級單卡來說,這個吞吐率相當驚人

特別擅長的場景:

  • 一鍵生成 HTML/CSS 前端 :評測報告說這是目前最強的開源 one-shot 前端生成模型之一,生成的頁面帶復雜微交互和動效組件,功能完整、可直接用

  • 復雜推理 + 長上下文 JSON 提取 :修復了早期版本的 "thinking starvation" 問題,多步 Agent 規劃的結構化輸出更穩定

  • 原生 Vision + Tool Calling :如果要開視覺能力,需要把 mmproj.gguf 放到主 .gguf 同目錄下

  • 262K 上下文 + 顯存基本不漲 :歸功于 Gated DeltaNet 的線性注意力,序列拉再長,顯存也不會爆炸

還放出了 GGUF 量化版,本地跑非常省事

地址:Jackrong/Qwopus3.6-35B-A3B-v1-GGUF


?? 一個坑要先說清楚

如果你想在本地做 LoRA 微調或合并權重,注意:

? PEFT/LoRA + Transformers 5.x + Unsloth 補丁三者之間有已知兼容性問題

合并 LoRA 權重時可能報錯,類似:

ModuleNotFoundError: Could not import module 'Qwen3_5MoeForContinualGeneration'

MoE 專家層的權重結構跟普通密集模型差很多,容易觸發結構不匹配。如果要在本地精調,做好手動打補丁或降級特定庫版本的心理準備

老章怎么看

這個模型的價值點在于:把 35B 規模的 MoE 在消費級單卡上跑出了接近專業級的吞吐

對做 UI 生成、Agent 編排、長上下文推理的開發者來說,這個模型值得試一試。精調質量加上 MoE 的速度優勢,在同類社區模型里算是比較亮眼的

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
快速入睡無成癮!又一國產安眠新藥即將落地,3億失眠人有解了?

快速入睡無成癮!又一國產安眠新藥即將落地,3億失眠人有解了?

思思夜話
2026-05-12 16:51:58
32+35+43!聯盟第1!這就是騎士給他1.5億美金大合同的原因

32+35+43!聯盟第1!這就是騎士給他1.5億美金大合同的原因

世界體育圈
2026-05-12 18:57:17
才火1個月就涼了?莫氏雞煲無人排隊,網友:遲早的事!

才火1個月就涼了?莫氏雞煲無人排隊,網友:遲早的事!

雷科技
2026-05-11 18:05:22
劉三姐“全裸演出”引爭議,張藝謀惹怒全網

劉三姐“全裸演出”引爭議,張藝謀惹怒全網

營銷頭版
2026-05-10 20:09:26
越來越多的小城市和縣城,只剩下體制內經濟了!

越來越多的小城市和縣城,只剩下體制內經濟了!

燈錦年
2026-05-12 21:06:47
耶魯大學顛覆性發現:你常吃的健康食用油,竟會促進胰腺癌發生

耶魯大學顛覆性發現:你常吃的健康食用油,竟會促進胰腺癌發生

醫諾維
2026-05-11 17:02:18
起底 Token 中轉黑色產業鏈:日賺 200 萬美金!大佬扎堆入局,灰色套利套路碾壓現金貸

起底 Token 中轉黑色產業鏈:日賺 200 萬美金!大佬扎堆入局,灰色套利套路碾壓現金貸

新浪財經
2026-05-12 00:15:49
太甜蜜!梁靖崑倫敦世乒賽登頂奪冠,嬌妻專程遠赴現場,復婚后滿眼寵溺

太甜蜜!梁靖崑倫敦世乒賽登頂奪冠,嬌妻專程遠赴現場,復婚后滿眼寵溺

TVB的四小花
2026-05-13 01:00:44
深夜,全線下跌!美聯儲,突傳重磅!

深夜,全線下跌!美聯儲,突傳重磅!

券商中國
2026-05-12 22:39:48
錢更難掙了!送面條老板哭訴每天送貨量減半,旁邊一大排店面空置

錢更難掙了!送面條老板哭訴每天送貨量減半,旁邊一大排店面空置

火山詩話
2026-05-12 13:45:35
同一天兩起猝死!馬拉松再現悲?。焊邷?低齡參賽

同一天兩起猝死!馬拉松再現悲?。焊邷?低齡參賽

老王談跑步
2026-05-12 15:03:29
A·史密斯認為尼克斯隊,是勒布朗·詹姆斯5億美元合同的最佳選擇

A·史密斯認為尼克斯隊,是勒布朗·詹姆斯5億美元合同的最佳選擇

好火子
2026-05-13 00:41:17
“新能源車普遍偏大一點,我停在車位上,左右車門都不能打得特別開,有時候人都出不去……”最近不少車主感嘆:停車位縮水了?

“新能源車普遍偏大一點,我停在車位上,左右車門都不能打得特別開,有時候人都出不去……”最近不少車主感嘆:停車位縮水了?

都市快報橙柿互動
2026-05-12 15:26:35
青海17歲女學生溺亡!主動去的橋邊,知情人曝猛料,恐不止是意外

青海17歲女學生溺亡!主動去的橋邊,知情人曝猛料,恐不止是意外

北緯的咖啡豆
2026-05-12 11:29:42
創造歷史!國少隊2比0完勝卡塔爾:時隔21年重返世少賽

創造歷史!國少隊2比0完勝卡塔爾:時隔21年重返世少賽

邱澤云
2026-05-13 02:36:31
國家德比時亞馬爾造型吸睛,愛馬仕胸包大約7000至13000歐元

國家德比時亞馬爾造型吸睛,愛馬仕胸包大約7000至13000歐元

懂球帝
2026-05-12 09:44:11
央視與國際足聯談判破裂,越南1500萬購中國8000萬嫌貴

央視與國際足聯談判破裂,越南1500萬購中國8000萬嫌貴

無意爭春
2026-05-12 12:24:43
中紀委連發禁令:機關事業單位職工注意,這7種飯局一參加就出局

中紀委連發禁令:機關事業單位職工注意,這7種飯局一參加就出局

細說職場
2026-05-10 09:55:02
東北3歲小網紅吃播沉浸式吃飯,4大疑點持續引發爭議

東北3歲小網紅吃播沉浸式吃飯,4大疑點持續引發爭議

九方魚論
2026-05-11 09:16:33
徹底撕破臉!央視硬剛天價轉播費后,資本報復手段簡直不堪入目

徹底撕破臉!央視硬剛天價轉播費后,資本報復手段簡直不堪入目

真的好愛你
2026-05-12 06:49:30
2026-05-13 04:23:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3395文章數 11150關注度
往期回顧 全部

數碼要聞

Google發布全新AI原生筆記本產品線Googlebooks

頭條要聞

特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

頭條要聞

特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

體育要聞

騎士終于玩明白了?

娛樂要聞

白鹿風波升級!掉粉20萬評論區淪陷

財經要聞

利潤再腰斬 京東干外賣后就沒過過好日子

科技要聞

宇樹發布載人變形機甲,定價390萬元起

汽車要聞

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態度原創

藝術
本地
房產
手機
公開課

藝術要聞

震驚!他竟用鏡頭看透了所有女人的秘密!

本地新聞

用蘇繡的方式,打開江西婺源

房產要聞

穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

手機要聞

Android推新功能“暫停點” 助用戶擺脫刷手機上癮

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版