網易首頁 > 網易號 > 正文 申請入駐

Mythos架構被22歲小伙“逆推”開源了!MoE和注意力借鑒DeepSeek

0
分享至

夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI

聽說Mythos太危險被封印?有人反手就給他“重建”并開源了。

OpenMythos,整合了公開研究和目前對Claude Mythos架構的主流推測。



OpenMythos實現了一個帶有MoE路由機制的循環深度Transformer(Recurrent-Depth Transformer ,RDT),通過跨專家的權重共享和條件計算來實現迭代深度。

已有研究證實,這種架構僅用1半參數,就能獲得與傳統模型同等的效果。

不堆參數,堆循環

把這些碎片拼在一起的人叫Kye Gomez,22歲,Swarms智能體框架創始人。



他設計的RDT架構有三個核心點:

  • 讓同一組權重最多反復跑16遍
  • 每次走不同的專家路徑
  • 推理全程在潛在空間完成。

三者合力,讓一個問題“想更多遍”比堆參數更高效。

過去兩年,AI行業的標準打法是堆疊上百層不同的Transformer層,每層學到不同的東西,參數量直接爆炸。

RDT不用上百層,只用幾層,最多反復循環跑16遍,每一遍都基于前一輪的結果繼續計算。



同一個東西跑16遍,那不是浪費算力嗎?

RDT的回答是不會重復,因為每次循環激活的是不同的“專家”

循環塊內部用了混合專家層,MoE路由器在每次循環中激活不同的專家子集。

MoE的設計上借鑒了DeepSeekMoE:大量細粒度路由專家,加少量始終在線的共享專家。

Gomez把這套設計總結成一句話:

MoE提供領域知識的廣度,循環提供推理的深度。

廣度和深度都有了,還需要一套穩定性機制保證循環不會跑飛。

來自UCSD和Together AI的新論文Parcae: Scaling Laws For Stable Looped Language Models提出LTI穩定循環注入讓每輪不發散。

實驗中用770M參數的RDT追平了1.3B參數的標準Transformer。

參數量少了近一半,效果一樣。



最后一塊拼圖是連續潛在空間推理。16輪推理全部在hidden state向量中完成,不生成任何中間token。直到最后一輪循環結束,才輸出答案。

這和Chain-of-Thought完全不同。CoT是“想一步,寫一步,再想一步,再寫一步”,中間token全部暴露給人類閱讀。

RDT是“想完16遍才說一句話”,推理過程完全內化。



Kye還引用了俄亥俄州立大學的一篇論文,對循環Transformer架構做了兩個關鍵實驗。



第一個:系統性泛化。

訓練時從沒見過的知識組合,推理時循環Transformer照樣能答對,標準Transformer直接失敗。

這證明循環不是重復計算,是真正的”更深層思考”。

第二個:深度外推。

訓練時只教了20跳推理鏈,測試時直接給30跳。

循環Transformer的應對方式就是在推理時多加幾輪循環,標準Transformer直接崩潰。

這些結果說明當前大模型在預訓練中已經記住了大量事實,瓶頸在于知識組合。

它們無法將已知事實串聯起來回答新穎問題。循環似乎免費解鎖了這種組合能力。

如果這些結論成立,Scaling的主流將從”訓練更大的模型”轉向“讓現有模型在推理時多想幾遍”。

有了這些研究結果,Anthropic的Mythos是否真的用了這套架構,似乎已經不重要了。

對循環Transformer的猜想已經吸引了來自學術界的大量目光。

更多理論和實驗驗證正在路上。

GitHub:
https://github.com/kyegomez/OpenMythos#the-central-hypothesis

參考鏈接:
[1]
https://x.com/KyeGomezB/status/2045660378844024994
[2]
https://arxiv.org/abs/2604.07822
[3]
https://arxiv.org/abs/2604.12946

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
悲哀!26歲女孩大半年攢下1萬元,想去旅游被母親怒斥不管弟弟了

悲哀!26歲女孩大半年攢下1萬元,想去旅游被母親怒斥不管弟弟了

火山詩話
2026-04-23 09:54:06
賴清德無法竄訪,鄭麗文表態后,藍營改口,柯文哲做出驚人預言

賴清德無法竄訪,鄭麗文表態后,藍營改口,柯文哲做出驚人預言

DS北風
2026-04-23 11:52:05
巨星37歲場均得分:科比17分,庫里26分,鄧肯15分,老詹和喬丹呢

巨星37歲場均得分:科比17分,庫里26分,鄧肯15分,老詹和喬丹呢

大西體育
2026-04-23 16:10:32
日韓股市均創新高

日韓股市均創新高

每日經濟新聞
2026-04-23 08:15:05
A股:今天,4月23日,股市情況不太對勁,行情或開始加速了!

A股:今天,4月23日,股市情況不太對勁,行情或開始加速了!

明心
2026-04-23 11:41:30
美以失算!伊朗強硬派全面掌權,溫和派靠邊站,美伊談判又熄火

美以失算!伊朗強硬派全面掌權,溫和派靠邊站,美伊談判又熄火

國是直通車
2026-04-22 20:39:30
再見了,開拓者,賽季離隊第一人,楊瀚森更難了!

再見了,開拓者,賽季離隊第一人,楊瀚森更難了!

體育新角度
2026-04-23 15:51:56
浪胃仙整容失敗!在昆明被網友偶遇,真人又壯又老,差點認出是他

浪胃仙整容失敗!在昆明被網友偶遇,真人又壯又老,差點認出是他

離離言幾許
2026-04-22 07:06:44
老兵借廁所被拒后續!殘疾原因曝光,老兵發聲,官方建議辭退保安

老兵借廁所被拒后續!殘疾原因曝光,老兵發聲,官方建議辭退保安

離離言幾許
2026-04-21 21:41:39
賣國求財!稀土老總7項機密被境外買走,美國F-35差點被開卷考試

賣國求財!稀土老總7項機密被境外買走,美國F-35差點被開卷考試

菁菁子衿
2026-04-23 09:16:23
我有罪,大導演昆汀花1萬美金,在包房舔腳半小時,直到皮膚起皺

我有罪,大導演昆汀花1萬美金,在包房舔腳半小時,直到皮膚起皺

西樓知趣雜談
2026-04-20 08:40:47
76歲的萬科創始人王石,最近徹底成了全網焦點。

76歲的萬科創始人王石,最近徹底成了全網焦點。

夢錄的西方史話
2026-04-23 14:36:39
炸裂!Q1 凈利潤 1864 億、收入 2429 億

炸裂!Q1 凈利潤 1864 億、收入 2429 億

云頭條
2026-04-23 09:26:50
河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機未逃離當場被控制

河北一轎車斑馬線撞飛2人后掉頭再次沖撞傷者,周邊商家:肇事司機未逃離當場被控制

極目新聞
2026-04-22 15:36:21
季后賽首輪G2總結:湖人騎士雷霆引3組2-0 5組1-1戰況激烈

季后賽首輪G2總結:湖人騎士雷霆引3組2-0 5組1-1戰況激烈

醉臥浮生
2026-04-23 12:15:59
多頭下注?蘇林回國態度大變,中方剛收緊鎢礦出口,越南立馬填上

多頭下注?蘇林回國態度大變,中方剛收緊鎢礦出口,越南立馬填上

世界圈
2026-04-22 15:43:35
12分鐘砸穿特拉維夫!巴鐵亮出核底牌,F-35竟被嚇得全程裝死!

12分鐘砸穿特拉維夫!巴鐵亮出核底牌,F-35竟被嚇得全程裝死!

阿傖說事
2026-04-23 01:25:34
中超7輪下來!三支不敗球隊 銅梁龍要感謝申花放棄阿馬杜

中超7輪下來!三支不敗球隊 銅梁龍要感謝申花放棄阿馬杜

80后體育大蜀黍
2026-04-23 11:05:42
震驚!徐向前揭露西安事變背后的驚天秘密!

震驚!徐向前揭露西安事變背后的驚天秘密!

鑒史錄
2026-04-23 00:15:03
最高可判死罪,奧巴馬結局已定?美國司法部介入,特朗普開始收網

最高可判死罪,奧巴馬結局已定?美國司法部介入,特朗普開始收網

凡知
2026-04-22 18:02:26
2026-04-23 17:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12522文章數 176457關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

小米SU7自動泊車時撞上懸空墻體 車主:以后不再用了

頭條要聞

小米SU7自動泊車時撞上懸空墻體 車主:以后不再用了

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

房產
親子
手機
藝術
公開課

房產要聞

三亞安居房,突然官宣!

親子要聞

吃不完的奶 和拉不完的屎

手機要聞

新一代國屏之光!京東方為OPPO Find X9 Ultra獨家供應2K直屏

藝術要聞

生完7個女兒后,60歲的她被香奈兒邀請走高定秀!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版