網易首頁 > 網易號 > 正文 申請入駐

22歲天才揭秘!開源OpenMythos如何讓消費顯卡變身AI巨頭?

0
分享至

簡直太瘋狂了!

Anthropic藏著掖著的Claude Mythos架構,竟被一個22歲的年輕人給扒開了。

不是內部泄露,也不是員工帶出來的。是一個叫Kye Gomez的初創公司CEO,憑著第一性原理,硬生生把Claude Mythos的核心架構從頭推導了出來。

更炸裂的是,他把這個項目——OpenMythos——全開源了。

一時間,全網都沸騰了。這個僅憑公開論文和邏輯推理就實現的技術”逆推”,不僅讓人驚嘆于年輕人的智慧,更把一個問題拋到了AI行業的臺前:當”堆參數”不再是唯一路徑,未來的黃金法則到底是什么?

黃金法則的裂痕——當”堆參數”遇到”循環思考”

這位22歲的創業者,用行動給出了答案。

Kye Gomez認為,Claude Mythos的核心不是什么更大的Transformer,而是一種叫做「循環深度Transformer」(Recurrent-Depth Transformer,RDT)的架構。

說白了就是,同一套權重,在一次前向傳播里循環跑最多16次。

傳統大模型像蓋高樓,一層一層往上堆參數。100層不夠就200層,200層不夠就500層。參數越多,模型越大,顯存吃得越猛,訓練成本越恐怖。



但RDT完全換了一個思路:不蓋高樓,原地跑圈。

模型只有一個核心計算塊,但這個塊會被反復執行。每循環一次,隱藏狀態就更新一次,就相當于”多想了一步”。而且所有的思考都在連續潛空間里默默進行——不用像思維鏈(CoT)那樣,每一步都吐出可見的token。

這不是重復計算,是迭代推理。

當這個核心機制被揭開,整個行業的Scaling法則開始出現裂痕。原來,通往智能的道路不止一條。

范式對決:從Transformer”蓋高樓”到RDT”原地跑圈”

要理解這場變革,必須先看清傳統Transformer的天花板。

傳統Transformer的 Scaling Up 困境

標準的Transformer架構,基于注意力機制的”前饋-生成”模式,在過去幾年里幾乎統治了整個AI領域。它的成長邏輯簡單粗暴:性能提升嚴重依賴參數量的線性乃至指數增長——更深層的堆疊、更寬的寬度、更多的訓練數據。

這就像是在都市里蓋摩天大樓。100層不夠就200層,200層不夠就500層。每一層都需要新的建筑材料、更強的承重結構、更復雜的安全系統。

帶來的問題顯而易見:巨量計算成本、天文數字般的能源消耗、技術壁壘越筑越高,導致AI研發日益”中心化”與”貴族化”。個人開發者想要訓練一個像樣的模型?沒有A100級別的硬件,連門都進不了。

RDT架構的”循環思考”革命

RDT走了一條完全不同的路。

核心思想破題:將單次前饋擴展為多次、有狀態的內部循環處理。”原地跑圈”的隱喻下,固定參數規模下,通過內部多次迭代”深思熟慮”,提煉和深化對同一輸入的理解。


更精妙的是,這個架構分三段式設計:Prelude(序曲)→ Recurrent Block(循環核心)→ Coda(終章)。Prelude和Coda是標準的Transformer層,各跑一次。真正的計算核心是中間的「循環塊」,它最多循環16次。

每次循環的更新規則中,原始輸入會重新注入,防止模型在循環中”跑偏”。這意味著,每一次迭代都不是簡單的重復,而是帶著原始信息進行更深層次的加工。

范式轉變的本質,是從”靜態容量競賽”轉向”動態計算分配”,追求計算質量的提升而非單純的規模擴張。未來最強的模型,可能不是參數最多的,而是想得最多次的。

技術內核:MoE與循環的共生——廣度與深度的交響曲

光靠循環能解釋推理的”深度”,但解釋不了”廣度”。這里,另一項關鍵技術登臺了。

基石:理解MoE(混合專家)系統

MoE,混合專家系統,本身不是什么新鮮事物。它的核心理念是通過路由機制,針對不同問題激活不同的參數子集(”專家”)。在傳統應用中,它主要實現模型寬度(處理任務的多樣性)的高效擴展。

但OpenMythos的精妙之處在于,它把MoE完美地融入了循環架構。

創新:RDT如何將MoE融入循環

整個設計像一場精心編排的交響樂。架構圖示邏輯清晰地展示了輸入如何進入循環模塊,而該模塊內部包含的正是MoE層。


循環過程可以被分解為三個層次:

初始表征:對輸入進行編碼,形成基礎的理解。

循環迭代:這個編碼后的表征在循環模塊中多次傳遞,每次傳遞都是一次思考的深化。

MoE在循環中的作用:這才是真正的魔法。每次迭代時,路由機制根據當前”思考狀態”選擇最相關的專家組合進行精細化處理。隨著隱藏狀態在循環中不斷演化,路由器在每一層循環深度會選擇不同的專家子集。

也就是說,雖然權重共享,但每次循環的計算路徑完全不同。

協同效應分析

最震撼的協同效應在這里展現:

MoE賦予廣度:確保模型在循環思考的不同階段,能調用最適合當前思維進程的專門化處理單元。參考了DeepSeek-MoE的設計思路,OpenMythos采用大量細粒度的路由專家和少量”共享專家”的組合模式。

循環賦予深度:通過多次迭代,允許信息被MoE專家網絡反復、漸進地精煉。思考不再是單次通過的快速決策,而是多輪專家會診般的深度推理。

結果就是:模型在單次前向中,模擬了”多輪專家會診”的深度推理過程。注意力機制默認使用來自DeepSeek-V2的”多潛變量注意力”,能在生產規模下實現10-20倍的KV顯存節省。還有LTI約束注入、自適應計算時間等額外機制來保證循環的穩定性。

這已經不是簡單的技術疊加,而是架構層面的深度融合。

效能驗證:參數效率翻倍與消費級硬件的春天

理論再精妙,也要看實際表現。而OpenMythos給出的數據,直接改寫了游戲規則。

量化優勢:參數效率的直接提升

最硬核的對比數據來了:實驗數據顯示,一個770M參數的循環模型,在同等訓練數據下,能達到1.3B標準Transformer的下游任務質量。


這意味著什么?用一半的參數,干了同樣的活。

“參數效率翻倍”的實質是:用更少的靜態參數,通過動態循環計算,產生了等同于更多參數模型的效果。這在復雜推理、數學問題、代碼生成等需要多步推理的任務上表現尤為突出。

更令人驚艷的是它的泛化能力。訓練時從沒見過的知識組合,推理時循環Transformer照樣能答對,而標準Transformer直接失敗。訓練時只教了20跳推理鏈,測試時直接給30跳,循環Transformer的應對方式就是在推理時多加幾輪循環,標準Transformer直接崩潰。

這不是重復計算,是真正的”更深層思考”。

平民化曙光:頂級性能駛入消費級跑道

對消費級硬件來說,這簡直是天大的利好。

以前跑個像樣的模型,沒有A100你連門都進不了。現在呢?推理深度是時間換空間——你不需要更多的顯存,只需要多跑幾圈。

在消費級顯卡上,RDT架構展現出了驚人的適應性。以RTX 4090為例,這款搭載24GB GDDR6X顯存、1TB/s內存帶寬的高性能顯卡,原本可能只能勉強運行中等規模的標準Transformer模型。

但通過RDT架構,同樣的硬件能夠承載更復雜的計算任務。不需要堆疊參數來增加容量,而是通過循環迭代來增加深度。

實際部署中,結合動態稀疏激活優化、混合精度張量并行、顯存-內存協同計算等優化技術,單張RTX 4090甚至可以實現對更大規模模型的流暢推理支持。

意義是革命性的:大幅降低了進行前沿AI模型實驗和應用的門檻,推動了AI能力從云端向邊緣、從實驗室向個人開發者的擴散。當一個人用消費級顯卡就能探索最前沿的AI技術,創新的門檻就被徹底擊穿了。

范式轉移下的AI未來

這場由22歲年輕人掀起的架構革命,遠不止是一次技術突破那么簡單。

它重新定義了什么叫做”模型能力”。在很長一段時間里,參數規模幾乎成了衡量模型智能的唯一標尺。但RDT架構告訴我們:真正的智能可能更多體現在思考的深度,而非知識的廣度。

對AI研發生態的影響,更是深遠的。這可能會促使更多研究從參數規模的軍備競賽,轉向模型架構創新與計算效率優化。當”堆循環”的成本遠低于”堆參數”,創新的天平就會向軟件與架構傾斜。

而最關鍵的是,這加速了AI技術的民主化進程。當最先進的思想架構能夠在一個22歲的年輕人手中被復現、被開源,當消費級硬件能夠承載前沿的AI推理,技術的門檻就不再是硬件與資本,而是想象力與創造力。

彩虹沒有盡頭,只有彩虹本身。當一個人用公開信息就能重建最核心的技術,護城河就不再是架構了。這場由RDT架構引發的范式轉移,也許正在改寫AI的未來。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
44歲杜星霖吐槽75歲張紀中:老人味,當初嫁他時,不知道他老嗎?

44歲杜星霖吐槽75歲張紀中:老人味,當初嫁他時,不知道他老嗎?

小貓娛樂叭叭
2026-04-23 17:10:03
NBA官宣:懷特收獲體育道德風尚獎 凱爾特人球員連續兩年獲獎

NBA官宣:懷特收獲體育道德風尚獎 凱爾特人球員連續兩年獲獎

醉臥浮生
2026-04-24 01:02:42
最新公布:韓國兩戰機“空中碰撞”,原因竟是飛行員拍照記錄自己“最后一次飛行”

最新公布:韓國兩戰機“空中碰撞”,原因竟是飛行員拍照記錄自己“最后一次飛行”

環球時報國際
2026-04-23 20:42:17
我有罪,大導演昆汀花1萬美金,在包房舔腳半小時,直到皮膚起皺

我有罪,大導演昆汀花1萬美金,在包房舔腳半小時,直到皮膚起皺

西樓知趣雜談
2026-04-20 08:40:47
賴清德被官宣“除名”!外交部一記耳光:“假總統”名號徹底作廢

賴清德被官宣“除名”!外交部一記耳光:“假總統”名號徹底作廢

丹妮觀
2026-04-23 12:09:40
巴恩斯帶一家度假,前妻改嫁隊友,他再婚娶超模,事業有成很幸福

巴恩斯帶一家度假,前妻改嫁隊友,他再婚娶超模,事業有成很幸福

大西體育
2026-04-23 16:12:23
三星長公主前夫:離婚拿了8370萬揮霍一空,和巫女女友淪為階下囚

三星長公主前夫:離婚拿了8370萬揮霍一空,和巫女女友淪為階下囚

照見古今
2026-04-22 18:42:23
施壓中方讓步?日代表團強求訪華,中國“4箭齊發”,抗議也無效

施壓中方讓步?日代表團強求訪華,中國“4箭齊發”,抗議也無效

探索新高度
2026-04-24 01:52:01
哇,難得一見的大美女,端莊大方,光著腳丫,溫婉一笑很傾城!

哇,難得一見的大美女,端莊大方,光著腳丫,溫婉一笑很傾城!

陳意小可愛
2026-04-16 00:23:43
色字頭上一把刀!知名女星曝陳小春“猛料” ,好男人人設崩塌?

色字頭上一把刀!知名女星曝陳小春“猛料” ,好男人人設崩塌?

她時尚丫
2026-04-23 22:01:25
劉家成接班人?多次獅子大開口全砸手里,球迷:賣人都賣不明白

劉家成接班人?多次獅子大開口全砸手里,球迷:賣人都賣不明白

弄月公子
2026-04-23 20:48:12
古往今來第一反骨仔

古往今來第一反骨仔

最愛歷史
2026-04-23 18:28:11
重磅!山東將轉移千萬噸級粗鋼產能!

重磅!山東將轉移千萬噸級粗鋼產能!

奇思妙想生活家
2026-04-23 05:38:51
熱搜壓不住了!知名女星曝陳小春“猛料”,應采兒被“打臉”

熱搜壓不住了!知名女星曝陳小春“猛料”,應采兒被“打臉”

不似少年游
2026-04-23 14:40:36
最新法規4.30號執行!帶煙出門要留心!不抽不用,也可能違規被罰

最新法規4.30號執行!帶煙出門要留心!不抽不用,也可能違規被罰

復轉這些年
2026-04-22 20:23:34
WOW!最新傷情進展曝光!文班亞馬,拼了!

WOW!最新傷情進展曝光!文班亞馬,拼了!

籃球實戰寶典
2026-04-23 20:45:35
蘋果悄悄發布特別新品!加量不加價

蘋果悄悄發布特別新品!加量不加價

花果科技
2026-04-23 23:05:06
要開超600家店!又一美式炸雞巨頭進駐中國市場

要開超600家店!又一美式炸雞巨頭進駐中國市場

紅餐網
2026-04-22 18:37:07
小米SU7自動泊車時撞上懸空墻體;車主:以后不再用了;廠家:懸空障礙物會影響到泊車輔助功能

小米SU7自動泊車時撞上懸空墻體;車主:以后不再用了;廠家:懸空障礙物會影響到泊車輔助功能

大風新聞
2026-04-23 15:47:14
美以失算!伊朗強硬派全面掌權,溫和派靠邊站,美伊談判又熄火

美以失算!伊朗強硬派全面掌權,溫和派靠邊站,美伊談判又熄火

國是直通車
2026-04-22 20:39:30
2026-04-24 05:24:49
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
389文章數 6689關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

時尚
數碼
房產
游戲
軍事航空

李昀銳:林深見木

數碼要聞

榮耀重新定義輕薄本,四月連發六款新品續航首超Mac

房產要聞

三亞安居房,突然官宣!

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進入關懷版