簡直太瘋狂了!
Anthropic藏著掖著的Claude Mythos架構,竟被一個22歲的年輕人給扒開了。
不是內部泄露,也不是員工帶出來的。是一個叫Kye Gomez的初創公司CEO,憑著第一性原理,硬生生把Claude Mythos的核心架構從頭推導了出來。
更炸裂的是,他把這個項目——OpenMythos——全開源了。
一時間,全網都沸騰了。這個僅憑公開論文和邏輯推理就實現的技術”逆推”,不僅讓人驚嘆于年輕人的智慧,更把一個問題拋到了AI行業的臺前:當”堆參數”不再是唯一路徑,未來的黃金法則到底是什么?
黃金法則的裂痕——當”堆參數”遇到”循環思考”
這位22歲的創業者,用行動給出了答案。
Kye Gomez認為,Claude Mythos的核心不是什么更大的Transformer,而是一種叫做「循環深度Transformer」(Recurrent-Depth Transformer,RDT)的架構。
說白了就是,同一套權重,在一次前向傳播里循環跑最多16次。
傳統大模型像蓋高樓,一層一層往上堆參數。100層不夠就200層,200層不夠就500層。參數越多,模型越大,顯存吃得越猛,訓練成本越恐怖。
![]()
但RDT完全換了一個思路:不蓋高樓,原地跑圈。
模型只有一個核心計算塊,但這個塊會被反復執行。每循環一次,隱藏狀態就更新一次,就相當于”多想了一步”。而且所有的思考都在連續潛空間里默默進行——不用像思維鏈(CoT)那樣,每一步都吐出可見的token。
這不是重復計算,是迭代推理。
當這個核心機制被揭開,整個行業的Scaling法則開始出現裂痕。原來,通往智能的道路不止一條。
范式對決:從Transformer”蓋高樓”到RDT”原地跑圈”
要理解這場變革,必須先看清傳統Transformer的天花板。
傳統Transformer的 Scaling Up 困境
標準的Transformer架構,基于注意力機制的”前饋-生成”模式,在過去幾年里幾乎統治了整個AI領域。它的成長邏輯簡單粗暴:性能提升嚴重依賴參數量的線性乃至指數增長——更深層的堆疊、更寬的寬度、更多的訓練數據。
這就像是在都市里蓋摩天大樓。100層不夠就200層,200層不夠就500層。每一層都需要新的建筑材料、更強的承重結構、更復雜的安全系統。
帶來的問題顯而易見:巨量計算成本、天文數字般的能源消耗、技術壁壘越筑越高,導致AI研發日益”中心化”與”貴族化”。個人開發者想要訓練一個像樣的模型?沒有A100級別的硬件,連門都進不了。
RDT架構的”循環思考”革命
RDT走了一條完全不同的路。
核心思想破題:將單次前饋擴展為多次、有狀態的內部循環處理。”原地跑圈”的隱喻下,固定參數規模下,通過內部多次迭代”深思熟慮”,提煉和深化對同一輸入的理解。
![]()
更精妙的是,這個架構分三段式設計:Prelude(序曲)→ Recurrent Block(循環核心)→ Coda(終章)。Prelude和Coda是標準的Transformer層,各跑一次。真正的計算核心是中間的「循環塊」,它最多循環16次。
每次循環的更新規則中,原始輸入會重新注入,防止模型在循環中”跑偏”。這意味著,每一次迭代都不是簡單的重復,而是帶著原始信息進行更深層次的加工。
范式轉變的本質,是從”靜態容量競賽”轉向”動態計算分配”,追求計算質量的提升而非單純的規模擴張。未來最強的模型,可能不是參數最多的,而是想得最多次的。
技術內核:MoE與循環的共生——廣度與深度的交響曲
光靠循環能解釋推理的”深度”,但解釋不了”廣度”。這里,另一項關鍵技術登臺了。
基石:理解MoE(混合專家)系統
MoE,混合專家系統,本身不是什么新鮮事物。它的核心理念是通過路由機制,針對不同問題激活不同的參數子集(”專家”)。在傳統應用中,它主要實現模型寬度(處理任務的多樣性)的高效擴展。
但OpenMythos的精妙之處在于,它把MoE完美地融入了循環架構。
創新:RDT如何將MoE融入循環
整個設計像一場精心編排的交響樂。架構圖示邏輯清晰地展示了輸入如何進入循環模塊,而該模塊內部包含的正是MoE層。
![]()
循環過程可以被分解為三個層次:
初始表征:對輸入進行編碼,形成基礎的理解。
循環迭代:這個編碼后的表征在循環模塊中多次傳遞,每次傳遞都是一次思考的深化。
MoE在循環中的作用:這才是真正的魔法。每次迭代時,路由機制根據當前”思考狀態”選擇最相關的專家組合進行精細化處理。隨著隱藏狀態在循環中不斷演化,路由器在每一層循環深度會選擇不同的專家子集。
也就是說,雖然權重共享,但每次循環的計算路徑完全不同。
協同效應分析
最震撼的協同效應在這里展現:
MoE賦予廣度:確保模型在循環思考的不同階段,能調用最適合當前思維進程的專門化處理單元。參考了DeepSeek-MoE的設計思路,OpenMythos采用大量細粒度的路由專家和少量”共享專家”的組合模式。
循環賦予深度:通過多次迭代,允許信息被MoE專家網絡反復、漸進地精煉。思考不再是單次通過的快速決策,而是多輪專家會診般的深度推理。
結果就是:模型在單次前向中,模擬了”多輪專家會診”的深度推理過程。注意力機制默認使用來自DeepSeek-V2的”多潛變量注意力”,能在生產規模下實現10-20倍的KV顯存節省。還有LTI約束注入、自適應計算時間等額外機制來保證循環的穩定性。
這已經不是簡單的技術疊加,而是架構層面的深度融合。
效能驗證:參數效率翻倍與消費級硬件的春天
理論再精妙,也要看實際表現。而OpenMythos給出的數據,直接改寫了游戲規則。
量化優勢:參數效率的直接提升
最硬核的對比數據來了:實驗數據顯示,一個770M參數的循環模型,在同等訓練數據下,能達到1.3B標準Transformer的下游任務質量。
![]()
這意味著什么?用一半的參數,干了同樣的活。
“參數效率翻倍”的實質是:用更少的靜態參數,通過動態循環計算,產生了等同于更多參數模型的效果。這在復雜推理、數學問題、代碼生成等需要多步推理的任務上表現尤為突出。
更令人驚艷的是它的泛化能力。訓練時從沒見過的知識組合,推理時循環Transformer照樣能答對,而標準Transformer直接失敗。訓練時只教了20跳推理鏈,測試時直接給30跳,循環Transformer的應對方式就是在推理時多加幾輪循環,標準Transformer直接崩潰。
這不是重復計算,是真正的”更深層思考”。
平民化曙光:頂級性能駛入消費級跑道
對消費級硬件來說,這簡直是天大的利好。
以前跑個像樣的模型,沒有A100你連門都進不了。現在呢?推理深度是時間換空間——你不需要更多的顯存,只需要多跑幾圈。
在消費級顯卡上,RDT架構展現出了驚人的適應性。以RTX 4090為例,這款搭載24GB GDDR6X顯存、1TB/s內存帶寬的高性能顯卡,原本可能只能勉強運行中等規模的標準Transformer模型。
但通過RDT架構,同樣的硬件能夠承載更復雜的計算任務。不需要堆疊參數來增加容量,而是通過循環迭代來增加深度。
實際部署中,結合動態稀疏激活優化、混合精度張量并行、顯存-內存協同計算等優化技術,單張RTX 4090甚至可以實現對更大規模模型的流暢推理支持。
意義是革命性的:大幅降低了進行前沿AI模型實驗和應用的門檻,推動了AI能力從云端向邊緣、從實驗室向個人開發者的擴散。當一個人用消費級顯卡就能探索最前沿的AI技術,創新的門檻就被徹底擊穿了。
范式轉移下的AI未來
這場由22歲年輕人掀起的架構革命,遠不止是一次技術突破那么簡單。
它重新定義了什么叫做”模型能力”。在很長一段時間里,參數規模幾乎成了衡量模型智能的唯一標尺。但RDT架構告訴我們:真正的智能可能更多體現在思考的深度,而非知識的廣度。
對AI研發生態的影響,更是深遠的。這可能會促使更多研究從參數規模的軍備競賽,轉向模型架構創新與計算效率優化。當”堆循環”的成本遠低于”堆參數”,創新的天平就會向軟件與架構傾斜。
而最關鍵的是,這加速了AI技術的民主化進程。當最先進的思想架構能夠在一個22歲的年輕人手中被復現、被開源,當消費級硬件能夠承載前沿的AI推理,技術的門檻就不再是硬件與資本,而是想象力與創造力。
彩虹沒有盡頭,只有彩虹本身。當一個人用公開信息就能重建最核心的技術,護城河就不再是架構了。這場由RDT架構引發的范式轉移,也許正在改寫AI的未來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.