網易首頁 > 網易號 > 正文申請入駐

22歲天才揭秘！開源OpenMythos如何讓消費顯卡變身AI巨頭？

2026-04-23 21:13:11　來源: 我不叫阿哏

廣東舉報

分享至

簡直太瘋狂了！

Anthropic藏著掖著的Claude Mythos架構，竟被一個22歲的年輕人給扒開了。

不是內部泄露，也不是員工帶出來的。是一個叫Kye Gomez的初創公司CEO，憑著第一性原理，硬生生把Claude Mythos的核心架構從頭推導了出來。

更炸裂的是，他把這個項目——OpenMythos——全開源了。

一時間，全網都沸騰了。這個僅憑公開論文和邏輯推理就實現的技術”逆推”，不僅讓人驚嘆于年輕人的智慧，更把一個問題拋到了AI行業的臺前：當”堆參數”不再是唯一路徑，未來的黃金法則到底是什么？

黃金法則的裂痕——當”堆參數”遇到”循環思考”

這位22歲的創業者，用行動給出了答案。

Kye Gomez認為，Claude Mythos的核心不是什么更大的Transformer，而是一種叫做「循環深度Transformer」（Recurrent-Depth Transformer，RDT）的架構。

說白了就是，同一套權重，在一次前向傳播里循環跑最多16次。

傳統大模型像蓋高樓，一層一層往上堆參數。100層不夠就200層，200層不夠就500層。參數越多，模型越大，顯存吃得越猛，訓練成本越恐怖。

但RDT完全換了一個思路：不蓋高樓，原地跑圈。

模型只有一個核心計算塊，但這個塊會被反復執行。每循環一次，隱藏狀態就更新一次，就相當于”多想了一步”。而且所有的思考都在連續潛空間里默默進行——不用像思維鏈（CoT）那樣，每一步都吐出可見的token。

這不是重復計算，是迭代推理。

當這個核心機制被揭開，整個行業的Scaling法則開始出現裂痕。原來，通往智能的道路不止一條。

范式對決：從Transformer”蓋高樓”到RDT”原地跑圈”

要理解這場變革，必須先看清傳統Transformer的天花板。

傳統Transformer的 Scaling Up 困境

標準的Transformer架構，基于注意力機制的”前饋-生成”模式，在過去幾年里幾乎統治了整個AI領域。它的成長邏輯簡單粗暴：性能提升嚴重依賴參數量的線性乃至指數增長——更深層的堆疊、更寬的寬度、更多的訓練數據。

這就像是在都市里蓋摩天大樓。100層不夠就200層，200層不夠就500層。每一層都需要新的建筑材料、更強的承重結構、更復雜的安全系統。

帶來的問題顯而易見：巨量計算成本、天文數字般的能源消耗、技術壁壘越筑越高，導致AI研發日益”中心化”與”貴族化”。個人開發者想要訓練一個像樣的模型？沒有A100級別的硬件，連門都進不了。

RDT架構的”循環思考”革命

RDT走了一條完全不同的路。

核心思想破題：將單次前饋擴展為多次、有狀態的內部循環處理。”原地跑圈”的隱喻下，固定參數規模下，通過內部多次迭代”深思熟慮”，提煉和深化對同一輸入的理解。

更精妙的是，這個架構分三段式設計：Prelude（序曲）→ Recurrent Block（循環核心）→ Coda（終章）。Prelude和Coda是標準的Transformer層，各跑一次。真正的計算核心是中間的「循環塊」，它最多循環16次。

每次循環的更新規則中，原始輸入會重新注入，防止模型在循環中”跑偏”。這意味著，每一次迭代都不是簡單的重復，而是帶著原始信息進行更深層次的加工。

范式轉變的本質，是從”靜態容量競賽”轉向”動態計算分配”，追求計算質量的提升而非單純的規模擴張。未來最強的模型，可能不是參數最多的，而是想得最多次的。

技術內核：MoE與循環的共生——廣度與深度的交響曲

光靠循環能解釋推理的”深度”，但解釋不了”廣度”。這里，另一項關鍵技術登臺了。

基石：理解MoE（混合專家）系統

MoE，混合專家系統，本身不是什么新鮮事物。它的核心理念是通過路由機制，針對不同問題激活不同的參數子集（”專家”）。在傳統應用中，它主要實現模型寬度（處理任務的多樣性）的高效擴展。

但OpenMythos的精妙之處在于，它把MoE完美地融入了循環架構。

創新：RDT如何將MoE融入循環

整個設計像一場精心編排的交響樂。架構圖示邏輯清晰地展示了輸入如何進入循環模塊，而該模塊內部包含的正是MoE層。

循環過程可以被分解為三個層次：

初始表征：對輸入進行編碼，形成基礎的理解。

循環迭代：這個編碼后的表征在循環模塊中多次傳遞，每次傳遞都是一次思考的深化。

MoE在循環中的作用：這才是真正的魔法。每次迭代時，路由機制根據當前”思考狀態”選擇最相關的專家組合進行精細化處理。隨著隱藏狀態在循環中不斷演化，路由器在每一層循環深度會選擇不同的專家子集。

也就是說，雖然權重共享，但每次循環的計算路徑完全不同。

協同效應分析

最震撼的協同效應在這里展現：

MoE賦予廣度：確保模型在循環思考的不同階段，能調用最適合當前思維進程的專門化處理單元。參考了DeepSeek-MoE的設計思路，OpenMythos采用大量細粒度的路由專家和少量”共享專家”的組合模式。

循環賦予深度：通過多次迭代，允許信息被MoE專家網絡反復、漸進地精煉。思考不再是單次通過的快速決策，而是多輪專家會診般的深度推理。

結果就是：模型在單次前向中，模擬了”多輪專家會診”的深度推理過程。注意力機制默認使用來自DeepSeek-V2的”多潛變量注意力”，能在生產規模下實現10-20倍的KV顯存節省。還有LTI約束注入、自適應計算時間等額外機制來保證循環的穩定性。

這已經不是簡單的技術疊加，而是架構層面的深度融合。

效能驗證：參數效率翻倍與消費級硬件的春天

理論再精妙，也要看實際表現。而OpenMythos給出的數據，直接改寫了游戲規則。

量化優勢：參數效率的直接提升

最硬核的對比數據來了：實驗數據顯示，一個770M參數的循環模型，在同等訓練數據下，能達到1.3B標準Transformer的下游任務質量。

這意味著什么？用一半的參數，干了同樣的活。

“參數效率翻倍”的實質是：用更少的靜態參數，通過動態循環計算，產生了等同于更多參數模型的效果。這在復雜推理、數學問題、代碼生成等需要多步推理的任務上表現尤為突出。

更令人驚艷的是它的泛化能力。訓練時從沒見過的知識組合，推理時循環Transformer照樣能答對，而標準Transformer直接失敗。訓練時只教了20跳推理鏈，測試時直接給30跳，循環Transformer的應對方式就是在推理時多加幾輪循環，標準Transformer直接崩潰。

這不是重復計算，是真正的”更深層思考”。

平民化曙光：頂級性能駛入消費級跑道

對消費級硬件來說，這簡直是天大的利好。

以前跑個像樣的模型，沒有A100你連門都進不了。現在呢？推理深度是時間換空間——你不需要更多的顯存，只需要多跑幾圈。

在消費級顯卡上，RDT架構展現出了驚人的適應性。以RTX 4090為例，這款搭載24GB GDDR6X顯存、1TB/s內存帶寬的高性能顯卡，原本可能只能勉強運行中等規模的標準Transformer模型。

但通過RDT架構，同樣的硬件能夠承載更復雜的計算任務。不需要堆疊參數來增加容量，而是通過循環迭代來增加深度。

實際部署中，結合動態稀疏激活優化、混合精度張量并行、顯存-內存協同計算等優化技術，單張RTX 4090甚至可以實現對更大規模模型的流暢推理支持。

意義是革命性的：大幅降低了進行前沿AI模型實驗和應用的門檻，推動了AI能力從云端向邊緣、從實驗室向個人開發者的擴散。當一個人用消費級顯卡就能探索最前沿的AI技術，創新的門檻就被徹底擊穿了。

范式轉移下的AI未來

這場由22歲年輕人掀起的架構革命，遠不止是一次技術突破那么簡單。

它重新定義了什么叫做”模型能力”。在很長一段時間里，參數規模幾乎成了衡量模型智能的唯一標尺。但RDT架構告訴我們：真正的智能可能更多體現在思考的深度，而非知識的廣度。

對AI研發生態的影響，更是深遠的。這可能會促使更多研究從參數規模的軍備競賽，轉向模型架構創新與計算效率優化。當”堆循環”的成本遠低于”堆參數”，創新的天平就會向軟件與架構傾斜。

而最關鍵的是，這加速了AI技術的民主化進程。當最先進的思想架構能夠在一個22歲的年輕人手中被復現、被開源，當消費級硬件能夠承載前沿的AI推理，技術的門檻就不再是硬件與資本，而是想象力與創造力。

彩虹沒有盡頭，只有彩虹本身。當一個人用公開信息就能重建最核心的技術，護城河就不再是架構了。這場由RDT架構引發的范式轉移，也許正在改寫AI的未來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

我不叫阿哏

分享有趣、有用的故事！

389文章數 6689關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

數碼

房產

游戲

軍事航空

手機 / 數碼

房產 / 家居

22歲天才揭秘！開源OpenMythos如何讓消費顯卡變身AI巨頭？

馬斯克喊出"史上最大產品"，但量產難預測

以色列：只要美國同意 將刺殺伊朗最高領袖

以色列：只要美國同意 將刺殺伊朗最高領袖

給文班剃頭的馬刺DJ，成為NBA最佳第六人

王大陸因涉黑討債被判 女友也一同獲刑

普華永道賠償10億 恒大股東見到"回頭錢"

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

李昀銳：林深見木

榮耀重新定義輕薄本，四月連發六款新品續航首超Mac

三亞安居房，突然官宣！

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢

人民海軍成立77周年 主力艦艇亮相上海

以色列：只要美國同意將刺殺伊朗最高領袖

以色列：只要美國同意將刺殺伊朗最高領袖

王大陸因涉黑討債被判女友也一同獲刑

普華永道賠償10億恒大股東見到"回頭錢"

預售30.29萬起嵐圖泰山X8配896線激光雷達

任天堂NS2銷量4倍碾壓PS5!差距懸殊索尼難挽頹勢

人民海軍成立77周年主力艦艇亮相上海