![]()
不靠堆參數,循環計算賦能小模型提效。
編輯丨李希
當大模型的發展越來越依賴更大的參數規模和更高的訓練成本時,一個問題開始被越來越多人關注:模型變強,是否只有“堆參數”這一條路?
過去幾年,大模型的發展幾乎遵循著同一條路徑:更多參數、更多數據、更多算力。
但一個問題始終存在:如果不繼續擴大模型規模,只改變模型內部的計算方式,能否同樣帶來性能提升?
圍繞這一問題,22歲的AI研究者 Kye Gomez 提出過 Mythos 架構假想。其核心思路是讓模型對同一段信息進行額外的循環計算(Recurrent Depth),嘗試用更多內部計算替代部分參數擴張。這并不是對任何現有大模型架構的證明,而是一種值得驗證的研究方向。
為了檢驗這一思路是否具有實際價值,Agnes AI團隊基于開源框架搭建了一套完整的語言模型預訓練流程,并設計了一系列對照實驗,對不同循環層級(T)的效果進行了測試。
實驗結果顯示,在相同訓練條件下,當模型增加一次循環計算(T=1)時,測試集上的PPL(Perplexity,)平均下降約10%。
需要說明的是,PPL下降并不意味著模型準確率提升10%,也不能直接等同于推理能力提升10%。它更像是衡量模型學習效率的一項基礎指標。從實驗結果來看,增加一次循環計算后,模型對訓練數據的利用效率出現了積極變化。
更重要的是,這項實驗驗證了一個值得進一步研究的現象:在不增加參數規模和模型層數的前提下,僅通過調整模型內部計算流程,也有可能獲得性能收益。
當前大模型行業深陷 “堆參數、卷底層優化” 的困局,提升效果靠擴參、降本死磕 KV Cache 與 CUDA 調優,成本高、邊際收益越來越低。Agnes AI團隊跳出這一思維定式,以Mythos 架構解密為核心,在固定參數的前提下,驗證小模型逼近大模型效果的可行性。給出了這條技術路線 “哥德巴赫猜想” T=1 的驗證結果,也期待社區在此基礎上繼續探索,共同驗證T=2、3、4… 的更多可能,為行業打開全新方向:不靠堆參數、不燒錢拼算力,靠架構創新,讓小模型也能實現更接近大模型的能力。
下面,將詳細介紹這項實驗的設計過程、關鍵結果以及目前能夠得出的結論與邊界。
OpenMythos 與 nanowhale 結合成類 Recurrent Language Model 路線的深度研究
從 Claude Mythos 的架構猜想,到 NanoMythos 在 FineWeb-Edu 10K 上的技術驗證
01
執行摘要
這篇文章解釋的是一個小規模但非常關鍵的架構實驗:把 OpenMythos 所代表的 recurrent-depth 思路,移植到 nanowhale / DeepSeek-V4 風格的小型語言模型中,并檢驗這種 NanoMythos 融合模型是否能夠提升預訓練效率。
核心結果很直接:在 FineWeb-Edu 10K、5,000 步短預算驗證設置下,T=1 的 recurrent 模型把三組隨機種子的 held-out PPL 平均值從 baseline 的 166.2 降到 148.3。也就是說,平均下降 17.9 PPL,相對下降約 10.8%,并且 3/3 個隨機種子全部獲勝。
這并不證明 Claude 內部一定采用了同樣的架構。但它說明,Claude-Mythos 式 recurrent-depth 假設可以被轉化為一個可復核的工程實驗;同時,T=1 這個最小循環深度已經給出了足夠清晰的正向信號,值得繼續擴大規模驗證。
1. 什么是 Claude Mythos,為什么影響力這么大?
“Claude Mythos”更適合被理解為圍繞前沿語言模型的一種架構假設,尤其是圍繞 Anthropic Claude 系列模型的能力來源展開的討論。這個說法通常指向一個問題:現代語言模型是否真的只是普通的前饋 Transformer 層堆疊,還是在內部包含了某種重復計算機制,例如 recurrent depth、迭代式表示修正,或者隱藏狀態空間中的反復處理。
這個概念之所以有影響力,并不是因為外界已經公開驗證了 Claude 的內部架構。真正的影響力來自一個更大的直覺:前沿模型已經表現出復雜推理、規劃、自我修正和工具使用能力,而標準 Transformer scaling 只能解釋其中一部分現象。因此,研究者開始追問:如果模型不是只靠更多參數,而是通過更多內部計算來提升能力,會不會是一條更高效的路線?
一個直觀類比是:讀一句話一次和讀完后再思考一遍,效果并不一樣。標準 Transformer 堆疊是固定層數的單次前向傳播;而recurrent-depth 模型會讓部分隱藏狀態再次經過共享或部分共享的計算核心。它并不等同于人類思考,但它確實增加了一條新的擴展維度:不只是更多參數和更多數據,而是每個 token 可以獲得更多內部計算。
2. Recurrent Language Model 研究目前走到哪一步?
Recurrent language model 并不是一個單一方法,而是一組試圖讓語言模型復用計算、攜帶狀態或多步修正隱藏表示的研究路線。
早期工作如 Universal Transformer 和 Transformer-XL 分別從“重復應用層”和“跨片段記憶”兩個角度探索 recurrence。近幾年,狀態空間模型、RWKV 式遞歸結構、looped Transformer、recurrent-depth Transformer,以及 Coconut 這類連續潛空間推理方法,也都在不同層面推進類似方向。它們實現不同,但共同動機一致:固定深度的 next-token prediction 未必是分配計算資源的唯一有效方式。
在這個語境下,OpenMythos 的價值不在于它證明了 Claude 的真實設計,而在于它把一個模糊的架構猜想變成了可實現、可檢查、可修改的 recurrent-depth Transformer 假設。這樣一來,我們就可以問一個更科學的問題:如果把類似的 recurrent 計算路徑放入一個受控的小模型中,訓練行為是否會被可測量地改善?
傳統 scaling:更多參數 + 更多數據 + 更多訓練計算
Recurrent-depth scaling:一樣的參數 + 更多數據 + 每個 token 更多重復內部計算
3. 我們的結合方式:把 OpenMythos 的 Recurrent Depth 放進 nanowhale 風格骨干
融合后的模型可以理解為一個 NanoMythos 驗證框架。宿主模型沿用 nanowhale 的方向:一個約 110M 規模、DeepSeek-V4 風格的小語言模型,適合低成本、反復進行預訓練架構實驗。架構干預來自 OpenMythos 的核心想法:在網絡中間插入一個 recurrent / Mythos core,并讓它循環執行 T 次。
這樣就形成了一個清晰的受控對比:baseline 保留 nanowhale 風格骨干,但不引入 recurrent depth;實驗模型保持同樣的模型家族、數據集和訓練預算,只在中間核心處執行一次 recurrent pass,也就是 T=1。
T=1 是一個刻意保守的設置。它并不是為了模擬很長的“思考過程”,而是最小的非平凡 recurrent-depth 配置:足以檢驗這條路徑是否有幫助,同時又不會讓過深循環帶來的不穩定性掩蓋結果。
![]()
圖 1. NanoMythos 架構:將 OpenMythos 風格 recurrent depth 移植到 nanowhale / DeepSeek-V4 風格小語言模型中。
![]()
4. 實驗設置
這個驗證問題非常窄:在相同的 FineWeb-Edu 10K 預訓練預算下,T=1 recurrent depth 是否能比 baseline 獲得更低的 held-out perplexity?
FineWeb-Edu 10K 是一個緊湊的教育類網頁預訓練子集。它的目標不是訓練出生產級模型,而是提供一個足夠真實、迭代速度足夠快的數據分布,用于早期架構驗證。
每個模型訓練 5,000 步。對于主隨機種子,還在 1,000、2,000、3,000、4,000 和 5,000 步進行階段性評估。實驗覆蓋三個隨機種子:seed2025、seed2027 和 seed2048。核心指標是 held-out perplexity,數值越低越好。
5. 核心結果:T=1 讓 PPL 下降約 10%
在 5,000 訓練步時,NanoMythos T=1 在所有測試隨機種子上都優于 baseline。
![]()
![]()
圖 2. FineWeb-Edu 10K 跨種子 PPL 對比。Delta 為負表示 NanoMythos T=1 更好。
這個結果有兩點意義。第一,提升不是某一個隨機種子的偶然:T=1 在 seed2025、seed2027 和 seed2048 上全部獲勝。第二,seed2027 尤其值得注意。baseline 退化到 187.7 PPL,而 T=1 保持在 151.4 PPL,明顯更接近其他 T=1 結果。這可能暗示 recurrent-depth 改寫帶來了一定穩定化效果,當然還需要更多隨機種子才能做強統計結論。
因此,最穩妥的結論不是“recurrent depth 一定全面優于傳統架構”,而是:T=1 已經給出了足夠穩定的正向信號,值得進入更大規模驗證。
6. 訓練動態:差距在 3,000 步后變得更清楚
![]()
![]()
圖 3. Seed2025 階段性評估。T=1 始終更優,并且 3,000 步后差距更明顯。
這個趨勢很重要,因為很多弱架構技巧只會帶來早期優化假象,后續優勢會消失。但這里的優勢沒有消失,反而隨著訓練推進更明顯。這支持一種解釋:recurrent-depth 計算改善的是參數使用效率,而不只是早期優化行為。
7. 外部參考:GPT-2 Standard / Small
![]()
GPT-2 對比需要謹慎解讀。GPT-2 與 nanowhale 在 tokenizer、block 設計、參數組織和實現細節上都有差異,因此它不是一個純粹的architecture-only 對比。
但它仍然有參考價值。在短預算 FineWeb-Edu 10K、相同數據量與訓練步數下,隨機初始化的 GPT-2 Standard 124M 驗證 PPL 為 273.5,而 nanowhale T=1 為 147.7——絕對低約 126 點,相對約 46%,可視為早期收斂明顯優于該 GPT-2 基線。
8. 這個結果證明了什么,又沒有證明什么?
T=1 收益最可能的解釋,并不是模型突然擁有了類似人類的推理能力。更技術性的解釋是:recurrent block 讓模型在復用參數的同時,對 token-level hidden representation 多做了一次修正,從而提升了compute-per-parameter 的效率。
這不同于簡單加層。加層會增加獨立參數數量;復用中間核心則是在參數預算更受控的情況下增加有效計算深度。
因此,這個結果支持的是一個適度但重要的主張:recurrent-depth computation 是一個值得繼續探索的預訓練架構改進方向,而 T=1 是當前最干凈、最適合作為擴展起點的配置。
![]()
9. 為什么 T=2 還不是當前主線?
![]()
T=2 在當前 recipe 下表現明顯更差。這不應該被理解為“更深 recurrence 沒有價值”的證明。更合理的解釋是:T=2 不能直接套用為 baseline 或 T=1 調好的訓練配方。
可能原因包括學習率不匹配、warmup 不足、hidden-state drift、殘差縮放不足、loop embedding 不夠強,以及 5,000 步 / 10K 數據規模太小,無法讓更深循環穩定發揮作用。
10. 下一步:如何把 T 擴大到更高?
擴展到 FineWeb-Edu 50K:在更大數據設置下運行 baseline、T=1 和 GPT-2 Standard 對比,驗證 T=1 優勢是否能從 10K pilot 延續到更大數據規模。
100M–200M T=1 pilot:把 T=1 作為默認 recurrent-depth 設置,測試當模型接近 GPT-2 Small / Standard 規模時,收益是否仍然可見。
T=2 recipe search:把 T=2 當作獨立消融軌道,而不是直接替代 T=1。重點測試更低學習率、更長 warmup、殘差阻尼、門控 recurrent update、step-aware loop embedding、更強 normalization 和更長訓練 schedule。
自適應 latent compute:從固定 T 走向可變深度計算。讓簡單 token 使用更少內部 pass,讓困難 token 使用更多 pass,可用 hidden delta、logit KL、entropy change 或 learned halting 信號控制停止。
連接推理任務:把 PPL 證據延伸到 reasoning tasks:引入 Coconut-light 路線、連續 latent thoughts、 / latent spans,以及 DAG search、logic chains、arithmetic carry、GSM8K-mini 等診斷任務。
11. 結論
OpenMythos 與 nanowhale 的結合,把一個關于 Claude Mythos 的架構猜想,轉化成了一個具體的工程實驗。它沒有聲稱知道 Claude 的內部設計,而是提出一個可測量問題:在受控預訓練設置下,recurrent-depth 機制是否能改善一個小型開放模型?
FineWeb-Edu 10K 的結果是正向的:baseline 平均 PPL 為 166.2,NanoMythos T=1 平均 PPL 為 148.3,平均提升 17.9 PPL,隨機種子勝率 3/3,相對 held-out perplexity 下降約 10.8%。
最穩妥的結論是:T=1 recurrent depth 是一個可信的架構改進候選,值得進入下一階段 scale-up。如果這個信號能在 FineWeb-Edu 50K 和 100M–200M pilot 上繼續存在,NanoMythos 就可以從一個架構猜想實驗,進一步發展為面向高效預訓練和 latent compute 的系統研究路線。
02
來源說明
本中文 Word 版本基于 NanoMythos / nanowhale 技術驗證材料,以及 FineWeb-Edu 10K cross-seed 實驗結果整理。
文檔中的架構圖、實驗柱狀圖和訓練動態折線圖均已重建為適合 Word 閱讀和傳播的多模態內容,并盡量保留原始技術信息。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.