網易首頁 > 網易號 > 正文申請入駐

不堆參數、不燒算力！小模型也能跑出大模型能力

2026-06-01 11:30:30　來源: AI科技評論

廣東舉報

分享至

不靠堆參數，循環計算賦能小模型提效。

編輯丨李希

當大模型的發展越來越依賴更大的參數規模和更高的訓練成本時，一個問題開始被越來越多人關注：模型變強，是否只有“堆參數”這一條路？

過去幾年，大模型的發展幾乎遵循著同一條路徑：更多參數、更多數據、更多算力。

但一個問題始終存在：如果不繼續擴大模型規模，只改變模型內部的計算方式，能否同樣帶來性能提升？

圍繞這一問題，22歲的AI研究者 Kye Gomez 提出過 Mythos 架構假想。其核心思路是讓模型對同一段信息進行額外的循環計算（Recurrent Depth），嘗試用更多內部計算替代部分參數擴張。這并不是對任何現有大模型架構的證明，而是一種值得驗證的研究方向。

為了檢驗這一思路是否具有實際價值，Agnes AI團隊基于開源框架搭建了一套完整的語言模型預訓練流程，并設計了一系列對照實驗，對不同循環層級（T）的效果進行了測試。

實驗結果顯示，在相同訓練條件下，當模型增加一次循環計算（T=1）時，測試集上的PPL（Perplexity，）平均下降約10%。

需要說明的是，PPL下降并不意味著模型準確率提升10%，也不能直接等同于推理能力提升10%。它更像是衡量模型學習效率的一項基礎指標。從實驗結果來看，增加一次循環計算后，模型對訓練數據的利用效率出現了積極變化。

更重要的是，這項實驗驗證了一個值得進一步研究的現象：在不增加參數規模和模型層數的前提下，僅通過調整模型內部計算流程，也有可能獲得性能收益。

當前大模型行業深陷 “堆參數、卷底層優化” 的困局，提升效果靠擴參、降本死磕 KV Cache 與 CUDA 調優，成本高、邊際收益越來越低。Agnes AI團隊跳出這一思維定式，以Mythos 架構解密為核心，在固定參數的前提下，驗證小模型逼近大模型效果的可行性。給出了這條技術路線 “哥德巴赫猜想” T=1 的驗證結果，也期待社區在此基礎上繼續探索，共同驗證T=2、3、4… 的更多可能，為行業打開全新方向：不靠堆參數、不燒錢拼算力，靠架構創新，讓小模型也能實現更接近大模型的能力。

下面，將詳細介紹這項實驗的設計過程、關鍵結果以及目前能夠得出的結論與邊界。

OpenMythos 與 nanowhale 結合成類 Recurrent Language Model 路線的深度研究

從 Claude Mythos 的架構猜想，到 NanoMythos 在 FineWeb-Edu 10K 上的技術驗證

執行摘要

這篇文章解釋的是一個小規模但非常關鍵的架構實驗：把 OpenMythos 所代表的 recurrent-depth 思路，移植到 nanowhale / DeepSeek-V4 風格的小型語言模型中，并檢驗這種 NanoMythos 融合模型是否能夠提升預訓練效率。

核心結果很直接：在 FineWeb-Edu 10K、5,000 步短預算驗證設置下，T=1 的 recurrent 模型把三組隨機種子的 held-out PPL 平均值從 baseline 的 166.2 降到 148.3。也就是說，平均下降 17.9 PPL，相對下降約 10.8%，并且 3/3 個隨機種子全部獲勝。

這并不證明 Claude 內部一定采用了同樣的架構。但它說明，Claude-Mythos 式 recurrent-depth 假設可以被轉化為一個可復核的工程實驗；同時，T=1 這個最小循環深度已經給出了足夠清晰的正向信號，值得繼續擴大規模驗證。

1. 什么是 Claude Mythos，為什么影響力這么大？

“Claude Mythos”更適合被理解為圍繞前沿語言模型的一種架構假設，尤其是圍繞 Anthropic Claude 系列模型的能力來源展開的討論。這個說法通常指向一個問題：現代語言模型是否真的只是普通的前饋 Transformer 層堆疊，還是在內部包含了某種重復計算機制，例如 recurrent depth、迭代式表示修正，或者隱藏狀態空間中的反復處理。

這個概念之所以有影響力，并不是因為外界已經公開驗證了 Claude 的內部架構。真正的影響力來自一個更大的直覺：前沿模型已經表現出復雜推理、規劃、自我修正和工具使用能力，而標準 Transformer scaling 只能解釋其中一部分現象。因此，研究者開始追問：如果模型不是只靠更多參數，而是通過更多內部計算來提升能力，會不會是一條更高效的路線？

一個直觀類比是：讀一句話一次和讀完后再思考一遍，效果并不一樣。標準 Transformer 堆疊是固定層數的單次前向傳播；而recurrent-depth 模型會讓部分隱藏狀態再次經過共享或部分共享的計算核心。它并不等同于人類思考，但它確實增加了一條新的擴展維度：不只是更多參數和更多數據，而是每個 token 可以獲得更多內部計算。

2. Recurrent Language Model 研究目前走到哪一步？

Recurrent language model 并不是一個單一方法，而是一組試圖讓語言模型復用計算、攜帶狀態或多步修正隱藏表示的研究路線。

早期工作如 Universal Transformer 和 Transformer-XL 分別從“重復應用層”和“跨片段記憶”兩個角度探索 recurrence。近幾年，狀態空間模型、RWKV 式遞歸結構、looped Transformer、recurrent-depth Transformer，以及 Coconut 這類連續潛空間推理方法，也都在不同層面推進類似方向。它們實現不同，但共同動機一致：固定深度的 next-token prediction 未必是分配計算資源的唯一有效方式。

在這個語境下，OpenMythos 的價值不在于它證明了 Claude 的真實設計，而在于它把一個模糊的架構猜想變成了可實現、可檢查、可修改的 recurrent-depth Transformer 假設。這樣一來，我們就可以問一個更科學的問題：如果把類似的 recurrent 計算路徑放入一個受控的小模型中，訓練行為是否會被可測量地改善？

傳統 scaling：更多參數 + 更多數據 + 更多訓練計算
Recurrent-depth scaling：一樣的參數 + 更多數據 + 每個 token 更多重復內部計算

3. 我們的結合方式：把 OpenMythos 的 Recurrent Depth 放進 nanowhale 風格骨干

融合后的模型可以理解為一個 NanoMythos 驗證框架。宿主模型沿用 nanowhale 的方向：一個約 110M 規模、DeepSeek-V4 風格的小語言模型，適合低成本、反復進行預訓練架構實驗。架構干預來自 OpenMythos 的核心想法：在網絡中間插入一個 recurrent / Mythos core，并讓它循環執行 T 次。

這樣就形成了一個清晰的受控對比：baseline 保留 nanowhale 風格骨干，但不引入 recurrent depth；實驗模型保持同樣的模型家族、數據集和訓練預算，只在中間核心處執行一次 recurrent pass，也就是 T=1。

T=1 是一個刻意保守的設置。它并不是為了模擬很長的“思考過程”，而是最小的非平凡 recurrent-depth 配置：足以檢驗這條路徑是否有幫助，同時又不會讓過深循環帶來的不穩定性掩蓋結果。

圖 1. NanoMythos 架構：將 OpenMythos 風格 recurrent depth 移植到 nanowhale / DeepSeek-V4 風格小語言模型中。

4. 實驗設置

這個驗證問題非常窄：在相同的 FineWeb-Edu 10K 預訓練預算下，T=1 recurrent depth 是否能比 baseline 獲得更低的 held-out perplexity？

FineWeb-Edu 10K 是一個緊湊的教育類網頁預訓練子集。它的目標不是訓練出生產級模型，而是提供一個足夠真實、迭代速度足夠快的數據分布，用于早期架構驗證。

每個模型訓練 5,000 步。對于主隨機種子，還在 1,000、2,000、3,000、4,000 和 5,000 步進行階段性評估。實驗覆蓋三個隨機種子：seed2025、seed2027 和 seed2048。核心指標是 held-out perplexity，數值越低越好。

5. 核心結果：T=1 讓 PPL 下降約 10%

在 5,000 訓練步時，NanoMythos T=1 在所有測試隨機種子上都優于 baseline。

圖 2. FineWeb-Edu 10K 跨種子 PPL 對比。Delta 為負表示 NanoMythos T=1 更好。

這個結果有兩點意義。第一，提升不是某一個隨機種子的偶然：T=1 在 seed2025、seed2027 和 seed2048 上全部獲勝。第二，seed2027 尤其值得注意。baseline 退化到 187.7 PPL，而 T=1 保持在 151.4 PPL，明顯更接近其他 T=1 結果。這可能暗示 recurrent-depth 改寫帶來了一定穩定化效果，當然還需要更多隨機種子才能做強統計結論。

因此，最穩妥的結論不是“recurrent depth 一定全面優于傳統架構”，而是：T=1 已經給出了足夠穩定的正向信號，值得進入更大規模驗證。

6. 訓練動態：差距在 3,000 步后變得更清楚

圖 3. Seed2025 階段性評估。T=1 始終更優，并且 3,000 步后差距更明顯。

這個趨勢很重要，因為很多弱架構技巧只會帶來早期優化假象，后續優勢會消失。但這里的優勢沒有消失，反而隨著訓練推進更明顯。這支持一種解釋：recurrent-depth 計算改善的是參數使用效率，而不只是早期優化行為。

7. 外部參考：GPT-2 Standard / Small

GPT-2 對比需要謹慎解讀。GPT-2 與 nanowhale 在 tokenizer、block 設計、參數組織和實現細節上都有差異，因此它不是一個純粹的architecture-only 對比。

但它仍然有參考價值。在短預算 FineWeb-Edu 10K、相同數據量與訓練步數下，隨機初始化的 GPT-2 Standard 124M 驗證 PPL 為 273.5，而 nanowhale T=1 為 147.7——絕對低約 126 點，相對約 46%，可視為早期收斂明顯優于該 GPT-2 基線。

8. 這個結果證明了什么，又沒有證明什么？

T=1 收益最可能的解釋，并不是模型突然擁有了類似人類的推理能力。更技術性的解釋是：recurrent block 讓模型在復用參數的同時，對 token-level hidden representation 多做了一次修正，從而提升了compute-per-parameter 的效率。

這不同于簡單加層。加層會增加獨立參數數量；復用中間核心則是在參數預算更受控的情況下增加有效計算深度。

因此，這個結果支持的是一個適度但重要的主張：recurrent-depth computation 是一個值得繼續探索的預訓練架構改進方向，而 T=1 是當前最干凈、最適合作為擴展起點的配置。

9. 為什么 T=2 還不是當前主線？

T=2 在當前 recipe 下表現明顯更差。這不應該被理解為“更深 recurrence 沒有價值”的證明。更合理的解釋是：T=2 不能直接套用為 baseline 或 T=1 調好的訓練配方。

可能原因包括學習率不匹配、warmup 不足、hidden-state drift、殘差縮放不足、loop embedding 不夠強，以及 5,000 步 / 10K 數據規模太小，無法讓更深循環穩定發揮作用。

10. 下一步：如何把 T 擴大到更高？

擴展到 FineWeb-Edu 50K：在更大數據設置下運行 baseline、T=1 和 GPT-2 Standard 對比，驗證 T=1 優勢是否能從 10K pilot 延續到更大數據規模。

100M–200M T=1 pilot：把 T=1 作為默認 recurrent-depth 設置，測試當模型接近 GPT-2 Small / Standard 規模時，收益是否仍然可見。

T=2 recipe search：把 T=2 當作獨立消融軌道，而不是直接替代 T=1。重點測試更低學習率、更長 warmup、殘差阻尼、門控 recurrent update、step-aware loop embedding、更強 normalization 和更長訓練 schedule。

自適應 latent compute：從固定 T 走向可變深度計算。讓簡單 token 使用更少內部 pass，讓困難 token 使用更多 pass，可用 hidden delta、logit KL、entropy change 或 learned halting 信號控制停止。

連接推理任務：把 PPL 證據延伸到 reasoning tasks：引入 Coconut-light 路線、連續 latent thoughts、 / latent spans，以及 DAG search、logic chains、arithmetic carry、GSM8K-mini 等診斷任務。

11. 結論

OpenMythos 與 nanowhale 的結合，把一個關于 Claude Mythos 的架構猜想，轉化成了一個具體的工程實驗。它沒有聲稱知道 Claude 的內部設計，而是提出一個可測量問題：在受控預訓練設置下，recurrent-depth 機制是否能改善一個小型開放模型？

FineWeb-Edu 10K 的結果是正向的：baseline 平均 PPL 為 166.2，NanoMythos T=1 平均 PPL 為 148.3，平均提升 17.9 PPL，隨機種子勝率 3/3，相對 held-out perplexity 下降約 10.8%。

最穩妥的結論是：T=1 recurrent depth 是一個可信的架構改進候選，值得進入下一階段 scale-up。如果這個信號能在 FineWeb-Edu 50K 和 100M–200M pilot 上繼續存在，NanoMythos 就可以從一個架構猜想實驗，進一步發展為面向高效預訓練和 latent compute 的系統研究路線。

來源說明

本中文 Word 版本基于 NanoMythos / nanowhale 技術驗證材料，以及 FineWeb-Edu 10K cross-seed 實驗結果整理。

文檔中的架構圖、實驗柱狀圖和訓練動態折線圖均已重建為適合 Word 閱讀和傳播的多模態內容，并盡量保留原始技術信息。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.