无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

不堆參數、不燒算力!小模型也能跑出大模型能力

0
分享至


不靠堆參數,循環計算賦能小模型提效。

編輯丨李希

當大模型的發展越來越依賴更大的參數規模和更高的訓練成本時,一個問題開始被越來越多人關注:模型變強,是否只有“堆參數”這一條路?

過去幾年,大模型的發展幾乎遵循著同一條路徑:更多參數、更多數據、更多算力。

但一個問題始終存在:如果不繼續擴大模型規模,只改變模型內部的計算方式,能否同樣帶來性能提升?

圍繞這一問題,22歲的AI研究者 Kye Gomez 提出過 Mythos 架構假想。其核心思路是讓模型對同一段信息進行額外的循環計算(Recurrent Depth),嘗試用更多內部計算替代部分參數擴張。這并不是對任何現有大模型架構的證明,而是一種值得驗證的研究方向。

為了檢驗這一思路是否具有實際價值,Agnes AI團隊基于開源框架搭建了一套完整的語言模型預訓練流程,并設計了一系列對照實驗,對不同循環層級(T)的效果進行了測試。

實驗結果顯示,在相同訓練條件下,當模型增加一次循環計算(T=1)時,測試集上的PPL(Perplexity,)平均下降約10%。

需要說明的是,PPL下降并不意味著模型準確率提升10%,也不能直接等同于推理能力提升10%。它更像是衡量模型學習效率的一項基礎指標。從實驗結果來看,增加一次循環計算后,模型對訓練數據的利用效率出現了積極變化。

更重要的是,這項實驗驗證了一個值得進一步研究的現象:在不增加參數規模和模型層數的前提下,僅通過調整模型內部計算流程,也有可能獲得性能收益。

當前大模型行業深陷 “堆參數、卷底層優化” 的困局,提升效果靠擴參、降本死磕 KV Cache 與 CUDA 調優,成本高、邊際收益越來越低。Agnes AI團隊跳出這一思維定式,以Mythos 架構解密為核心,在固定參數的前提下,驗證小模型逼近大模型效果的可行性。給出了這條技術路線 “哥德巴赫猜想” T=1 的驗證結果,也期待社區在此基礎上繼續探索,共同驗證T=2、3、4… 的更多可能,為行業打開全新方向:不靠堆參數、不燒錢拼算力,靠架構創新,讓小模型也能實現更接近大模型的能力。

下面,將詳細介紹這項實驗的設計過程、關鍵結果以及目前能夠得出的結論與邊界。

OpenMythos 與 nanowhale 結合成類 Recurrent Language Model 路線的深度研究

從 Claude Mythos 的架構猜想,到 NanoMythos 在 FineWeb-Edu 10K 上的技術驗證

01


執行摘要

這篇文章解釋的是一個小規模但非常關鍵的架構實驗:把 OpenMythos 所代表的 recurrent-depth 思路,移植到 nanowhale / DeepSeek-V4 風格的小型語言模型中,并檢驗這種 NanoMythos 融合模型是否能夠提升預訓練效率。

核心結果很直接:在 FineWeb-Edu 10K、5,000 步短預算驗證設置下,T=1 的 recurrent 模型把三組隨機種子的 held-out PPL 平均值從 baseline 的 166.2 降到 148.3。也就是說,平均下降 17.9 PPL,相對下降約 10.8%,并且 3/3 個隨機種子全部獲勝。

這并不證明 Claude 內部一定采用了同樣的架構。但它說明,Claude-Mythos 式 recurrent-depth 假設可以被轉化為一個可復核的工程實驗;同時,T=1 這個最小循環深度已經給出了足夠清晰的正向信號,值得繼續擴大規模驗證。

1. 什么是 Claude Mythos,為什么影響力這么大?

“Claude Mythos”更適合被理解為圍繞前沿語言模型的一種架構假設,尤其是圍繞 Anthropic Claude 系列模型的能力來源展開的討論。這個說法通常指向一個問題:現代語言模型是否真的只是普通的前饋 Transformer 層堆疊,還是在內部包含了某種重復計算機制,例如 recurrent depth、迭代式表示修正,或者隱藏狀態空間中的反復處理。

這個概念之所以有影響力,并不是因為外界已經公開驗證了 Claude 的內部架構。真正的影響力來自一個更大的直覺:前沿模型已經表現出復雜推理、規劃、自我修正和工具使用能力,而標準 Transformer scaling 只能解釋其中一部分現象。因此,研究者開始追問:如果模型不是只靠更多參數,而是通過更多內部計算來提升能力,會不會是一條更高效的路線?

一個直觀類比是:讀一句話一次和讀完后再思考一遍,效果并不一樣。標準 Transformer 堆疊是固定層數的單次前向傳播;而recurrent-depth 模型會讓部分隱藏狀態再次經過共享或部分共享的計算核心。它并不等同于人類思考,但它確實增加了一條新的擴展維度:不只是更多參數和更多數據,而是每個 token 可以獲得更多內部計算。

2. Recurrent Language Model 研究目前走到哪一步?

Recurrent language model 并不是一個單一方法,而是一組試圖讓語言模型復用計算、攜帶狀態或多步修正隱藏表示的研究路線。

早期工作如 Universal Transformer 和 Transformer-XL 分別從“重復應用層”和“跨片段記憶”兩個角度探索 recurrence。近幾年,狀態空間模型、RWKV 式遞歸結構、looped Transformer、recurrent-depth Transformer,以及 Coconut 這類連續潛空間推理方法,也都在不同層面推進類似方向。它們實現不同,但共同動機一致:固定深度的 next-token prediction 未必是分配計算資源的唯一有效方式。

在這個語境下,OpenMythos 的價值不在于它證明了 Claude 的真實設計,而在于它把一個模糊的架構猜想變成了可實現、可檢查、可修改的 recurrent-depth Transformer 假設。這樣一來,我們就可以問一個更科學的問題:如果把類似的 recurrent 計算路徑放入一個受控的小模型中,訓練行為是否會被可測量地改善?

傳統 scaling:更多參數 + 更多數據 + 更多訓練計算
Recurrent-depth scaling:一樣的參數 + 更多數據 + 每個 token 更多重復內部計算

3. 我們的結合方式:把 OpenMythos 的 Recurrent Depth 放進 nanowhale 風格骨干

融合后的模型可以理解為一個 NanoMythos 驗證框架。宿主模型沿用 nanowhale 的方向:一個約 110M 規模、DeepSeek-V4 風格的小語言模型,適合低成本、反復進行預訓練架構實驗。架構干預來自 OpenMythos 的核心想法:在網絡中間插入一個 recurrent / Mythos core,并讓它循環執行 T 次。

這樣就形成了一個清晰的受控對比:baseline 保留 nanowhale 風格骨干,但不引入 recurrent depth;實驗模型保持同樣的模型家族、數據集和訓練預算,只在中間核心處執行一次 recurrent pass,也就是 T=1。

T=1 是一個刻意保守的設置。它并不是為了模擬很長的“思考過程”,而是最小的非平凡 recurrent-depth 配置:足以檢驗這條路徑是否有幫助,同時又不會讓過深循環帶來的不穩定性掩蓋結果。


圖 1. NanoMythos 架構:將 OpenMythos 風格 recurrent depth 移植到 nanowhale / DeepSeek-V4 風格小語言模型中。


4. 實驗設置

這個驗證問題非常窄:在相同的 FineWeb-Edu 10K 預訓練預算下,T=1 recurrent depth 是否能比 baseline 獲得更低的 held-out perplexity?

FineWeb-Edu 10K 是一個緊湊的教育類網頁預訓練子集。它的目標不是訓練出生產級模型,而是提供一個足夠真實、迭代速度足夠快的數據分布,用于早期架構驗證。

每個模型訓練 5,000 步。對于主隨機種子,還在 1,000、2,000、3,000、4,000 和 5,000 步進行階段性評估。實驗覆蓋三個隨機種子:seed2025、seed2027 和 seed2048。核心指標是 held-out perplexity,數值越低越好。

5. 核心結果:T=1 讓 PPL 下降約 10%

在 5,000 訓練步時,NanoMythos T=1 在所有測試隨機種子上都優于 baseline。



圖 2. FineWeb-Edu 10K 跨種子 PPL 對比。Delta 為負表示 NanoMythos T=1 更好。

這個結果有兩點意義。第一,提升不是某一個隨機種子的偶然:T=1 在 seed2025、seed2027 和 seed2048 上全部獲勝。第二,seed2027 尤其值得注意。baseline 退化到 187.7 PPL,而 T=1 保持在 151.4 PPL,明顯更接近其他 T=1 結果。這可能暗示 recurrent-depth 改寫帶來了一定穩定化效果,當然還需要更多隨機種子才能做強統計結論。

因此,最穩妥的結論不是“recurrent depth 一定全面優于傳統架構”,而是:T=1 已經給出了足夠穩定的正向信號,值得進入更大規模驗證。

6. 訓練動態:差距在 3,000 步后變得更清楚



圖 3. Seed2025 階段性評估。T=1 始終更優,并且 3,000 步后差距更明顯。

這個趨勢很重要,因為很多弱架構技巧只會帶來早期優化假象,后續優勢會消失。但這里的優勢沒有消失,反而隨著訓練推進更明顯。這支持一種解釋:recurrent-depth 計算改善的是參數使用效率,而不只是早期優化行為。

7. 外部參考:GPT-2 Standard / Small


GPT-2 對比需要謹慎解讀。GPT-2 與 nanowhale 在 tokenizer、block 設計、參數組織和實現細節上都有差異,因此它不是一個純粹的architecture-only 對比。

但它仍然有參考價值。在短預算 FineWeb-Edu 10K、相同數據量與訓練步數下,隨機初始化的 GPT-2 Standard 124M 驗證 PPL 為 273.5,而 nanowhale T=1 為 147.7——絕對低約 126 點,相對約 46%,可視為早期收斂明顯優于該 GPT-2 基線。

8. 這個結果證明了什么,又沒有證明什么?

T=1 收益最可能的解釋,并不是模型突然擁有了類似人類的推理能力。更技術性的解釋是:recurrent block 讓模型在復用參數的同時,對 token-level hidden representation 多做了一次修正,從而提升了compute-per-parameter 的效率。

這不同于簡單加層。加層會增加獨立參數數量;復用中間核心則是在參數預算更受控的情況下增加有效計算深度。

因此,這個結果支持的是一個適度但重要的主張:recurrent-depth computation 是一個值得繼續探索的預訓練架構改進方向,而 T=1 是當前最干凈、最適合作為擴展起點的配置。


9. 為什么 T=2 還不是當前主線?


T=2 在當前 recipe 下表現明顯更差。這不應該被理解為“更深 recurrence 沒有價值”的證明。更合理的解釋是:T=2 不能直接套用為 baseline 或 T=1 調好的訓練配方。

可能原因包括學習率不匹配、warmup 不足、hidden-state drift、殘差縮放不足、loop embedding 不夠強,以及 5,000 步 / 10K 數據規模太小,無法讓更深循環穩定發揮作用。

10. 下一步:如何把 T 擴大到更高?

擴展到 FineWeb-Edu 50K:在更大數據設置下運行 baseline、T=1 和 GPT-2 Standard 對比,驗證 T=1 優勢是否能從 10K pilot 延續到更大數據規模。

100M–200M T=1 pilot:把 T=1 作為默認 recurrent-depth 設置,測試當模型接近 GPT-2 Small / Standard 規模時,收益是否仍然可見。

T=2 recipe search:把 T=2 當作獨立消融軌道,而不是直接替代 T=1。重點測試更低學習率、更長 warmup、殘差阻尼、門控 recurrent update、step-aware loop embedding、更強 normalization 和更長訓練 schedule。

自適應 latent compute:從固定 T 走向可變深度計算。讓簡單 token 使用更少內部 pass,讓困難 token 使用更多 pass,可用 hidden delta、logit KL、entropy change 或 learned halting 信號控制停止。

連接推理任務:把 PPL 證據延伸到 reasoning tasks:引入 Coconut-light 路線、連續 latent thoughts、 / latent spans,以及 DAG search、logic chains、arithmetic carry、GSM8K-mini 等診斷任務。

11. 結論

OpenMythos 與 nanowhale 的結合,把一個關于 Claude Mythos 的架構猜想,轉化成了一個具體的工程實驗。它沒有聲稱知道 Claude 的內部設計,而是提出一個可測量問題:在受控預訓練設置下,recurrent-depth 機制是否能改善一個小型開放模型?

FineWeb-Edu 10K 的結果是正向的:baseline 平均 PPL 為 166.2,NanoMythos T=1 平均 PPL 為 148.3,平均提升 17.9 PPL,隨機種子勝率 3/3,相對 held-out perplexity 下降約 10.8%。

最穩妥的結論是:T=1 recurrent depth 是一個可信的架構改進候選,值得進入下一階段 scale-up。如果這個信號能在 FineWeb-Edu 50K 和 100M–200M pilot 上繼續存在,NanoMythos 就可以從一個架構猜想實驗,進一步發展為面向高效預訓練和 latent compute 的系統研究路線。

02


來源說明

本中文 Word 版本基于 NanoMythos / nanowhale 技術驗證材料,以及 FineWeb-Edu 10K cross-seed 實驗結果整理。

文檔中的架構圖、實驗柱狀圖和訓練動態折線圖均已重建為適合 Word 閱讀和傳播的多模態內容,并盡量保留原始技術信息。

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這次,孫丞瀟被扒了個底朝天,吳鎮宇的話,終于有人信了

這次,孫丞瀟被扒了個底朝天,吳鎮宇的話,終于有人信了

草莓解說體育
2026-06-13 14:45:45
馬斯克的“造人計劃”:14個孩子和一個讓他心碎的“嫡長子”

馬斯克的“造人計劃”:14個孩子和一個讓他心碎的“嫡長子”

民間胡扯老哥
2026-06-14 07:08:34
一油傳三代,人走油還在,日本一炸雞店一鍋油用了66年拿全國金獎

一油傳三代,人走油還在,日本一炸雞店一鍋油用了66年拿全國金獎

大廠編外實習生
2026-06-12 13:36:01
一輪牛市,科技見頂就是牛市結束,大家被“洗腦”了!

一輪牛市,科技見頂就是牛市結束,大家被“洗腦”了!

郭小凡財經
2026-06-14 09:13:07
15個副省級市已明確,浙江2個,江蘇僅有1個,湖南、河北1個都無

15個副省級市已明確,浙江2個,江蘇僅有1個,湖南、河北1個都無

混沌錄
2026-06-01 21:47:13
村里請我回去投資,剛上桌就被二叔扇臉:你也配上桌,我火速撤資

村里請我回去投資,剛上桌就被二叔扇臉:你也配上桌,我火速撤資

千秋文化
2026-06-10 20:45:49
后防巨大失誤!巴西隊3人看戲:摩洛哥新星精彩破門 安帥一臉愁容

后防巨大失誤!巴西隊3人看戲:摩洛哥新星精彩破門 安帥一臉愁容

風過鄉
2026-06-14 06:36:51
特朗普出手!Claude Fable 5與Mythos 5全停了,AI專家:中國才是全人類希望

特朗普出手!Claude Fable 5與Mythos 5全停了,AI專家:中國才是全人類希望

智東西
2026-06-13 12:29:15
白酒再次成為關注對象!多名院士發現:常喝白酒的人,有4個變化

白酒再次成為關注對象!多名院士發現:常喝白酒的人,有4個變化

垚垚分享健康
2026-06-13 19:20:07
比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

芳芳歷史燴
2025-12-25 20:32:52
破繭成蝶未來可期!U23國足4-0大勝展現青春風暴

破繭成蝶未來可期!U23國足4-0大勝展現青春風暴

環球體壇啄木鳥
2026-06-13 18:47:30
這組全是許晴年輕舊照!

這組全是許晴年輕舊照!

草莓解說體育
2026-06-05 14:04:24
全線轉跌,超12萬人爆倉

全線轉跌,超12萬人爆倉

每日經濟新聞
2026-06-12 00:18:19
世界杯熱度不如從前,別看國足缺席,中國反而卻成了最大贏家

世界杯熱度不如從前,別看國足缺席,中國反而卻成了最大贏家

小許論事
2026-06-13 10:42:43
洛佩特吉迎來世界杯首秀:2018年的事,我已放下

洛佩特吉迎來世界杯首秀:2018年的事,我已放下

體壇周報
2026-06-13 17:57:21
震驚!武漢某大學食堂貼出提示稱“燒鵝飯為廣東俗稱,實為烤鴨”

震驚!武漢某大學食堂貼出提示稱“燒鵝飯為廣東俗稱,實為烤鴨”

火山詩話
2026-06-13 08:00:03
守不住!臺灣管控的太平島允許美軍進領海,被越南菲律賓多次欺負

守不住!臺灣管控的太平島允許美軍進領海,被越南菲律賓多次欺負

阿龍聊軍事
2026-06-13 15:19:24
痛快!女子買房被姑姑指“嫁出的女不該分家產”,回懟堪稱教科書

痛快!女子買房被姑姑指“嫁出的女不該分家產”,回懟堪稱教科書

火山詩話
2026-06-13 06:40:12
四人幫被密捕的消息是如何泄露的?北京傳來暗語:老娘心肌梗死

四人幫被密捕的消息是如何泄露的?北京傳來暗語:老娘心肌梗死

談古論今歷史有道
2026-06-03 16:30:03
為什么說閑魚是中國最大的黑市?網友:我直接給跪了!

為什么說閑魚是中國最大的黑市?網友:我直接給跪了!

另子維愛讀史
2026-06-02 10:51:07
2026-06-14 10:43:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7372文章數 20758關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細節

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細節

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

藝術
家居
親子
房產
軍事航空

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

家居要聞

空間微調 移形換境

親子要聞

兩個孩子兩種出路

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版