網易首頁 > 網易號 > 正文申請入駐

Hermes團隊改寫預訓練：算力成本降六成，DeepSeek之后提效新路徑

2026-05-15 19:29:08　來源: AI前線

北京舉報

分享至

作者 | 四月

模型能力還需往上走，但訓練成本卻不能再無止境堆砌了——這可能是當前 AI 行業最強烈的共識。

從開發者到模型公司，大家關心的焦點已經不只是“誰家的模型更強”，而是一個更務實的問題：“同樣多的 GPU、同樣的訓練時間，能不能跑出更多有效實驗，吃進更多有效數據，拿到更好的 loss 和下游指標？”

憑借Hermes Agent （140K Star）火速出圈的Nous Research 團隊，剛剛提出了一種 Token 疊加訓練方法：Token Superposition Training （TST），有望把大模型的預訓練成本壓低一個量級。

目前，該貼的瀏覽量已突破 41 萬。Hugging Face: http://huggingface.co/papers/2605.06546

在論文《Efficient Pre-Training with Token Superposition》中，最值得關注的是一組百億參數 MoE 實驗（Qwen3-like 10B-A1B MoE），效果非常直觀：

baseline 訓練 1.05T tokens 消耗 12311 B200-hours；
而 TST 訓練 2T tokens，僅消耗 4768 B200-hours，約為 baseline 的 38.7%；
與此同時，final loss 從 2.252 降至 2.236，HellaSwag、ARC-E、ARC-C、MMLU 等 0-shot 評測同步提升。

換言之，TST 只用了約四成 GPU 時間，就跑出了更低的 loss 和更好的下游指標。相當于在相同最終損失下將預訓練時間壓縮到原來的 40%，提速約 2.5 倍。

如果說，超越龍蝦（OpenClaw）、登頂全球 OpenRouter 的 Hermes Agent，證明了 Nous Research 團隊既會訓模型，也能用 Agent 把能力調教到極致；那么最新提出的 TST，則是把視線從“模型怎么用”，進一步拉回了能力的源頭，直擊預訓練本身。

之所以將 Nous Research 與 DeepSeek 對標，不只是因為這支美國團隊同樣長期堅守開源陣營，更因二者的降本路線截然不同。

DS 代表的是系統級重構，無論是 MoE、MLA，還是稀疏化與并行優化，皆靠系統級工程壓榨算力。效率提升從來不是免費的，工程總要在別處為復雜度買單。

而 NR 則是重寫預訓練早期的學習路徑。它不碰架構，從模型學習 token 的方式本身下手，切口更輕巧，更容易落地。

TST：讓模型先“粗讀”，再“精讀”

要理解 TST，讓我們先回到預訓練最基礎的動作：next-token prediction（下一個詞元的預測）。

標準訓練里，模型看到前面的 token，預測下一個 token。這個機制很簡單，也很強。過去幾年，幾乎所有主流 LLM 都是在這個范式上堆出來的。

但 TST 提出了一個很樸素的問題：模型在預訓練一開始，真的有必要逐 token 精讀嗎？

NR 的答案是：不一定。他們把預訓練拆成兩個階段。

圖注：TST 與標準 next-token prediction、MTP、SuperBPE 的對比。TST 在訓練早期同時改變輸入粒度和輸出監督目標，但不改變最終模型架構

第一階段叫superposition phase（“詞元疊加階段”）。在訓練前期，模型不再一個 token 一個 token 地讀文本，而是把連續多個 token 打成一個 bag。比如 bag size 為 8，就把連續 8 個 token 看作一組。

輸入側，模型會把這一組 token 的 embedding （“向量表示”）求平均，變成一個壓縮后的superposed token（“疊加詞元”）。輸出側，模型也不再預測下一個單獨 token，而是預測下一組 token 里會出現哪些 token。

第二階段叫recovery phase（“恢復階段”）。訓練跑到一定比例后，TST 被移除，模型重新回到標準 next-token prediction。也就是說，后半程還是按照普通 LLM 的方式訓練，把前期“粗粒度學習”得到的表示，拉回到可生成、可部署的自回歸模型形態。

論文把 TST 稱為一個drop-in pretraining method（“即插即用式預訓練方法”），重點就在這里：它不需要修改并行策略、優化器、tokenizer、訓練數據或模型架構，真正改變的是訓練早期的輸入粒度和監督目標。

這也是它和很多訓練提效方案不一樣的地方：TST 只改變訓練過程，不改變推理模型。

目前很多方法一旦觸及訓練端優化，就會牽動推理。比如換 tokenizer，生態兼容要重來；改模型結構，部署鏈路要適配；改注意力或推理機制，線上服務也要跟著調整。

但 TST 是把復雜度留在訓練階段，最終交付的仍然是一個普通 LLM。

當然，只用 TST 訓練是不夠的。論文也明確指出，如果模型全程只用 TST，它會輸出多個未來 token 的混合概率，生成結果會變得混亂。因此，TST 必須在后期切回標準自回歸訓練。

這也解釋了為什么 TST 更適合被理解為一種“階段化訓練策略”，而不是 next-token prediction 的替代品。

更直白地說，TST 做的事情有點像讓模型在預訓練早期先“粗讀”：先學習局部語義、詞匯共現和粗粒度分布；等基礎表示建立起來之后，再回到逐 token 的標準自回歸訓練，把生成能力和 token 級精度補回來。

也就是，訓練時壓縮 token，推理時還是普通 LLM。

為什么能省 GPU？

每一步都吃進更多文本

TST 的提速不是玄學。它的核心是一種資源取舍，用更粗的 token 表示，換更高的數據吞吐。

這里的數據吞吐，對應論文里的data throughput per FLOPs，可以理解為“單位計算量能處理多少原始文本”。換句話說，不是 GPU 忽然變快了，而是同樣算一次，模型能看見更多文本。

標準訓練中，模型每個位置處理一個 token，序列長度為 L，Transformer 就要處理 L 個表示。

但在 TST 的 superposition phase，連續 s 個 token 被合成一個 superposed token。模型內部處理的序列長度變短了，但每個位置對應的原始文本卻變多了。

因為模型是在更粗粒度的表示上計算，所以在相同FLOPs（浮點計算量），它可以處理s 倍的數據 token。

圖注：在 3B 模型實驗中，TST 在 equal-loss 設置下用更少訓練步數達到 baseline loss，說明其主要收益來自訓練早期更高的數據吞吐

傳統預訓練像逐字精讀；而 TST 的早期訓練則像是先快速掃一遍段落，抓住局部主題、詞匯共現和語義分布。等模型建立起基礎表示后，再切回逐字精讀。

這種“粗讀”并非沒有代價——它會丟失 bag 內的詞序信息，所以不能全程使用。但在模型剛接觸語言統計結構時，這種低分辨率輸入反而夠用且高效。

論文將此定義為一種coarse-to-fine（由粗到細）的策略：先讓模型在簡單、高吞吐的分布中學習粗粒度統計結構，再恢復全分辨率語言建模。

這與當前主流的效率路線截然不同：MoE是讓每個 token 少激活參數；稀疏注意力是讓每個 token 少看位置；MTP（Multi-Token Prediction，多 token 預測）是讓每個位置多預測幾個未來 token；而TST，是讓模型在訓練早期換一種 token 粒度學習。

它不是讓模型變小，也不是直接讓推理變快，而是讓預訓練早期的每一步都更“值錢”。

這對開發者至關重要。預訓練不是一錘子買賣，而是不斷試錯的過程。早期訓練越快進入有效區間，數據配方、超參設置這些實驗就能越早得到驗證。

說白了，TST 省下的不只是一次訓練的 GPU 小時，更是整個實驗周期的試錯成本。

最大收益來自百億參數模型

論文沒有只做小模型實驗，而是在270M、600M、3B 稠密模型，以及 10B-A1B MoE 上進行了驗證。這里的 10B-A1B MoE，即總參數約 100 億、每 token 激活約 10 億參數的 MoE 模型。正如開篇提及的，這是收益最大的受試模型。

圖注：TST 在不同規模模型上的核心實驗結果

圖注：在 10B-A1B MoE 實驗中，TST 將 B200 GPU 訓練時間消耗降到 baseline 的四成左右，并取得更低 loss 和更好的 0-shot 指標

也就是說，TST 消耗了更多數據 token，但用更少 GPU 時間達到了更好的結果。論文指出，在相同 loss 口徑下，TST 對應約 2.5 倍提速。

這已經足夠打動開發者。因為模型訓練里最貴的往往不是某一次成功訓練，而是成功之前的所有試錯。一次實驗少用一半以上 GPU 時間，意味著同樣預算下可以多跑幾組數據配方、多試幾組超參、多驗證幾個模型尺度。

論文還做了多組小規模超參數掃描實驗，也就是 sweep，觀察不同 bag size 和 superposition step ratio 的影響。最終作者認為，在合理范圍內，TST 對超參選擇相對穩健：bag size 在 4 到 8，superposition 訓練步數比例在 0.2 到 0.4 時，通常表現較好。

圖注：不同 bag size 和訓練比例下，TST 在 loss 與下游評測上都呈現相對穩定收益

另外，TST 并非單一機制在起作用。

論文做了輸入側、輸出側和完整 TST 的消融實驗：輸入側和輸出側單獨使用時都能優于 baseline，但完整 TST 效果最佳。作者據此指出，TST 是兩個機制的疊加：輸入側改變了輸入粒度和單位信息的 FLOPs 成本；輸出側改變了預測目標與梯度信號。

這套機制的啟發意義在于，輸入側作為在訓練早期，給到模型一個低分辨率視野，讓它以更低成本接觸更多文本；輸出側則像是把監督信號從“下一個 token 是什么”改成“接下來這一小段大概會出現哪些 token”。前者提高吞吐，后者提高監督密度。

這也是為什么 TST 和 MTP 看起來有點像，但本質不完全一樣。

MTP 更像是在同一個位置額外預測多個未來 token；TST 則是把輸入和輸出都改成更粗粒度的局部窗口。一個是增加監督題目，一個是改變學習分辨率。

訓練降本開始轉向學習路徑優化

TST 最大的看頭，不是它設計了多復雜的新架構，而是它點醒了一件事：訓練降本，別總盯著模型結構開刀。

過去一提降本，大家本能就是加卡、改架構、卷并行、做蒸餾。這些都是系統級重體力活，家里沒有余糧的團隊根本接不住。但這次，TST 給了一個輕得多的切口：只調整預訓練早期的學習路徑。

這意味著什么？

同樣多的 GPU 預算能多試幾輪配方，1B 到 10B 級垂直模型的試錯成本能明顯下降。對那些只想訓個夠用行業模型的中小團隊來說，這比硬剛前沿最新模型務實得多。

當然，TST 也不是免費午餐。

它本質上是“拿數據吞吐換 GPU 時間”，如果你是算力受限的團隊，這招極香；但如果你連高質量數據都喂不飽，那 TST 不僅幫不上忙，甚至可能放大數據短板。

但這不影響它的方向價值。

TST 把一個被默認太久的問題重新拎了出來：模型學習語言的順序，本身也可能是一種效率杠桿。

當模型越來越貴，真正有價值的創新不只是把模型做大，而是讓模型更會學習。更準確地說，是讓每一步訓練都更值錢。

Paper: http://arxiv.org/abs/2605.06546

HF: http://huggingface.co/papers/2605.06546

Blog: http://nousresearch.com/token-superposition

聲明：本文為 AI 前線原創，不代表平臺觀點，未經許可禁止轉載。

會議推薦

Agent 從 Demo 到工程化還差什么？安全與可信這道坎怎么過？研發體系不重構，還能撐多久？

AICon 上海站 2026，13 大重磅專題已上線，誠摯邀請你登臺分享實戰經驗。AICon 2026，期待與你同行。快來掃碼鎖定 8 折專屬席位或提交演講議題

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.