![]()
作者 | 四月
模型能力還需往上走,但訓練成本卻不能再無止境堆砌了——這可能是當前 AI 行業最強烈的共識。
從開發者到模型公司,大家關心的焦點已經不只是“誰家的模型更強”,而是一個更務實的問題:“同樣多的 GPU、同樣的訓練時間,能不能跑出更多有效實驗,吃進更多有效數據,拿到更好的 loss 和下游指標?”
憑借Hermes Agent (140K Star)火速出圈的Nous Research 團隊,剛剛提出了一種 Token 疊加訓練方法:Token Superposition Training (TST),有望把大模型的預訓練成本壓低一個量級。
![]()
目前,該貼的瀏覽量已突破 41 萬。Hugging Face: http://huggingface.co/papers/2605.06546
在論文《Efficient Pre-Training with Token Superposition》中,最值得關注的是一組百億參數 MoE 實驗(Qwen3-like 10B-A1B MoE),效果非常直觀:
![]()
baseline 訓練 1.05T tokens 消耗 12311 B200-hours;
而 TST 訓練 2T tokens,僅消耗 4768 B200-hours,約為 baseline 的 38.7%;
與此同時,final loss 從 2.252 降至 2.236,HellaSwag、ARC-E、ARC-C、MMLU 等 0-shot 評測同步提升。
換言之,TST 只用了約四成 GPU 時間,就跑出了更低的 loss 和更好的下游指標。相當于在相同最終損失下將預訓練時間壓縮到原來的 40%,提速約 2.5 倍。
如果說,超越龍蝦(OpenClaw)、登頂全球 OpenRouter 的 Hermes Agent,證明了 Nous Research 團隊既會訓模型,也能用 Agent 把能力調教到極致;那么最新提出的 TST,則是把視線從“模型怎么用”,進一步拉回了能力的源頭,直擊預訓練本身。
之所以將 Nous Research 與 DeepSeek 對標,不只是因為這支美國團隊同樣長期堅守開源陣營,更因二者的降本路線截然不同。
DS 代表的是系統級重構,無論是 MoE、MLA,還是稀疏化與并行優化,皆靠系統級工程壓榨算力。效率提升從來不是免費的,工程總要在別處為復雜度買單。
而 NR 則是重寫預訓練早期的學習路徑。它不碰架構,從模型學習 token 的方式本身下手,切口更輕巧,更容易落地。
TST:讓模型先“粗讀”,再“精讀”
要理解 TST,讓我們先回到預訓練最基礎的動作:next-token prediction(下一個詞元的預測)。
標準訓練里,模型看到前面的 token,預測下一個 token。這個機制很簡單,也很強。過去幾年,幾乎所有主流 LLM 都是在這個范式上堆出來的。
但 TST 提出了一個很樸素的問題:模型在預訓練一開始,真的有必要逐 token 精讀嗎?
NR 的答案是:不一定。他們把預訓練拆成兩個階段。
![]()
圖注:TST 與標準 next-token prediction、MTP、SuperBPE 的對比。TST 在訓練早期同時改變輸入粒度和輸出監督目標,但不改變最終模型架構
第一階段叫superposition phase(“詞元疊加階段”)。在訓練前期,模型不再一個 token 一個 token 地讀文本,而是把連續多個 token 打成一個 bag。比如 bag size 為 8,就把連續 8 個 token 看作一組。
輸入側,模型會把這一組 token 的 embedding (“向量表示”)求平均,變成一個壓縮后的superposed token(“疊加詞元”)。輸出側,模型也不再預測下一個單獨 token,而是預測下一組 token 里會出現哪些 token。
第二階段叫recovery phase(“恢復階段”)。訓練跑到一定比例后,TST 被移除,模型重新回到標準 next-token prediction。也就是說,后半程還是按照普通 LLM 的方式訓練,把前期“粗粒度學習”得到的表示,拉回到可生成、可部署的自回歸模型形態。
論文把 TST 稱為一個drop-in pretraining method(“即插即用式預訓練方法”),重點就在這里:它不需要修改并行策略、優化器、tokenizer、訓練數據或模型架構,真正改變的是訓練早期的輸入粒度和監督目標。
這也是它和很多訓練提效方案不一樣的地方:TST 只改變訓練過程,不改變推理模型。
目前很多方法一旦觸及訓練端優化,就會牽動推理。比如換 tokenizer,生態兼容要重來;改模型結構,部署鏈路要適配;改注意力或推理機制,線上服務也要跟著調整。
但 TST 是把復雜度留在訓練階段,最終交付的仍然是一個普通 LLM。
當然,只用 TST 訓練是不夠的。論文也明確指出,如果模型全程只用 TST,它會輸出多個未來 token 的混合概率,生成結果會變得混亂。因此,TST 必須在后期切回標準自回歸訓練。
這也解釋了為什么 TST 更適合被理解為一種“階段化訓練策略”,而不是 next-token prediction 的替代品。
更直白地說,TST 做的事情有點像讓模型在預訓練早期先“粗讀”:先學習局部語義、詞匯共現和粗粒度分布;等基礎表示建立起來之后,再回到逐 token 的標準自回歸訓練,把生成能力和 token 級精度補回來。
也就是,訓練時壓縮 token,推理時還是普通 LLM。
為什么能省 GPU?
每一步都吃進更多文本
TST 的提速不是玄學。它的核心是一種資源取舍,用更粗的 token 表示,換更高的數據吞吐。
這里的數據吞吐,對應論文里的data throughput per FLOPs,可以理解為“單位計算量能處理多少原始文本”。換句話說,不是 GPU 忽然變快了,而是同樣算一次,模型能看見更多文本。
標準訓練中,模型每個位置處理一個 token,序列長度為 L,Transformer 就要處理 L 個表示。
但在 TST 的 superposition phase,連續 s 個 token 被合成一個 superposed token。模型內部處理的序列長度變短了,但每個位置對應的原始文本卻變多了。
因為模型是在更粗粒度的表示上計算,所以在相同FLOPs(浮點計算量),它可以處理s 倍的數據 token。
![]()
圖注:在 3B 模型實驗中,TST 在 equal-loss 設置下用更少訓練步數達到 baseline loss,說明其主要收益來自訓練早期更高的數據吞吐
傳統預訓練像逐字精讀;而 TST 的早期訓練則像是先快速掃一遍段落,抓住局部主題、詞匯共現和語義分布。等模型建立起基礎表示后,再切回逐字精讀。
這種“粗讀”并非沒有代價——它會丟失 bag 內的詞序信息,所以不能全程使用。但在模型剛接觸語言統計結構時,這種低分辨率輸入反而夠用且高效。
論文將此定義為一種coarse-to-fine(由粗到細)的策略:先讓模型在簡單、高吞吐的分布中學習粗粒度統計結構,再恢復全分辨率語言建模。
這與當前主流的效率路線截然不同:MoE是讓每個 token 少激活參數;稀疏注意力是讓每個 token 少看位置;MTP(Multi-Token Prediction,多 token 預測)是讓每個位置多預測幾個未來 token;而TST,是讓模型在訓練早期換一種 token 粒度學習。
它不是讓模型變小,也不是直接讓推理變快,而是讓預訓練早期的每一步都更“值錢”。
這對開發者至關重要。預訓練不是一錘子買賣,而是不斷試錯的過程。早期訓練越快進入有效區間,數據配方、超參設置這些實驗就能越早得到驗證。
說白了,TST 省下的不只是一次訓練的 GPU 小時,更是整個實驗周期的試錯成本。
最大收益來自百億參數模型
論文沒有只做小模型實驗,而是在270M、600M、3B 稠密模型,以及 10B-A1B MoE 上進行了驗證。這里的 10B-A1B MoE,即總參數約 100 億、每 token 激活約 10 億參數的 MoE 模型。正如開篇提及的,這是收益最大的受試模型。
![]()
圖注:TST 在不同規模模型上的核心實驗結果
![]()
圖注:在 10B-A1B MoE 實驗中,TST 將 B200 GPU 訓練時間消耗降到 baseline 的四成左右,并取得更低 loss 和更好的 0-shot 指標
也就是說,TST 消耗了更多數據 token,但用更少 GPU 時間達到了更好的結果。論文指出,在相同 loss 口徑下,TST 對應約 2.5 倍提速。
這已經足夠打動開發者。因為模型訓練里最貴的往往不是某一次成功訓練,而是成功之前的所有試錯。一次實驗少用一半以上 GPU 時間,意味著同樣預算下可以多跑幾組數據配方、多試幾組超參、多驗證幾個模型尺度。
論文還做了多組小規模超參數掃描實驗,也就是 sweep,觀察不同 bag size 和 superposition step ratio 的影響。最終作者認為,在合理范圍內,TST 對超參選擇相對穩健:bag size 在 4 到 8,superposition 訓練步數比例在 0.2 到 0.4 時,通常表現較好。
![]()
圖注:不同 bag size 和訓練比例下,TST 在 loss 與下游評測上都呈現相對穩定收益
另外,TST 并非單一機制在起作用。
論文做了輸入側、輸出側和完整 TST 的消融實驗:輸入側和輸出側單獨使用時都能優于 baseline,但完整 TST 效果最佳。作者據此指出,TST 是兩個機制的疊加:輸入側改變了輸入粒度和單位信息的 FLOPs 成本;輸出側改變了預測目標與梯度信號。
![]()
這套機制的啟發意義在于,輸入側作為在訓練早期,給到模型一個低分辨率視野,讓它以更低成本接觸更多文本;輸出側則像是把監督信號從“下一個 token 是什么”改成“接下來這一小段大概會出現哪些 token”。前者提高吞吐,后者提高監督密度。
這也是為什么 TST 和 MTP 看起來有點像,但本質不完全一樣。
MTP 更像是在同一個位置額外預測多個未來 token;TST 則是把輸入和輸出都改成更粗粒度的局部窗口。一個是增加監督題目,一個是改變學習分辨率。
訓練降本開始轉向學習路徑優化
TST 最大的看頭,不是它設計了多復雜的新架構,而是它點醒了一件事:訓練降本,別總盯著模型結構開刀。
過去一提降本,大家本能就是加卡、改架構、卷并行、做蒸餾。這些都是系統級重體力活,家里沒有余糧的團隊根本接不住。但這次,TST 給了一個輕得多的切口:只調整預訓練早期的學習路徑。
這意味著什么?
同樣多的 GPU 預算能多試幾輪配方,1B 到 10B 級垂直模型的試錯成本能明顯下降。對那些只想訓個夠用行業模型的中小團隊來說,這比硬剛前沿最新模型務實得多。
當然,TST 也不是免費午餐。
它本質上是“拿數據吞吐換 GPU 時間”,如果你是算力受限的團隊,這招極香;但如果你連高質量數據都喂不飽,那 TST 不僅幫不上忙,甚至可能放大數據短板。
但這不影響它的方向價值。
TST 把一個被默認太久的問題重新拎了出來:模型學習語言的順序,本身也可能是一種效率杠桿。
當模型越來越貴,真正有價值的創新不只是把模型做大,而是讓模型更會學習。更準確地說,是讓每一步訓練都更值錢。
Paper: http://arxiv.org/abs/2605.06546
HF: http://huggingface.co/papers/2605.06546
Blog: http://nousresearch.com/token-superposition
聲明:本文為 AI 前線原創,不代表平臺觀點,未經許可禁止轉載。
會議推薦
Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?
AICon 上海站 2026,13 大重磅專題已上線,誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。快來掃碼鎖定 8 折專屬席位或提交演講議題
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.