網易首頁 > 網易號 > 正文申請入駐

Nous新法TST：GPU耗時降61.3%，訓練提速2.5倍

2026-05-20 20:41:32　來源: 迷迭香的記憶a

四川舉報

分享至

模型能力還需往上走，但訓練成本卻不能再無止境堆砌了——這可能是當前 AI 行業最強烈的共識。

從開發者到模型公司，大家關心的焦點已經不只是“誰家的模型更強”，而是一個更務實的問題：“同樣多的 GPU、同樣的訓練時間，能不能跑出更多有效實驗，吃進更多有效數據，拿到更好的 loss 和下游指標？”

憑借 Hermes Agent （140K Star）火速出圈的Nous Research 團隊，剛剛提出了一種 Token 疊加訓練方法：Token Superposition Training （TST），有望把大模型的預訓練成本壓低一個量級。

換言之，TST 只用了約四成 GPU 時間，就跑出了更低的 loss 和更好的下游指標。相當于在相同最終損失下將預訓練時間壓縮到原來的 40%，提速約 2.5 倍。

如果說，超越龍蝦（OpenClaw）、登頂全球 OpenRouter 的 Hermes Agent，證明了 Nous Research 團隊既會訓模型，也能用 Agent 把能力調教到極致；那么最新提出的 TST，則是把視線從“模型怎么用”，進一步拉回了能力的源頭，直擊預訓練本身。

之所以將 Nous Research 與 DeepSeek 對標，不只是因為這支美國團隊同樣長期堅守開源陣營，更因二者的降本路線截然不同。

DS 代表的是系統級重構，無論是 MoE、MLA，還是稀疏化與并行優化，皆靠系統級工程壓榨算力。效率提升從來不是免費的，工程總要在別處為復雜度買單。

而 NR 則是重寫預訓練早期的學習路徑。它不碰架構，從模型學習 token 的方式本身下手，切口更輕巧，更容易落地。

1 TST：讓模型先“粗讀”，再“精讀”

要理解 TST，讓我們先回到預訓練最基礎的動作：next-token prediction（下一個詞元的預測）。

標準訓練里，模型看到前面的 token，預測下一個 token。這個機制很簡單，也很強。過去幾年，幾乎所有主流 LLM 都是在這個范式上堆出來的。

但 TST 提出了一個很樸素的問題：模型在預訓練一開始，真的有必要逐 token 精讀嗎？

NR 的答案是：不一定。他們把預訓練拆成兩個階段。

圖注：TST 與標準 next-token prediction、MTP、SuperBPE 的對比。TST 在訓練早期同時改變輸入粒度和輸出監督目標，但不改變最終模型架構

輸入側，模型會把這一組 token 的 embedding （“向量表示”）求平均，變成一個壓縮后的superposed token（“疊加詞元”）。輸出側，模型也不再預測下一個單獨 token，而是預測下一組 token 里會出現哪些 token。

第二階段叫recovery phase（“恢復階段”）。訓練跑到一定比例后，TST 被移除，模型重新回到標準 next-token prediction。也就是說，后半程還是按照普通 LLM 的方式訓練，把前期“粗粒度學習”得到的表示，拉回到可生成、可部署的自回歸模型形態。

這也是它和很多訓練提效方案不一樣的地方：TST 只改變訓練過程，不改變推理模型。

目前很多方法一旦觸及訓練端優化，就會牽動推理。比如換 tokenizer，生態兼容要重來；改模型結構，部署鏈路要適配；改注意力或推理機制，線上服務也要跟著調整。

但 TST 是把復雜度留在訓練階段，最終交付的仍然是一個普通 LLM。

這也解釋了為什么 TST 更適合被理解為一種“階段化訓練策略”，而不是 next-token prediction 的替代品。

更直白地說，TST 做的事情有點像讓模型在預訓練早期先“粗讀”：先學習局部語義、詞匯共現和粗粒度分布；等基礎表示建立起來之后，再回到逐 token 的標準自回歸訓練，把生成能力和 token 級精度補回來。

也就是，訓練時壓縮 token，推理時還是普通 LLM。

TST 的提速不是玄學。它的核心是一種資源取舍，用更粗的 token 表示，換更高的數據吞吐。

標準訓練中，模型每個位置處理一個 token，序列長度為 L，Transformer 就要處理 L 個表示。

因為模型是在更粗粒度的表示上計算，所以在相同FLOPs（浮點計算量），它可以處理s 倍的數據 token。

圖注：在 3B 模型實驗中，TST 在 equal-loss 設置下用更少訓練步數達到 baseline loss，說明其主要收益來自訓練早期更高的數據吞吐

傳統預訓練像逐字精讀；而 TST 的早期訓練則像是先快速掃一遍段落，抓住局部主題、詞匯共現和語義分布。等模型建立起基礎表示后，再切回逐字精讀。

這種“粗讀”并非沒有代價——它會丟失 bag 內的詞序信息，所以不能全程使用。但在模型剛接觸語言統計結構時，這種低分辨率輸入反而夠用且高效。

這與當前主流的效率路線截然不同：MoE是讓每個 token 少激活參數；稀疏注意力是讓每個 token 少看位置；MTP（Multi-Token Prediction，多 token 預測）是讓每個位置多預測幾個未來 token；而TST，是讓模型在訓練早期換一種 token 粒度學習。

它不是讓模型變小，也不是直接讓推理變快，而是讓預訓練早期的每一步都更“值錢”。

這對開發者至關重要。預訓練不是一錘子買賣，而是不斷試錯的過程。早期訓練越快進入有效區間，數據配方、超參設置這些實驗就能越早得到驗證。

說白了，TST 省下的不只是一次訓練的 GPU 小時，更是整個實驗周期的試錯成本。

3 最大收益來自百億參數模型

圖注：TST 在不同規模模型上的核心實驗結果

圖注：在 10B-A1B MoE 實驗中，TST 將 B200 GPU 訓練時間消耗降到 baseline 的四成左右，并取得更低 loss 和更好的 0-shot 指標

這已經足夠打動開發者。因為模型訓練里最貴的往往不是某一次成功訓練，而是成功之前的所有試錯。一次實驗少用一半以上 GPU 時間，意味著同樣預算下可以多跑幾組數據配方、多試幾組超參、多驗證幾個模型尺度。

圖注：不同 bag size 和訓練比例下，TST 在 loss 與下游評測上都呈現相對穩定收益

另外，TST 并非單一機制在起作用。

這也是為什么 TST 和 MTP 看起來有點像，但本質不完全一樣。

MTP 更像是在同一個位置額外預測多個未來 token；TST 則是把輸入和輸出都改成更粗粒度的局部窗口。一個是增加監督題目，一個是改變學習分辨率。

4 訓練降本開始轉向學習路徑優化

TST 最大的看頭，不是它設計了多復雜的新架構，而是它點醒了一件事：訓練降本，別總盯著模型結構開刀。

過去一提降本，大家本能就是加卡、改架構、卷并行、做蒸餾。這些都是系統級重體力活，家里沒有余糧的團隊根本接不住。但這次，TST 給了一個輕得多的切口：只調整預訓練早期的學習路徑。

這意味著什么？

同樣多的 GPU 預算能多試幾輪配方，1B 到 10B 級垂直模型的試錯成本能明顯下降。對那些只想訓個夠用行業模型的中小團隊來說，這比硬剛前沿最新模型務實得多。

當然，TST 也不是免費午餐。

它本質上是“拿數據吞吐換 GPU 時間”，如果你是算力受限的團隊，這招極香；但如果你連高質量數據都喂不飽，那 TST 不僅幫不上忙，甚至可能放大數據短板。

但這不影響它的方向價值。

TST 把一個被默認太久的問題重新拎了出來：模型學習語言的順序，本身也可能是一種效率杠桿。

當模型越來越貴，真正有價值的創新不只是把模型做大，而是讓模型更會學習。更準確地說，是讓每一步訓練都更值錢。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

中方代表香會講話當場向日方提出兩個問題

環球網資訊 2026-05-30 19:36:11
6019 跟貼 6019
房主將自家住宅變“網約房” 鄰居有權說“不”嗎？

北青網-北京青年報 2026-05-30 21:06:09
6213 跟貼 6213

能源危機：印度“不能承受之重”

上觀新聞 2026-05-31 19:14:08
403 跟貼 403

香會上中方全英文發問菲律賓菲防長語無倫次答非所問

環球網資訊 2026-05-31 17:22:34
118 跟貼 118
鮮奶雪糕包裝印“不加一滴水”配料表首位竟是水廠家：系舊包裝，已改名“一滴水”

上游新聞 2026-05-29 18:03:05
1852 跟貼 1852

人民直擊｜三問張家口風電項目1.9億“天價”補償后續

人民資訊 2026-05-31 09:15:09
1178 跟貼 1178

熱聞|阿森納夢碎十二碼！巴黎圣日耳曼蟬聯歐冠冠軍

齊魯壹點 2026-05-31 06:48:50
228 跟貼 228
紫牛頭條｜醫學生網購刀具拆快遞時被割傷手部神經，可能影響以后拿手術刀

揚子晚報 2026-05-31 17:54:25
388 跟貼 388

6.4萬的“特斯拉FSD”，你會買嗎？

中國新聞周刊 2026-05-30 22:05:16
281 跟貼 281
重慶一兇宅以39萬余元起價被法拍，拍賣公司：屋內曾發生非正常死亡事件

極目新聞 2026-05-31 12:12:29
78 跟貼 78
入戶調查明天開始，請積極配合！

證券時報 2026-05-31 18:59:06
0 跟貼 0
廣東一小學六一匯演童聲演唱被贊如天籟，全網走紅校方：沒特長生，沒有耳返、修音，全開麥演唱

紅星新聞 2026-05-31 16:46:40
0 跟貼 0
以軍：已奪取黎南部重要戰略地點

界面新聞 2026-05-31 14:11:04
1257 跟貼 1257
13個打工人，馬上成為億萬富豪？

中國新聞周刊 2026-05-31 15:54:00
0 跟貼 0
國家醫保局發布2026年國家醫保目錄調整工作方案

央視新聞客戶端 2026-05-31 09:28:55
987 跟貼 987
西北農林科技大學獲批成立新學院

西安發布 2026-05-31 17:00:10
18 跟貼 18
2000億龍頭遭高管集體減持，董事長套現4.2億元

大風新聞 2026-05-31 15:14:24
21 跟貼 21
漢坦病毒涉疫郵輪獲準恢復航行

央視新聞客戶端 2026-05-31 18:56:55
13 跟貼 13
夜空中最亮的星

國際在線 2026-05-29 08:57:49
1480 跟貼 1480
今天中午，武威路一小區發生火災

新浪財經 2026-05-31 21:40:22
0 跟貼 0
女子蹭卡進山姆待一天，有吃有喝空調還能吹到飽

映射生活的身影 2026-05-31 21:37:09
0 跟貼 0
河南滎陽賈峪鎮老邢村借文旅開發盜采礦石？大車穿梭村民苦不堪言

峰哥跑交通 2026-05-31 21:31:22
0 跟貼 0
新加坡防長寫打油詩總結"香會" 現場用中文朗讀

看看新聞Knews 2026-05-31 18:36:09
0 跟貼 0
尚帕涅：科內特的封蓋是比賽最關鍵一球沒見過他跑那么快

北青網-北京青年報 2026-05-31 19:26:35
0 跟貼 0
WSBK阿拉貢站正賽第二回合，張雪機車車手收獲第8名

澎湃新聞 2026-05-31 20:32:26
0 跟貼 0
國足上海集中當晚就開練，6月3日將兵發獅城

北青網-北京青年報 2026-05-31 21:18:06
0 跟貼 0
沒穿幾次，碎得慘不忍睹！上海女子反映買到adidas“陳年老鞋”，售出時已經“壓箱”4年多，客服稱“庫存信息屬店鋪隱私無法提供”

大風新聞 2026-05-31 21:31:07
0 跟貼 0

迷迭香的記憶a

迷迭香的記憶

615文章數 186關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

旅游

時尚

教育

軍事航空

手機 / 數碼

房產 / 家居

Nous新法TST：GPU耗時降61.3%，訓練提速2.5倍

戴爾諾基亞又回來了！AI重估老牌科技公司

保時捷一天兩次被釘子扎 路面現多個修車廣告報價上千

保時捷一天兩次被釘子扎 路面現多個修車廣告報價上千

阿森納用最悲壯的方式，成就了巴黎王朝

朱軍退休，正義雖遲但到，女方受懲

醫學首席轉崗搞科技，A股科技股遭遇巨震

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

16位歐美畫家筆下的兒童肖像

“六一”兒童節，一起漫步上博東館（文末探索宮活動互動有獎）

梓渝：慢下來，也很好

事關所有高考生！2026高考或將出現3個重大變化！家長考生了解

解放軍代表質問日防衛大臣:日本何時道歉

戴爾諾基亞又回來了！AI重估老牌科技公司

保時捷一天兩次被釘子扎路面現多個修車廣告報價上千

保時捷一天兩次被釘子扎路面現多個修車廣告報價上千

阿森納用最悲壯的方式，成就了巴黎王朝

朱軍退休，正義雖遲但到，女方受懲

醫學首席轉崗搞科技，A股科技股遭遇巨震

900V+3.2秒破百領克10+&領克10上市16.99萬元起

“六一”兒童節，一起漫步上博東館（文末探索宮活動互動有獎）

梓渝：慢下來，也很好

事關所有高考生！2026高考或將出現3個重大變化！家長考生了解