无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Nous新法TST:GPU耗時降61.3%,訓練提速2.5倍

0
分享至

模型能力還需往上走,但訓練成本卻不能再無止境堆砌了——這可能是當前 AI 行業最強烈的共識。

從開發者到模型公司,大家關心的焦點已經不只是“誰家的模型更強”,而是一個更務實的問題:“同樣多的 GPU、同樣的訓練時間,能不能跑出更多有效實驗,吃進更多有效數據,拿到更好的 loss 和下游指標?”

憑借 Hermes Agent (140K Star)火速出圈的Nous Research 團隊,剛剛提出了一種 Token 疊加訓練方法:Token Superposition Training (TST),有望把大模型的預訓練成本壓低一個量級。





換言之,TST 只用了約四成 GPU 時間,就跑出了更低的 loss 和更好的下游指標。相當于在相同最終損失下將預訓練時間壓縮到原來的 40%,提速約 2.5 倍。

如果說,超越龍蝦(OpenClaw)、登頂全球 OpenRouter 的 Hermes Agent,證明了 Nous Research 團隊既會訓模型,也能用 Agent 把能力調教到極致;那么最新提出的 TST,則是把視線從“模型怎么用”,進一步拉回了能力的源頭,直擊預訓練本身。

之所以將 Nous Research 與 DeepSeek 對標,不只是因為這支美國團隊同樣長期堅守開源陣營,更因二者的降本路線截然不同。

DS 代表的是系統級重構,無論是 MoE、MLA,還是稀疏化與并行優化,皆靠系統級工程壓榨算力。效率提升從來不是免費的,工程總要在別處為復雜度買單。

而 NR 則是重寫預訓練早期的學習路徑。它不碰架構,從模型學習 token 的方式本身下手,切口更輕巧,更容易落地。

1 TST:讓模型先“粗讀”,再“精讀”

要理解 TST,讓我們先回到預訓練最基礎的動作:next-token prediction(下一個詞元的預測)。

標準訓練里,模型看到前面的 token,預測下一個 token。這個機制很簡單,也很強。過去幾年,幾乎所有主流 LLM 都是在這個范式上堆出來的。

但 TST 提出了一個很樸素的問題:模型在預訓練一開始,真的有必要逐 token 精讀嗎?

NR 的答案是:不一定。他們把預訓練拆成兩個階段。



圖注:TST 與標準 next-token prediction、MTP、SuperBPE 的對比。TST 在訓練早期同時改變輸入粒度和輸出監督目標,但不改變最終模型架構

輸入側,模型會把這一組 token 的 embedding (“向量表示”)求平均,變成一個壓縮后的superposed token(“疊加詞元”)。輸出側,模型也不再預測下一個單獨 token,而是預測下一組 token 里會出現哪些 token。

第二階段叫recovery phase(“恢復階段”)。訓練跑到一定比例后,TST 被移除,模型重新回到標準 next-token prediction。也就是說,后半程還是按照普通 LLM 的方式訓練,把前期“粗粒度學習”得到的表示,拉回到可生成、可部署的自回歸模型形態。

這也是它和很多訓練提效方案不一樣的地方:TST 只改變訓練過程,不改變推理模型。

目前很多方法一旦觸及訓練端優化,就會牽動推理。比如換 tokenizer,生態兼容要重來;改模型結構,部署鏈路要適配;改注意力或推理機制,線上服務也要跟著調整。

但 TST 是把復雜度留在訓練階段,最終交付的仍然是一個普通 LLM。

這也解釋了為什么 TST 更適合被理解為一種“階段化訓練策略”,而不是 next-token prediction 的替代品。

更直白地說,TST 做的事情有點像讓模型在預訓練早期先“粗讀”:先學習局部語義、詞匯共現和粗粒度分布;等基礎表示建立起來之后,再回到逐 token 的標準自回歸訓練,把生成能力和 token 級精度補回來。

也就是,訓練時壓縮 token,推理時還是普通 LLM。

TST 的提速不是玄學。它的核心是一種資源取舍,用更粗的 token 表示,換更高的數據吞吐。

標準訓練中,模型每個位置處理一個 token,序列長度為 L,Transformer 就要處理 L 個表示。

因為模型是在更粗粒度的表示上計算,所以在相同FLOPs(浮點計算量),它可以處理s 倍的數據 token。



圖注:在 3B 模型實驗中,TST 在 equal-loss 設置下用更少訓練步數達到 baseline loss,說明其主要收益來自訓練早期更高的數據吞吐

傳統預訓練像逐字精讀;而 TST 的早期訓練則像是先快速掃一遍段落,抓住局部主題、詞匯共現和語義分布。等模型建立起基礎表示后,再切回逐字精讀。

這種“粗讀”并非沒有代價——它會丟失 bag 內的詞序信息,所以不能全程使用。但在模型剛接觸語言統計結構時,這種低分辨率輸入反而夠用且高效。

這與當前主流的效率路線截然不同:MoE是讓每個 token 少激活參數;稀疏注意力是讓每個 token 少看位置;MTP(Multi-Token Prediction,多 token 預測)是讓每個位置多預測幾個未來 token;而TST,是讓模型在訓練早期換一種 token 粒度學習。

它不是讓模型變小,也不是直接讓推理變快,而是讓預訓練早期的每一步都更“值錢”。

這對開發者至關重要。預訓練不是一錘子買賣,而是不斷試錯的過程。早期訓練越快進入有效區間,數據配方、超參設置這些實驗就能越早得到驗證。

說白了,TST 省下的不只是一次訓練的 GPU 小時,更是整個實驗周期的試錯成本。

3 最大收益來自百億參數模型



圖注:TST 在不同規模模型上的核心實驗結果



圖注:在 10B-A1B MoE 實驗中,TST 將 B200 GPU 訓練時間消耗降到 baseline 的四成左右,并取得更低 loss 和更好的 0-shot 指標

這已經足夠打動開發者。因為模型訓練里最貴的往往不是某一次成功訓練,而是成功之前的所有試錯。一次實驗少用一半以上 GPU 時間,意味著同樣預算下可以多跑幾組數據配方、多試幾組超參、多驗證幾個模型尺度。



圖注:不同 bag size 和訓練比例下,TST 在 loss 與下游評測上都呈現相對穩定收益

另外,TST 并非單一機制在起作用。



這也是為什么 TST 和 MTP 看起來有點像,但本質不完全一樣。

MTP 更像是在同一個位置額外預測多個未來 token;TST 則是把輸入和輸出都改成更粗粒度的局部窗口。一個是增加監督題目,一個是改變學習分辨率。

4 訓練降本開始轉向學習路徑優化

TST 最大的看頭,不是它設計了多復雜的新架構,而是它點醒了一件事:訓練降本,別總盯著模型結構開刀。

過去一提降本,大家本能就是加卡、改架構、卷并行、做蒸餾。這些都是系統級重體力活,家里沒有余糧的團隊根本接不住。但這次,TST 給了一個輕得多的切口:只調整預訓練早期的學習路徑。

這意味著什么?

同樣多的 GPU 預算能多試幾輪配方,1B 到 10B 級垂直模型的試錯成本能明顯下降。對那些只想訓個夠用行業模型的中小團隊來說,這比硬剛前沿最新模型務實得多。

當然,TST 也不是免費午餐。

它本質上是“拿數據吞吐換 GPU 時間”,如果你是算力受限的團隊,這招極香;但如果你連高質量數據都喂不飽,那 TST 不僅幫不上忙,甚至可能放大數據短板。

但這不影響它的方向價值。

TST 把一個被默認太久的問題重新拎了出來:模型學習語言的順序,本身也可能是一種效率杠桿。

當模型越來越貴,真正有價值的創新不只是把模型做大,而是讓模型更會學習。更準確地說,是讓每一步訓練都更值錢。

聲明:個人原創,僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
劉燁兒子正式出道!190cm顏值驚人,網友直呼:混血感,好重。

劉燁兒子正式出道!190cm顏值驚人,網友直呼:混血感,好重。

感覺會火
2026-05-31 12:08:07
陳青一周星座運勢幸運榜前四名(6.1-6.7)

陳青一周星座運勢幸運榜前四名(6.1-6.7)

別人都叫我阿螫
2026-05-31 20:42:06
DeepSeek推薦:人生回報率最高的66個微習慣

DeepSeek推薦:人生回報率最高的66個微習慣

洞見
2026-05-30 22:03:25
蘇芒起訴“第一女仆”鬧劇:給洋人當X還想騎國人頭上,惡心!

蘇芒起訴“第一女仆”鬧劇:給洋人當X還想騎國人頭上,惡心!

紅色少女主播
2026-05-30 21:42:55
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
文班談賽后激動落淚:我無法形容此刻的感受 它太強烈了

文班談賽后激動落淚:我無法形容此刻的感受 它太強烈了

北青網-北京青年報
2026-05-31 19:26:15
恩里克合同更新:巴黎主席在利物浦帥位空缺后發表聲明

恩里克合同更新:巴黎主席在利物浦帥位空缺后發表聲明

綠茵情報局
2026-05-31 18:19:08
大暴雨,6月3日新一輪強降雨來,6號臺風達巔峰,南海擾動增強?

大暴雨,6月3日新一輪強降雨來,6號臺風達巔峰,南海擾動增強?

環球科學貓
2026-05-31 11:02:04
菲防長語出驚人:不管美國總統是誰?中國都不太可能對菲律賓動武

菲防長語出驚人:不管美國總統是誰?中國都不太可能對菲律賓動武

夢在深巷aqa
2026-05-31 02:07:47
為何蒙古國不治沙?美國專家認為:植樹治沙弊大于利,是真是假?

為何蒙古國不治沙?美國專家認為:植樹治沙弊大于利,是真是假?

抽象派大師
2026-05-31 00:29:43
王菲驚喜現身謝霆鋒演唱會打扮隨性樸實 連串舉動顛覆一貫形象

王菲驚喜現身謝霆鋒演唱會打扮隨性樸實 連串舉動顛覆一貫形象

達達哥
2026-05-31 19:28:59
廣廈G3首節壓制上海!布朗14分,卡爾頓暴走,張鎮麟+2小外齊發揮

廣廈G3首節壓制上海!布朗14分,卡爾頓暴走,張鎮麟+2小外齊發揮

籃球資訊達人
2026-05-31 20:01:32
美僑民與臺商托舉鄭麗文:綠營派系搶著談統一,觀點比馬英九進步

美僑民與臺商托舉鄭麗文:綠營派系搶著談統一,觀點比馬英九進步

全球熱點幕后
2026-05-31 19:25:18
麻省理工出品,AI時代人人必修的最佳公開課!零基礎用AI創造幾乎所有的一切

麻省理工出品,AI時代人人必修的最佳公開課!零基礎用AI創造幾乎所有的一切

麻省理工AI公開課
2026-05-30 11:40:07
恩里克賽后:點球大戰我列了6名射手,他們自己決定誰來罰和順序

恩里克賽后:點球大戰我列了6名射手,他們自己決定誰來罰和順序

蘭亭墨未干
2026-05-31 11:30:06
年少有為!文班超越詹姆斯成為最年輕分區決賽得分王

年少有為!文班超越詹姆斯成為最年輕分區決賽得分王

北青網-北京青年報
2026-05-31 19:26:23
花了19萬接下一個菜鳥驛站,開了三個月,收入支出跟大家伙聊聊

花了19萬接下一個菜鳥驛站,開了三個月,收入支出跟大家伙聊聊

小談食刻美食
2026-05-29 07:32:51
張鎮麟13+4+2火力全開!弗格17+1+3王者歸來,上海隊領先廣廈10分

張鎮麟13+4+2火力全開!弗格17+1+3王者歸來,上海隊領先廣廈10分

君馬體育
2026-05-31 20:38:25
電子眼抓拍有規律!記住7點,2026開車全年不扣分不被罰真的不難

電子眼抓拍有規律!記住7點,2026開車全年不扣分不被罰真的不難

沙雕小琳琳
2026-05-31 14:51:29
洛夫頓傷情更新!踩場手能彎曲,能雙手運球,并進行簡單恢復訓練

洛夫頓傷情更新!踩場手能彎曲,能雙手運球,并進行簡單恢復訓練

籃球資訊達人
2026-05-31 14:17:27
2026-05-31 21:56:49
迷迭香的記憶a
迷迭香的記憶a
迷迭香的記憶
615文章數 186關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

保時捷一天兩次被釘子扎 路面現多個修車廣告報價上千

頭條要聞

保時捷一天兩次被釘子扎 路面現多個修車廣告報價上千

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

朱軍退休,正義雖遲但到,女方受懲

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

藝術
旅游
時尚
教育
軍事航空

藝術要聞

16位歐美畫家筆下的兒童肖像

旅游要聞

“六一”兒童節,一起漫步上博東館(文末探索宮活動互動有獎)

梓渝:慢下來,也很好

教育要聞

事關所有高考生!2026高考或將出現3個重大變化!家長考生了解

軍事要聞

解放軍代表質問日防衛大臣:日本何時道歉

無障礙瀏覽 進入關懷版