網易首頁 > 網易號 > 正文 申請入駐

當所有人都在說萬卡,真正的差距才剛剛出現

0
分享至

1、萬卡,并不是一個數字。 過去一年,國內算力行業頻繁出現一個詞:萬卡。它常常被寫進新聞標題,被放在發布會的第一頁,被當作某種階段性勝利的標志。但在行業內部,真正參與過大模型訓練的人都清楚:萬卡不是規模的炫耀,而是一道門檻。越過它,意味著一種能力;沒越過,它只是堆疊。

在多數場合,國內的“萬卡”更多服務于推理,或者是低并發、低耦合的計算任務。它們對系統的要求,更多在部署與成本,而不在持續協同。

真正的分水嶺在訓練。AI大模型的訓練要求長時間、高同步、強通信。模型不會等待某一張卡恢復狀態,參數也不會為網絡抖動停下來。一旦進入萬卡規模,問題不再是“單卡算力夠不夠”,而是系統是否還能像一臺機器那樣工作。這正是摩爾線程 S5000 萬卡集群被反復提及的原因。不是因為它“做到了萬卡”,而是因為它把萬卡真正用在了訓練上


2、訓練型萬卡,是一個系統工程

如果我們往回看大模型的發展路徑,很容易發現一個被忽略的事實:算力瓶頸從來不只存在于芯片上。在千卡以內,問題往往是單卡性能、顯存容量、算子效率。而一旦進入萬卡,決定效率的因素迅速轉移:

  • 芯片之間能否高速、穩定通信

  • 通信是否會侵占計算資源

  • 系統是否能在數周訓練周期中保持一致性

  • 出現“慢節點”“靜默錯誤”時,是否能被感知與隔離

這些問題,無法通過堆更多卡解決。

這也是為什么全球范圍內,真正能交付訓練型萬卡集群的企業屈指可數。英偉達是一個;云廠商依賴它的生態是另一個;而在國產體系內,能走到這一層的路徑并不多。


摩爾線程選擇了一條相對“重”的路線。如果只看參數,摩爾線程的S5000并不是一張“追逐峰值”的卡。它的意義,在于設計之初就假設自己要進入集群。這體現在三個層面:

第一,通信不再是附屬能力。在大規模訓練中,通信不是配角,而是節拍器。

S5000在架構層面引入了通信卸載機制,把All-Reduce等高頻通信任務從計算核心中分離出來,使計算與通信可以并行進行。這不是為了某一個benchmark,而是為了長期訓練過程中算力利用率的穩定性。

結果是,在Dense模型訓練中,萬卡規模下仍能維持較高的 MFU;在通信壓力更大的 MoE 模型中,也沒有出現系統性塌陷。

這類指標的價值,不在于“好看”,而在于“可持續”。

第二,Scale-up 與 Scale-out 同時成立許多集群在scale-out(跨節點)時依賴專有網絡,成本高、風險集中。

S5000 在保持高帶寬片間互聯的同時,選擇兼容標準以太網與 RoCE 協議,構建大規模無阻塞拓撲。這不是技術上的“退而求其次”,而是工程上的現實選擇。

當集群規模進入萬卡,供應鏈、部署周期、運維復雜度都會成為系統的一部分。可擴展性,本身就是算力的一部分。

第三,訓練結果而非單項性能

在一些聯合訓練驗證中,S5000 萬卡集群的 Loss 曲線與國際主流訓練集群高度重合,誤差控制在可接受范圍內。這一點往往被外界低估。實驗結果顯示,在全程訓練中,S5000集群與英偉達H100平臺的訓練曲線幾乎重合,最終訓練損失(loss)差異僅為0.62%。甚至在CrossPoint、Q-Spatial、VABench-V任務上,算法效果表現更優。


在行業內部,對一套訓練系統是否“站得住”,有一個比性能更苛刻的標準:結果是否一致。

2026年1月,北京智源研究院基于MTT S5000 千卡集群完成RoboBrain 2.5的完整端到端訓練與對齊驗證。公開數據顯示,在全程訓練中,S5000集群與H100集群的訓練曲線幾乎重合,最終損失差異控制在0.62%以內。


這意味著模型從預訓練到收斂的全過程沒有出現大規模偏移或異常震蕩。在大模型訓練中,這種一致性往往比峰值算力更難獲得。

如果說損失曲線是“是否能跑對”的答案,那么算力利用率則是“是否跑得有效”。

基于S5000 構建的萬卡集群,在Dense 模型訓練中模型算力利用率達到60%,在通信壓力更大的MoE模型中維持在40%左右;從64卡擴展至1024卡,系統仍保持90%以上的線性擴展效率。這組數據意味著,規模擴大時,并沒有因為通信或調度瓶頸而讓算力被大量浪費。

來自互聯網廠商場景的另一組反饋,則更接近真實業務。在端到端訓練與推理任務中,單卡1000 TFLOPS 的計算能力與1.6TB/s 的顯存帶寬為高密度算子提供了底層支撐。但更關鍵的差異,并不體現在某一次峰值測試上,而是在長時間高負載運行時——系統更少進入等待狀態,通信與計算可以并行推進。

它沒有試圖在某一個指標上“跑得最快”。而是在真實工作負載下,讓更多算力被真正用上。

因為對訓練而言,“能跑”和“跑對”之間,隔著系統穩定性、精度一致性與調度能力的鴻溝。萬卡訓練不是展示性能的舞臺,而是驗證工程能力的壓力測試。

如果說 RoboBrain 2.5的0.62% 訓練差異證明了“能跑對”,那么最近的一次適配節奏,則體現了“能跟上”。

2月12日,智譜發布GLM-5。當天,基于SGLang推理框架,MTT S5000完成了對 GLM-5 的全流程適配與驗證。業內通常把這種同步響應稱為 Day-0適配——模型發布當天即可完成運行與驗證。


在大模型快速迭代的當下,訓練能力只是第一道門檻。真正的挑戰在于,架構是否足夠通用,軟件棧是否足夠成熟,使得新模型的計算圖、算子組合與精度策略可以被快速吸收,而無需大規模重構。

S5000之所以能夠在GLM-5發布當天完成適配,一方面得益于其原生FP8 精度與全功能GPU架構;另一方面,則來自MUSA 軟件棧與主流框架的兼容能力。此前在RoboBrain 2.5千卡訓練中,其Loss曲線與H100集群高度重合,最終差異控制在0.62%以內,這種工程穩定性,為后續模型遷移提供了基礎。

換句話說,萬卡訓練解決的是“是否具備底層能力”,Day-0 適配解決的是“是否進入主流節奏”。這兩者疊加,才構成真正的產業能力。

3、為什么是“全功能 GPU”路線

摩爾線程堅持全功能GPU,而非專用訓練ASIC,這一選擇在早期并不討巧。

專用芯片更容易在單一指標上做得極致,也更容易在短期內交付。但訓練范式并不穩定,從 CNN 到Transformer,從Dense到MoE,再到多模態與世界模型,算子形態持續變化。

在這種背景下,通用性是一種風險對沖。全功能GPU并不保證在每一次迭代中都領先,但它保證了系統可以被持續改造。

MUSA架構的統一性,使得軟件棧、通信機制、調度系統可以圍繞同一底座演進,而不是在不同產品線上反復重建。

這是一種偏長期主義的選擇。

4、萬卡之后,問題并未結束

萬卡不是終點。當訓練規模繼續擴大,功耗、能效、低精度計算、系統級可靠性都會成為新的瓶頸。摩爾線程已經公開討論下一代架構對十萬卡級別的支持,但這條路仍然充滿不確定性。

更重要的是,算力的競爭最終不在發布會上完成。它發生在開發者是否愿意遷移,模型是否愿意適配,系統是否在真實訓練任務中被反復使用。

萬卡集群的意義,不在于“證明可以”,而在于“是否有人愿意長期依賴”。這一點,對所有國產GPU廠商都是未完成的問題。

至少摩爾線程已經跨出了第一步。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
同樣翻車,陳德容被罵退網李小冉被夸上天:態度,才是最后的底線

同樣翻車,陳德容被罵退網李小冉被夸上天:態度,才是最后的底線

天秤推好劇
2026-04-27 15:30:17
告別北京老校區!4所211集體遷入雄安,2027年直接迎新生

告別北京老校區!4所211集體遷入雄安,2027年直接迎新生

Delete丨CC
2026-04-27 13:27:06
這跟不穿有啥區別?內褲外露、開叉開到腰,有錢人的時尚真看不懂

這跟不穿有啥區別?內褲外露、開叉開到腰,有錢人的時尚真看不懂

潮鹿逐夢
2026-03-02 17:19:02
尷尬!一主管在工作群發離職感言,被下屬怒懟,網友:就悄悄走吧

尷尬!一主管在工作群發離職感言,被下屬怒懟,網友:就悄悄走吧

火山詩話
2026-04-26 14:15:15
TVB老戲骨忍無可忍含淚揭家丑,每月接濟兒子五萬,走了向太老路

TVB老戲骨忍無可忍含淚揭家丑,每月接濟兒子五萬,走了向太老路

翰飛觀事
2026-04-22 19:35:28
李修賢談萬梓良現狀:酒吧駐場不丟人,為人仗義,事業婚姻都不順

李修賢談萬梓良現狀:酒吧駐場不丟人,為人仗義,事業婚姻都不順

以茶帶書
2026-04-14 16:39:49
中國觀眾不買賬電影海外爆紅,3天15億票房奪冠

中國觀眾不買賬電影海外爆紅,3天15億票房奪冠

看盡落塵花q
2026-04-27 14:45:40
阿隆索34場輸6場下課,阿韋洛亞23場已經輸了7場……

阿隆索34場輸6場下課,阿韋洛亞23場已經輸了7場……

懂個球
2026-04-26 21:04:42
“央視一哥”康輝:丁克一輩子,卻在四十六歲的一通電話讓他后悔

“央視一哥”康輝:丁克一輩子,卻在四十六歲的一通電話讓他后悔

悅君兮君不知
2026-04-27 10:17:38
2026款林肯冒險家上市 售價23.78-29.88萬

2026款林肯冒險家上市 售價23.78-29.88萬

車質網
2026-04-27 15:23:45
聯合國變天?秘書長候選人出現,巴西力挺,中方:不準有官僚主義

聯合國變天?秘書長候選人出現,巴西力挺,中方:不準有官僚主義

手里有讀
2026-04-27 09:22:02
中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

福建睿平
2026-04-26 10:53:36
彭老總去北戴河看望正在休養的羅帥,羅帥當面怒斥:你糊涂啊!

彭老總去北戴河看望正在休養的羅帥,羅帥當面怒斥:你糊涂。

興趣知識
2026-04-19 20:12:58
別再惡意抹黑!余承東曬問界車有多結實:5輛車才算把M6撞翻

別再惡意抹黑!余承東曬問界車有多結實:5輛車才算把M6撞翻

快科技
2026-04-27 12:47:35
荒唐的斯威士蘭:集中10萬少女貢獻國王選妃,國民平均壽命35歲

荒唐的斯威士蘭:集中10萬少女貢獻國王選妃,國民平均壽命35歲

春秋硯
2026-04-25 17:15:06
公務員“平替”崗位,擠滿了沒上岸的年輕人!

公務員“平替”崗位,擠滿了沒上岸的年輕人!

燈錦年
2026-04-25 12:04:55
體壇丑聞!嗜賭只是冰山一角,婚內出軌睡有婦之夫,太毀三觀

體壇丑聞!嗜賭只是冰山一角,婚內出軌睡有婦之夫,太毀三觀

橙星文娛
2026-04-25 11:14:17
滬深兩市成交額超2萬億元,較上日此時縮量370億元

滬深兩市成交額超2萬億元,較上日此時縮量370億元

每日經濟新聞
2026-04-27 13:49:16
原來她就是莫言女兒,清華才女還是知名編劇,丈夫在北師大任職

原來她就是莫言女兒,清華才女還是知名編劇,丈夫在北師大任職

洲洲影視娛評
2026-04-25 14:25:11
意外!鄭州40歲女子患肝癌,臨終前懇求前夫接走女兒,前夫回復!

意外!鄭州40歲女子患肝癌,臨終前懇求前夫接走女兒,前夫回復!

青梅侃史啊
2026-04-17 19:48:25
2026-04-27 16:11:00
老虎說芯 incentive-icons
老虎說芯
資深半導體工程師的經驗分享
782文章數 27關注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

美國白宮記協晚宴突發槍擊事件 外交部回應

頭條要聞

美國白宮記協晚宴突發槍擊事件 外交部回應

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

財經要聞

DeepSeek融資、字節加碼 AI開始真燒錢了

汽車要聞

在不確定中尋找確定性:大眾汽車的中國解法

態度原創

教育
游戲
旅游
本地
公開課

教育要聞

連爆猛料!這所區域領軍校,新增兩個“唯一”!

GTA6引巨大爭議!玩家直言30FPS根本玩不下去

旅游要聞

“寶藏”小城,何以寧國?

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版