網易首頁 > 網易號 > 正文申請入駐

獨家內幕：美團如何用5萬張國產卡訓出“龍貓”萬億級模型？

2026-07-02 18:54:20　來源: 智東西

北京舉報

分享至

智東西
作者李水青
編輯漠影

智東西7月2日報道，最近幾個月，一個名為“Owl Alpha”的神秘模型持續霸榜OpenRouter。它調用量長期位居全球前三，在Hermes、Claude Code和OpenClaw幾大Agent模型中分別位列第一、第二和第三，不少開發者將其稱為今年最令人意外的一匹“黑馬”。

▲Owl Alpha位列OpenRouter中Hermes調用模型第一

直到6月30日，這個神秘模型才揭開面紗：它是美團最新發布的LongCat-2.0（龍貓2.0），一個總參數量1.6萬億、每token激活約480億參數的MoE大語言模型。

從官方基準測試和智東西實測反饋來看，LongCat-2.0在原生Agent能力、編程以及適配主流編程工具方面，已經能夠接近全球第一梯隊水平。并且受益于Cache（緩存）命中免費的策略，Token plan包的Tokens消耗速度遠低于同尺寸模型。

相比榜單成績，更值得關注的是，LongCat-2.0是國內首個完全依靠國產算力完成訓練與推理全流程的萬億參數模型，峰值訓練規模超過5萬張國產算力卡，是迄今為止國產算力平臺上規模最大的訓練任務。

過去幾年，行業一直在追問：國產算力究竟能不能支撐世界級大模型訓練？LongCat團隊給出的答案是肯定的。

近日，智東西結合多位接近項目人士、產業信源以及相關技術資料，試圖還原這場持續三年的國產算力實驗。

一、三年前，一群人做了一個“頭鐵”的決定

把時間撥回2023年初，ChatGPT發布后國內AI團隊瘋狂搶購算力，A100一卡難求，GPU供給進入極度緊缺狀態。

侯龍（化名）在美團龍貓團隊長期負責訓練相關工作，從0到1參與了LongCat-2.0的誕生。

據他透露，2023年上半年，團隊內部開始認真討論一個方向：能不能用國產算力做大模型訓練？這個想法最初只是“隨口一提”，但后來越想越覺得并非不可能。

彼時，國產算力生態尚不成熟，工具鏈薄弱，成功案例稀缺。行業的普遍共識是“國產卡只能做推理”。但LongCat團隊不這么看。

“大模型訓練不是玄學，也不是黑盒，它只是一個復雜度極高的科學系統工程。”一位知情人士也向智東西表示。龍貓內部分析是：大模型算子個數相對有限，適配工作量比想象中更聚焦。CUDA生態的壁壘建立在通用性和豐富性上，但如果目標收斂到大模型訓練，這個壁壘并沒有看上去那么不可逾越。只要硬件精度沒有問題，就不存在原理上講不通的障礙。

當時，這個團隊的成員主要是做過一些搜廣推、CV、語音類小模型的訓練，并沒有訓練大模型的經驗，但在機器學習Infra領域已有長足的積累。”上述人士稱。

團隊將判斷向上溝通后，快速得到了公司明確支持。最終決定：從基座模型建設伊始就同步布局國產算力。用侯龍的話說，“團隊從上到下沒有一個人說‘行不通、我不用’，大家都是建設性地想辦法，看怎么能把這個事做成。”

“我們還是挺頭鐵的。”在侯龍看來，“行業認為不可能的事，反而是一次證明自己的機會。”

二、2560卡到5萬卡，一場不斷踩坑的工程長征

LongCat并不是一開始就站在5萬卡的規模上。

據侯龍介紹，團隊的國產算力訓練經歷了清晰的漸進擴容路徑：2023年7月，其正式啟動國產算力適配，與算力廠商建立周會機制和高頻技術交流；9月，團隊成建制投入驗證適配工作，從單算子驗證到端到端打通，一步一步推進。

第一個關鍵里程碑出現在2024年春節前后。團隊將端到端訓練跑通，第一個Loss數值出來，和主流芯片結果非常接近。那一刻，工程上基本確認這條路走得通。用侯龍的原話：“那個時候，包括工程、算法在內的所有人，對國產算力能不能做訓練已經沒有懷疑了，剩下的無非是性能和性價比的問題。”

第二個里程碑是2024年7月。一個超過16000卡的國產算力集群交付給團隊。拿到集群那天，大家本來說搞到12點就回家，但總覺得還能再往前走一步，“一不小心就到了早上四五點鐘，夏天天亮得早，我還拍了一張日出的照片。”另一位親歷者回憶道。不過那天晚上并沒有真正跑通，真正的端到端跑起來是在一周之后。作業正常跑起來的那一刻，幾個同學還興奮地合影留念。

從千卡到萬卡再到5萬卡，每跨越一個數量級，都會遭遇完全意想不到的問題。

“萬卡集群第一次啟動時，調度系統根本起不來。”上述親歷者透露，“整個作業的內存總和超過了整數的上限，系統直接顯示不出來。”這是基礎設施層面從未遇到過的場景，整個系統最初的設計壓根不是為了這個量級的作業準備的。

還有一類更隱秘的問題。到了幾萬卡的規模，團隊發現了“比特翻轉”，硬件在計算過程中，電路可能隨機出現比特翻轉，導致數值計算錯誤。它不是穩定必現的，也很難歸因為硬件制造缺陷，本質上是一個物理規律：當規模足夠大，再低的概率都會暴露出來。小規模訓練時根本不知道有這個東西存在，直到某個萬卡級別訓練過程中，出現了數值對不齊的問題，深入追查后才意識到是比特翻轉導致的。團隊后來去翻行業里的技術報告，發現只有Google的論文里提過一小段，其他廠商幾乎沒有公開討論過這個問題。

穩定性是首要面對的硬骨頭。大模型訓練是同步訓練，這意味著所有卡必須同時正常工作、步調一致。一張卡出問題，整個作業就會掛掉。幾萬張卡同時不出問題的概率，會隨規模增加呈指數級下降。

團隊的做法是兩條腿走路：一是每次故障都堅持找到根本原因，硬件故障也好、軟件bug也好、參數配置問題也好，逐一歸因并做針對性修復；二是不指望不出問題，而是追求出了問題之后能快速發現、快速恢復。最終，團隊建立了一整套自動感知和恢復機制，整個容錯過程不需要人工介入。

圍繞穩定性、正確性和效率三條主線，團隊重新構建了一套超大規模訓練體系。據技術資料顯示，通過自動重調度和容錯恢復，訓練穩定性超過92%，月均日故障率相比最初降低了70%；通過確定性算子實現Bitwise一致性訓練；通過ScMoE架構和Zero Bubble Pipeline等優化，將硬件浮點計算利用率提升了超5成。

5萬卡級別的訓練，真正的挑戰從來不是算力堆砌，而是系統工程。

三、國產算力沒有成熟生態，就自己重寫一套基礎設施

在國產算力平臺上做5萬卡規模的訓練，意味著幾乎無法依賴現成的軟件生態。

據一位曾參與國產算力訓練萬億規模模型工作的業內人士介紹，隨著訓練規模持續擴大，需要重寫的其實遠不止幾個算子，而是整套基礎設施。“可以說，從核心算子、通信框架到調度系統、訓練工具鏈，LongCat團隊應該是在國產硬件之上重新搭建了一遍大模型軟件棧。”

對此，侯龍也給予了正面回應，一個典型的例子是算子開發。在成熟生態上，一個算子可能一到兩周就能完成；但在國產算力平臺上，最初需要一個月以上。“同樣的算子，開發周期差了好幾倍，非常痛苦。”侯龍回憶。包括編程模型、調試工具在內的整個開發體驗，早期都不太好用。

但團隊沒有等，而是在關鍵算子上選擇自研。比如FlashAttention反向梯度算子，當時國產平臺上有一個“確定性”實現，但為了做到計算順序固定，退化成單核順序執行，耗時比非確定性版本慢了20到70倍，在生產環境中幾乎不可用。LongCat團隊在國產芯片上自研了高性能的確定性算子，最終將性能損失控制在5%左右，既保住了確定性，又沒犧牲效率。同樣的自研還發生在Scatter類算子上，原有實現效率極低，團隊重新設計了確定性并行算法，將性能提升了數十倍。

這些底層算子的自研，最終使“整網確定性訓練”成為可能，每一步的計算結果都能精確復現，任何一次異常都能被快速定位。在國產芯片工具鏈尚不完善的階段，這是排障的剛需。

不過，國產算力的軟件生態演進速度很快。據另一位知情人士透露，到了現在，雖然硬件架構不同導致編程范式有差異，但開發效率和調試體驗已經沒有特別顯著的區別。“尤其是Agent Coding出現后，一些相對簡單的算子可以用AI輔助生成，生態壁壘確實比之前低了很多。”

更令人意外的是精度層面的發現。該人士透露，團隊以CPU的FP64精度為基準標桿，對同一計算邏輯在不同芯片上做了對比實測，發現國產算力在部分核心算子上的計算誤差甚至低于主流芯片。“大家天然認為國產算力誤差更大，但實測結果恰恰相反。”該人士表示。

從硬件架構上也能找到解釋：國產芯片在累加位寬上做得更寬，能保證更高的累加精度。但更值得注意的是一種行業心態，長期以來，行業默認把主流芯片的計算結果作為標準答案，但這并不意味著它就是精度最高的，只是大家習慣了拿它來做參照。LongCat團隊的實測表明，只要計算正確性得到保證，國產芯片并不存在不可跨越的技術鴻溝。

四、模型能力實測，LongCat-2.0驗證了什么？

LongCat-2.0的意義，并不局限于完成了一次國產算力訓練。國產算力訓出來的模型，在真實能力上同樣經得起檢驗。

正如前文提到，在匿名上線OpenRouter期間，LongCat-2.0獲得了全球開發者社區的廣泛驗證。同時，其在6月30日公布的綜合評測顯示，LongCat-2.0在編程和通用Agent兩大場景中均表現優異。

編程方面，LongCat-2.0在SWE-bench Pro得分59.5，雖然還不及SOTA模型Claude 4.8和4.7，但已超過Gemini 3.1 Pro（54.2）；在SWE-bench Multilingual取得77.3，與Claude Opus 4.6（77.8）接近持平；在Terminal-Bench 2.1真實終端指令交互評測中取得70.8，展現出穩定的執行與糾錯能力。

辦公場景方面，LongCat-2.0在搜索智能體評測集RWSearch得分78.8，生產力場景FORTE得分73.2，BrowseComp得分79.9，三項均達到或接近前沿閉源模型水平，驗證了多步驟任務規劃、復雜工具調用及長程檢索執行上的可靠性。

▲LongCat-2.0的測評成績

根據美團官方案例，LongCat-2.0在AI SQL Agent搭建、代碼庫遷移、兒童AI游戲訓練場應用開發、3D交互演示、AI小說工廠等真實工作場景任務中都能較好完成任務。

▲基于LongCat-2.0的數據分析智能體（源自：美團）

而智東西在Hermes中實測LongCat-2.0后發現，該模型在邏輯推理上表現較好，同時在編程任務上能夠有較高完成度，且與Agent協同下能實現相對復雜的編程任務。最關鍵的是，受Cache（緩存）命中免費的策略影響，其Tokens消耗速度遠低于同尺寸模型。

具體來看，當我要求LongCat-2.0生成一個可交互的macOS桌面頁面，它不僅能夠生成一個十分相似的頁面視圖，還能生成可以點擊的真實可用圖標，比如點擊文件、計算器、便箋等都能夠進入對應的頁面。其生成的計算器可以準確地算數，不過文檔應用缺少保存選項。

▲LongCat-2.0生成的可交互macOS

當我要求LongCat-2.0在Hermes上實現一個類似 Google Docs 的協同編輯系統，LongCat-2.0能夠比較順暢的完成，展現出可靠的編程及Agent能力。關鍵Token消耗速度只是其他競品模型的五成，收費默認打“五折”就很好評。

▲LongCat-2.0生成的類Google Docs協同編輯系統

綜合來看，LongCat-2.0已經接近全球第一梯隊Agent模型能力。而更重要的是，這些能力是百分之百在國產算力上訓練出來的，從而讓這場持續三年的國產算力實驗，擁有了更強的說服力。

五、萬億參數模型背后：國產算力正在跨過一道門檻

LongCat-2.0的發布，真正驗證了什么？

“我們2024年就驗證了國產算力用于前沿訓練完全可行，只是到今天才把結論明確講出來。”一位參與項目的前龍貓成員向智東西稱。

在他看來，LongCat驗證的不只是一個模型，而是一整套國產大模型工程體系。從千卡到5萬卡的漸進擴容路徑、從算子重寫到確定性計算的軟件棧建設、從超節點性能一致性到比特翻轉的故障應對，這些經驗積累下來，已經形成了一套可復用的方法論。

在國產算力時代，模型架構需要重新思考。“模型架構不是算法說了算，也不是工程說了算，是算法和工程Co-Design（聯合設計）的結果。”該成員強調，模型需要針對國產硬件的顯存大小、通信性能等特點做針對性設計。

比如，LongCat-2.0提出了ScMoE、零計算專家等原創設計，這些創新不僅為了追求模型能力，還是在“適配國產硬件”。

ScMoE通過Shortcut連接讓Dense FFN路徑與MoE通信并行，理論推理延遲可降低約50%。零計算專家機制每層配置128個零專家與768個FFN專家共同路由——零專家不計算，直接返回輸入，使激活參數量在330億到560億間動態變化，LongCat-2.0是業界首個實現此機制的大規模MoE模型。N-gram Embedding將embedding空間擴展約100倍，在代碼生成、指令理解等任務上表現更穩定。

推理層面，龍貓團隊針對國產算力顯存與帶寬受限的特點，采用大Expert Parallelism聚合訪存帶寬，通過上下文并行容納百萬級長上下文。算子層面實現精細控核、SuperKernel內聯優化，將相鄰算子的啟動開銷與計算重疊，端到端帶來約8%的TPOT提升，極限TPOT（推理延遲）已接近行業主流水平。

把時間拉長到未來三到五年，國產AI基礎設施最需要補齊的短板是什么？侯龍認為，工藝制程仍然是硬約束。單顆芯片的參數與國際頂尖水平仍有差距，這是客觀現實。但通過系統集成可以彌補單芯片的不足，硬件廠商已經在做大量工作。

“這不是一個不可跨越的障礙。”侯龍表示。國產算力要真正坐穩全球第一梯隊，關鍵在于算法、基礎設施、芯片三者的協同設計。以LongCat-2.0的經驗來看，這條路已經被證明走得通。

結語：未來AI競爭，將是一場系統級全棧競爭

LongCat-2.0的出現，標志著國產算力在大模型訓練領域邁過了一道關鍵門檻，從“能不能”進入“好不好”的階段。

從2023年7月啟動國產算力適配，到2024年春節端到端跑通，到2025年年中Flash版本發布時在技術報告里用“accelerator”而非“GPU”的隱晦表達，再到本周明確宣布“百分之百國產算力訓練”，這背后是一條持續三年的技術演進路徑。

當國產算力開始承載萬億參數級MoE模型的全流程訓練和推理，這件事的意義已經超出了單一公司或單一模型，而是有望沉淀成整個國產AI基礎設施的公共能力。未來AI競爭的重心，正在從單點突破走向系統級全棧能力的比拼。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.