聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
國產算力能不能撐起萬億參數大模型?
終于有人交卷了!美團LongCat-2.0登場。
模型采用自研MoE混合專家架構,總參數達1.6萬億,每token激活約48B參數,原生支持1M超長上下文。
從訓練到推理,英偉達含量為0——
成為首個在國產算力上實現全鏈路訓推閉環的萬億參數模型
從多項專業評測數據來看,LongCat-2.0在代碼、工具調用和多步邏輯推理等任務上具備較強綜合性能。
![]()
不過,這位倒也不算開發者的“新朋友”,因為人家早就披著馬甲“不小心”成為了全球Agent開發者的最愛~
沒錯,最近在OpenRouter上挺火熱的Owl Alpha,正是LongCat-2.0(面具版)。
月調用量在Hermes、Claude Code和OpenClaw分列全球第一、第二和第三位,成為開發者首選的開源模型。
![]()
所以說,這位不僅第一個在國產卡上跑通了萬億級訓推,還提前通過了市場的真實流量驗證??
有意思有意思,等不及了,咱也來上手測一波!
體驗方式: https://longcat.chat/platform/product
新用戶認證送1000萬token
技術報告: https://longcat.ai/blog/longcat-2.0/
把LongCat-2.0扔進三個坑里
既然Hermes榜單它穩坐第一,那咱也就接入Hermes看看實力~
先拿長上下文開刀。
為了驗證它是不是真的把信息讀進去了,我特意沒用公開的論文或者技術白皮書。
自己手動拼了一份語料,把幾份不同行業的研報、不同領域的幾篇論文拼到一起,中英混雜湊了好幾萬字,be like:
![]()
我先問了一個藏在文檔中前段的信息,是一份跨境電商進出口報告。
![]()
對比一下回答,信息完全正確!
![]()
還有被我特意拆分的完整統計報告,LongCat-2.0也能準確找到,而且感覺速度挺快,就1秒……
![]()
它做分析推理也挺清晰,扛住了幾萬字攻擊!
![]()
好,膽子大一點,讓它干一件程序員最煩的事情:接盤。
我找了一個開源代碼倉庫,GitHub上13k star的原版2048,純HTML+CSS+JavaScript架構的項目。
![]()
把它丟給LongCat-2.0,然后提了兩個具體需求:
視覺類修改:把整個游戲的配色方案改成賽博朋克風格,要深色背景、霓虹色的方塊、發光效果的數字。
功能類修改:把4x4的棋盤改成5x5,同時增加一個計步器顯示在棋盤下方,記錄玩家一共滑了多少步。
拿到任務后它先把關鍵文件挨個過了一遍,自己拆出了一個7步的修改計劃。
![]()
剩下的完全不用我管,LongCat-2.0自己跑了12分鐘,交付了一個完整的結果。
![]()
那咱就來試玩一把!
從效果上看,我要的計步器和5x5方格都有,而且改完配色ok。
![]()
視頻地址:https://mp.weixin.qq.com/s/OWCyjK_CVOJn8ITX_1Da4Q
改個顏色加個計步器當然不算難活兒,我又加了一道題。
讓它把整個項目從原生JavaScript遷移到React。
跑出來的游戲看著一樣,功能全部保留,但底層代碼已經完全重寫了。
![]()
LongCat-2.0官宣后的這兩天,看到不少朋友說它和Claude Code搭配也很香。
好好好,那咱接入Claude Code再試一局。
這次我給了一個研究主題讓它幫忙調研。雖然Claude Code自帶deep-research,但咱先不用,看看LongCat-2.0的實力如何。
![]()
視頻地址:https://mp.weixin.qq.com/s/OWCyjK_CVOJn8ITX_1Da4Q
通過Agent原生能力自主連網搜索,LongCat-2.0獨立完成了整篇結構化報告。
![]()
當然了,代碼能力也不能落下,那就來個「只有一道門」魔性小游戲吧。
拿到任務后,LongCat-2.0開啟了統籌能力,先把項目架構一列,然后就開始哐哐寫代碼。
中間的架構設計、模塊拆分、技術選型,全是它自己定的。關卡邏輯、交互細節、通關動畫一個沒落,并主動加了個Web Audio音效。
![]()
視頻地址:https://mp.weixin.qq.com/s/OWCyjK_CVOJn8ITX_1Da4Q
然后我還順手接入LongCat-2.0的API做了個代碼分析師,輸入任意GitHub倉庫,就能定制一份專屬分析報告。
什么項目結構、核心模塊、接管的潛在問題、優化建議,全被它給讀懂了。
![]()
視頻地址:https://mp.weixin.qq.com/s/OWCyjK_CVOJn8ITX_1Da4Q
在測試的過程中,咱還發現了一個“彩蛋”:給LongCat-2.0、GPT5.5、Opus 4.6、Opus 4.8同一段提示詞讓四個模型生成一套物理仿真代碼。
肉眼看上去,各選手呈現效果接近。
但token用量LongCat明顯是最少的,9004tokens,按美團的計費算下來都不到1毛錢。
這或許就是官方所說Cache命中不計費,Token Plan不算消耗的結果。
要說“省錢”,美團確實是一把好手。
![]()
反正這么體驗一圈下來,我感覺這LongCat-2.0和主流編程工具的適配度確實挺高
當然了,支撐這些能力的背后,是LongCat-2.0在架構層面的一系列原創設計。
并且這些設計誕生在一個特殊的背景下:
LongCat-2.0從訓練到推理,全程基于國產芯片完成
那么問題來了:國產卡集群是怎么hold住萬億參數模型的?
5萬張國產卡撐起一個萬億模型
說到國產芯片跑AI,其實推理這一步行業里已經有所驗證。
過去幾年,確實有大模型和線上服務能跑在國產算力平臺上運行。
訓練方面,行業也陸續有模型完成了百億、甚至千億級的訓練探索。
但仔細看這些成果,本質上都還是某個環節的單點能力驗證
萬億參數級別,從預訓練的第一天就跑在國產卡上的訓推全鏈路閉環,在LongCat-2.0之前還沒有出現過。
并且這么大規模跑完全流程,考驗的是整個系統工程能力,國產芯片的硬件條件又讓這件事難上加難。
單卡顯存更小,1.6萬億參數只能拆到成千上萬張卡上一起跑;
可通信帶寬又不像NVLink那么充裕,跨節點通信延遲更高,大規模并行訓練中計算與通信容易出現不對齊,拖慢整體吞吐。
![]()
△圖片AI生成
硬件差距之外,軟件生態也是個坎兒。
在英偉達平臺上,很多算子、調試工具、確定性計算能力都已經非常成熟,換到國產芯片之后,很多東西都得自己重寫、自己優化。
比如FlashAttention的反向梯度算子,國產原有確定性實現只能單核串行,速度慢20-70倍,無法落地生產。
所以,LongCat-2.0的意義并不只是又多了一個1.6萬億參數模型。
對于國產AI生態來說,它首次證明了國產算力已經具備了支撐先進大模型持續訓練、持續部署和持續迭代的能力
另外一個值得關注的點,就是針對Agent時代重新設計的LongCat Sparse Attention(LSA)。
Agent意味著模型一次要處理大量上下文,1M上下文帶來的最大壓力就在注意力計算。
DeepSeek之前提出過一套稀疏注意力方案DSA,核心思路是讓模型只關注關鍵token來降低計算量。
但這個方案實際跑起來有個問題是,篩選關鍵token的索引器本身成了性能瓶頸,索引計算越來越慢,顯存訪問越來越碎,序列越長,效率掉得越明顯。
LongCat-2.0就是從這里接手,提出了LongCat稀疏注意力(LSA),對索引器做了三項針對性優化:
把零散訪問整理成連續讀取、讓相鄰層共享索引結果、再通過兩階段篩選減少計算量。
這三項優化相互獨立,可以按需組合,疊在一起的效果是讓1M上下文的處理速度顯著提升,同時模型質量基本無損。
![]()
△LongCat稀疏注意力設計總覽
另一個很有意思的設計是N-gram Embedding,繼承自LongCat-Flash-Lite,并做了進一步增強。
很多MoE模型提升能力的方法都是繼續堆專家,但LongCat團隊反而把一部分參數“前移”到了Embedding層,讓模型一開始就能識別更多高頻詞組和語言模式。
簡單理解就是,以前很多事情要模型思考幾十層才能反應過來,現在一開場就能認出來。
這樣既提高了代碼、指令理解等任務的準確率,也減少了專家之間頻繁通信帶來的額外開銷。
![]()
△N-gram Embedding總覽
除此之外,像ScMoE快捷連接零計算專家等設計,也都圍繞著同一個目標,就是讓模型把算力花在真正值得算的地方
這套架構創新讓模型實現更快、更省、效果更強,但5萬張國產卡大規模集群落地,還需攻克諸多工程難題。
其中最現實的問題就是,卡會壞。
在這樣的規模下,幾乎每天都會出現硬件故障,所以LongCat團隊專門搭了一套自動化故障處理體系。
從異常檢測、鏈路切換到自動恢復幾乎全部自動完成,把日均故障率從萬分之15.7降到了萬分之4.4,還支持訓練任務從2560張卡一路擴到5萬多張卡,不用推倒重來。
另一邊,他們又重寫了一整套適配國產芯片的算子和并行方案,把硬件利用率(MFU)從17.8%提升到27.68%,單日Token處理能力從7170億提升到了1.12萬億。
靠著一系列架構和工程優化,美團把國產芯片的潛力一點點釋放出來。
而且這些優化疊在一起,還有一個特別現實的好處——
省錢
零計算專家減少無效計算,ScMoE減少等待時間,N-gram Embedding降低通信壓力,再疊加國產芯片本身的成本優勢,LongCat-2.0的訓推成本比同等規模的英偉達路線低了不少。
3年等待的“國芯+國模”終上臺前
從公開信息來看,美團布局國產算力已有三年。
2023年初美團成立了LongCat基座團隊,起步的第一件事就是搭建國產算力集群
眾所周知,用國產卡訓模型意味著每個環節都要自己啃,研發周期更長,成本更高。
但國產算力集群一定是未來的主流,美團的選擇就是在用“時間換空間”,接受了短期適配陣痛,提前吃透國產算力全鏈路以穩住大模型長期迭代節奏。
現在看來,這個判斷價值正在兌現。
2023年搭集群跑通千億參數訓練流程,2024年在國產卡上驗證MoE架構,2025年推出5600億參數的LongCat-Flash,2026年落地了1.6萬億參數的LongCat-2.0。
而且OR上匿名的Owl Alpha,用兩個月時間證明了一個比紙面技術指標更關鍵的問題:
國產芯片訓出來的萬億規模模型,全球開發者也會買賬。
LongCat-2.0在完全匿名、無品牌背書的情況下,在多個場景下會被當成首選,這說明模型交付的結果大家是認可的。
![]()
今年3月,美團核心本地商業CEO王莆中在內部談到AI時曾提到過一個關鍵詞,建設物理世界AI底座
他當時表示,美團會持續投入基礎模型,做有特色、低推理成本,同時能力緊跟SOTA的模型。
從這個角度再看LongCat-2.0,全流程訓推只靠國產算力的它,確實在往有特色和低推理成本的邏輯上靠;
同時它的出現也像是在給未來的物理世界AI打地基,基模能力站住了,往上搭理解層和行動層才有著力點。
那么問題來了,下次沖榜的新SOTA,會以什么新馬甲出現呢?(doge)
[1]https://x.com/dr_cintas/status/2071363139967291838
[2]https://x.com/rohanpaul_ai/status/2071123605694652737
[3]https://github.com/gabrielecirulli/2048
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.