網易首頁 > 網易號 > 正文 申請入駐

不只是DeepSeek V4,還有個萬億級大模型,訓推全程國產芯片

0
分享至

編輯|Sia

同一天,兩件大事兒在 AI 圈正面碰撞。

一邊是 DeepSeek。2026 年 4 月 24 日,正式發布新一代模型DeepSeek-V4 系列預覽版,并同步開源——總參數規模邁入萬億級,支持百萬字超長上下文。

另一邊,美團悶聲干了件大事——用全國產算力集群,訓練出了萬億參數大模型 LongCat-2.0 系列預覽版( LongCat-2.0-Preview )。

據知情人士透露,該預覽版與同日發布的 DeepSeek V4 Pro 在總參數規模、激活參數量上基本處于同一量級,同樣支持 1M 上下文。

但關鍵不是第一梯隊成員的「參數對齊」,而是路徑分野——一個前沿萬億模型,訓推全流程「英偉達含量為 0」——這在業內尚屬首次。即便是 DeepSeek V4,也只是選擇國產算力做「首發推理」,并不意味著全流程完全擺脫英偉達。

過去兩年,國產大模型領域最核心、也最令人焦慮的問題,終于迎來了明確答案:

萬億參數級模型,究竟能不能依靠國產芯片穩定、高效地跑起來?

答案是:能。

只是很多人沒想到,在「國產算力支撐萬億級模型研發」這條高難度賽道上,率先跑出關鍵突破的,會是美團。

某種程度上,這也呼應了王興過去的發言,「過去一年,保障充足的 GPU 資源供應,是美團的首要任務」、「我們將爭取把美團 App 率先升級成 AI-powered App!癸@然,這是戰略預判的結果。

目前,LongCat-2.0-Preview 仍處于受邀內測階段,每天 1000 萬 token 額度。

我們不禁好奇,他們到底是怎么做到的呢?



抽絲剝繭 Flash ,原來早就有跡可循

第一時間,我們聯想到去年 9 月開源的 LongCat-Flash 大模型。

同樣采用 MoE 架構,總參數規模達到 5600 億,動態激活參數在 186 億至 313 億之間,在性能與計算效率之間做出了相當漂亮的平衡,推理速度和運營成本指標也頗為亮眼。

彼時,業內就曾傳出消息:該模型訓練階段并未使用英偉達 GPU,而是基于國產加速卡完成。對此,美團始終未予置評。

但現在,隨著 LongCat-2.0-Preview 的出現,我們重翻技術報告,很多細節突然有了新的解釋。

那些當時看起來「用力過猛」、「沒必要」的工程優化,或許并不是單純秀肌肉,而是在國產算力環境下訓練超大模型時,必須跨過去的現實門檻。

換句話說,那份報告的「微言大義」,其實是一套如何用國產芯片訓成超大模型的方法論。

邏輯并不復雜。

一個 560B 的 MoE 模型,訓練周期 30 天。如果底層運行在成熟的 NVIDIA + CUDA + NVLink + InfiniBand 生態里,通信、算子、調度、穩定性工具鏈早已高度成熟。在這樣的環境下,專門花大量篇幅去講底層算子優化、確定性計算、穩定性套件,邊際收益通常并不高。

但如果底層不是英偉達,而是國產算力,一切就瞬間說得通了。

第一個最微妙的信號,藏在用詞里。

翻遍 Flash 技術報告的訓練章節,你會發現全文只提「accelerator 」,絕口不提「 GPU 」;而到了推理部分,卻明確寫的是「 H800 」。這種刻意的區分,在學術論文中并不常見——它更像是在合規框架下,用一種近乎明示的方式告訴你:訓練跑的那套硬件,不是英偉達。

第二個信號,是顯存數字。

Flash報告第 5.3 節提到,經過 V-ZB 算法優化后,訓練峰值顯存被壓到了60GB 以下。這是一個非常具體的數字。如果是 H800(80GB 顯存),壓到60GB并無太大必要;但如果是單卡顯存原本就偏緊的國產芯片,這個優化就是生死線。

同樣,在后來開源的 DORA異步訓練框架論文中,團隊再次明確寫道:「 our production cluster consists of midrange accelerators, especially with only around 60GB of available device memory 」——60GB,這個數字反復出現,指向的不是偶然。

第三個,也是最硬核的,是算子的「確定性實現」。

技術報告專門拿出章節講「 Determinism 」。在外界看來,這只是一個工程潔癖。但知情人士透露,這背后是一場硬仗。

當訓練平臺從成熟的 CUDA 換成一個較新的國產芯片生態時,很多基礎的算子要么缺失,要么性能不可接受。最典型的是FlashAttention 反向梯度( FAG )——它直接決定了長上下文訓練的穩定性。

當時國產芯片上只有一個「確定性」實現,但為了做到計算順序固定,它被迫退化成單核順序執行,耗時比「非確定性」版本慢了20 到 70 倍,在生產環境中幾乎不可用。

LongCat 團隊沒有等。他們在國產芯片上自研了高性能的確定性 FAG 算子,最終將性能損失控制在5%左右——既保住了確定性,又沒有犧牲效率。據我們所知,這一實現早于國產芯片廠商官方推出的確定性版本,且性能更優。

同樣的自研重構還發生在Scatter 類算子上。原有的單核實現效率極低,團隊設計了一套確定性并行算法,將梯度聚合任務拆解到所有可用計算單元上,性能提升數十倍。

而對于GEMM 這類高耗時計算模塊,團隊也放棄了通用實現,轉而采用確定性 Tiling 策略,疊加深度調優,實現了「高性能 + 確定性」的雙重目標。

正是在這些底層算子的深度自研之上,「整網確定性訓練」才真正成為可能——

每一步的計算結果都能精確復現,任何一次異常都能被快速定位。這在國產芯片工具鏈尚不完善的階段,不是錦上添花,而是排障的剛需。

把這些細節放在一起,Flash 的技術報告,實則是一份沒有點名硬件平臺的國產算力訓練經驗總結,也是一輪提前完成的驗證:

先用 560B 跑通工程棧,驗證架構、通信、訓練穩定性與工具鏈閉環,再把同一套方法論,放大到 1.6T。

模型架構又有創新了

因此, LongCat-2.0-Preview ,本質上可以看作是這一套方法論第一次被完整推到萬億參數級后的「階段性驗證」。據多位接近項目的人士透露,這一版本的技術細節含金量,似乎明顯高于外界目前所看到的公開信息。

LongCat-2.0-Preview 采用 MoE 架構,總參數規模約 1.6T,平均激活參數約 48B,同時支持 1M 級超長上下文。在國產算力環境下,同時支撐超大參數規模與百萬級上下文,本身就是對顯存、通信與系統穩定性的綜合考驗。

消息人士稱,為了進一步降低底層硬件負擔,同時提升整體推理與訓練效率,團隊在架構層面做了幾個核心創新。

其中一個延續性較強的方向,是在 LongCat-Flash-Lite 已驗證的 N-gram Embedding 路線基礎上繼續增強。

傳統 MoE 模型通常依賴不斷擴展 FFN 專家數量來提升能力,但隨著專家規模增加,跨節點通信開銷也同步上升,整體收益逐漸遞減。

LongCat 干脆將一部分原本位于專家層的參數前移至 embedding 層,并引入 N-gram(詞組級)建模能力,使部分高頻語言模式可以直接匹配命中,而不再依賴逐層計算。

據說,在這一設計下,模型在保持 1.6T 參數容量的同時,在代碼生成、指令理解以及專業語義任務中獲得更穩定的表現,推理成本也得到明顯控制。

另一個關鍵創新來自注意力機制層面

長上下文能力的主要瓶頸,仍然來自 Transformer 的 O(n2) 計算復雜度。LongCat-2.0-Preview 通過引入輕量稀疏注意力機制,并疊加「跨層流感知索引」設計,在不同層之間識別關鍵語義路徑,減少了重復的全量 attention 計算。

據說,這一組合設計使模型能夠穩定支持 1M token 上下文,同時在推理延遲與計算成本上保持相對可控。

5–6 萬卡國產集群,何以托起萬億模型?

據機器之心了解,LongCat-2.0-Preview 的訓推,均完全基于國產芯片完成,英偉達算力占比為零。

有接近項目的人士透露,訓練階段調用的國產加速卡規模已達 5 萬至 6萬張——這也刷新了當前已知范圍內,國產算力支撐超大模型訓練的規模上限。

這意味著其已經進入典型的超大規模工程系統階段,對通信、算子和穩定性提出的要求,遠比外界想象高得多。

首當其沖的是顯存與帶寬約束。相比英偉達高端 GPU(如 H100、B200),國產芯片在單卡 HBM 容量與帶寬上仍存在差距,這使得可用顯存空間被明顯壓縮。如何將 1.6T 級別「專家庫」在工程實現上,仍需要在集群側進行極其精細的切分與調度。

換句話說,研發團隊必須在萬卡規模上,對專家并行(EP)、張量并行(TP)與流水線并行(PP)進行重新組合與解構,才能完成整體訓練部署。

有接近研發的人士表示,圍繞并行策略與顯存優化,團隊做了大量底層調整。包括前述的 N-gram Embedding 與稀疏注意力設計,本質上也在為顯存與帶寬「騰空間」。

另一個更隱性的難點,是軟件生態與算子效率。

不比CUDA 生態在算子庫與調度效率上的優勢,國產芯片在部分核心算子(如 GEMM、注意力相關計算)上仍存在優化空間。消息人士透露,為了提升執行效率,團隊并未完全依賴通用框架,而是對核心算子進行了針對性重寫與優化,并引入「確定性計算」機制,以保證大規模訓練中的可復現性與調試能力。

而當訓練規模擴展至數萬卡級別后,系統穩定性成為另一個主要變量。

在長周期訓練過程中,硬件掉線、通信抖動與任務中斷是常態問題,而不是異常情況。為此,團隊額外構建了一套容錯與恢復體系,包括鏈路感知、自動重調度與多層異常檢測機制,用于降低局部故障對整體訓練的影響。

最后,團隊針對國產硬件的特點,對訓練框架和模型結構做了親和設計,顯著提升了計算性能。

綜合來看,在國產芯片上跑通 1.6T 模型,本質上是在「用軟件工程的勤奮,彌補硬件生態的欠缺」。其結果,正如消息人士所稱,雖然國產芯片在顯存等硬指標上還存在差距,但在計算正確性、數值精度以及長周期訓練穩定性這些最核心的指標上,已經能夠追平國際水平,足以支撐萬億級 MoE 模型的全流程訓推。

國產算力,正從能用邁向好用

過去幾年,關于國產芯片始終有一個現實問題:能不能做大模型?答案逐漸變成「能做」。但行業更在意的是下一問:能不能支撐最前沿、最高強度、最長周期的頂級任務?

在國產生態仍處于「補課期」的現實下,LongCat 團隊沒有選擇在岸邊等待水清,而是選擇「邊渡江邊修船」。但與 DeepSeek V4 相比,LongCat-2.0-Preview 走得更遠——從訓練到推理,全流程完全國產化。

這也讓它的意義,超出了「又一個萬億模型」,更是一場產業級驗證:國產算力,正在跨過從「可替代」到「可承擔頂級任務」的關鍵門檻。

正如業內人士所言,將 DeepSeek V4 與 LongCat-2.0-Preview 放在一起看,國產大模型生態雖仍不完美,但已經邁出了肉眼可見的關鍵一步。那些踩過的坑、補齊的短板、攻克過的工程難題,最終也會沉淀成整個國產 AI 基礎設施的公共能力。

當國產芯片開始承載這些前沿大模型,并獲得實際驗證與背書,不僅為國產生態注入了信心,也為更深層的結構性變革打開了空間。

如果說全流程國產化是「造出了車」,那么開源就是「修好了路」,邀請所有人一起跑起來。這種開放基因早已植根于 LongCat 的版圖中。



這一次 LongCat-2.0 Preview 大概率也將延續這一開放路線。至于具體的開源方式與時間,我們不妨拭目以待。

目前LongCat-2.0-Preview 已開放內測,每天提供 1000 萬免費 Token 額度,無論是技術發燒友想親手跑一下這個全自研的萬億模型,還是企業開發者想評估國產算力 API 的可用性,都值得一試。

訪問鏈接:

https://longcat.chat/platform/usage

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
券商暴雷 19只ST 7只退市

券商暴雷 19只ST 7只退市

趨勢巡航
2026-04-30 06:48:52
鄭麗文官宣訪美言論翻車?國臺辦回應絕了,國民黨高層清醒一點!

鄭麗文官宣訪美言論翻車?國臺辦回應絕了,國民黨高層清醒一點!

閱微札記
2026-04-30 16:52:55
孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

醫脈圈
2026-04-25 20:04:06
隨著中國新星吳宜澤13-8晉級,斯諾克世錦賽4強已經誕生3席

隨著中國新星吳宜澤13-8晉級,斯諾克世錦賽4強已經誕生3席

側身凌空斬
2026-04-30 04:24:21
俞敏洪回應東方甄選股權授予:從東方甄選成立到今天,沒領一分錢工資;未來股權兌現后會用在設立董事長獎勵基金、捐獻一部分給北大等方面

俞敏洪回應東方甄選股權授予:從東方甄選成立到今天,沒領一分錢工資;未來股權兌現后會用在設立董事長獎勵基金、捐獻一部分給北大等方面

魯中晨報
2026-04-30 15:35:02
花掉三億人民幣,打撈一艘800年沉船,打開船艙后,所有人都懵了

花掉三億人民幣,打撈一艘800年沉船,打開船艙后,所有人都懵了

海佑講史
2026-04-30 17:15:12
俞敏洪發文:東方甄選成立后“沒領過一分錢工資”

俞敏洪發文:東方甄選成立后“沒領過一分錢工資”

第一財經資訊
2026-04-30 16:51:12
廣東3消息!陳老板發表講話,徐杰深夜發聲,徐昕與少東家握手

廣東3消息!陳老板發表講話,徐杰深夜發聲,徐昕與少東家握手

多特體育說
2026-04-29 23:35:23
呂后剛死呂家就被屠盡?毛澤東點破:沒把握的權力,終是取死之道

呂后剛死呂家就被屠盡?毛澤東點破:沒把握的權力,終是取死之道

掠影后有感
2026-04-30 09:29:54
初中的幾個潛規則:初一成績就中下,甚至倒數的,基本跟高中無緣

初中的幾個潛規則:初一成績就中下,甚至倒數的,基本跟高中無緣

好爸育兒
2026-04-20 15:00:49
你應該知道的第二次鴉片戰爭全過程

你應該知道的第二次鴉片戰爭全過程

梨花頭
2026-04-29 08:41:23
南方航空:擬以約213.78億美元購買137架A320NEO系列飛機

南方航空:擬以約213.78億美元購買137架A320NEO系列飛機

界面新聞
2026-04-29 20:50:53
葛衛東一季度調倉曝光:清倉撤退消費賽道,全面押注硬科技成長

葛衛東一季度調倉曝光:清倉撤退消費賽道,全面押注硬科技成長

新浪財經
2026-04-30 03:07:23
特朗普“百億補貼”,目的只有一個,不讓解放軍殺穿西太龍入大海

特朗普“百億補貼”,目的只有一個,不讓解放軍殺穿西太龍入大海

阿芒娛樂說
2026-04-30 08:45:48
第一夫人扛不住了!布麗吉特開口談婚姻:9年沒有正常夫妻生活

第一夫人扛不住了!布麗吉特開口談婚姻:9年沒有正常夫妻生活

白露文娛志
2026-04-29 14:05:20
她憑一己之力,把吳某凡送進監獄,沒想到如今也栽了,不值得同情

她憑一己之力,把吳某凡送進監獄,沒想到如今也栽了,不值得同情

林輕吟
2026-04-27 07:43:11
尹子維的母親曾是邵氏的頂級花旦,驚為天人的美貌,美得讓人窒息

尹子維的母親曾是邵氏的頂級花旦,驚為天人的美貌,美得讓人窒息

上官晚安
2026-04-21 08:56:51
為何美國現在要拼命圍攻中國?5年后,中國將不再忌憚任何國家!

為何美國現在要拼命圍攻中國?5年后,中國將不再忌憚任何國家!

奧利奧變薄了的
2026-04-29 19:53:34
你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

夜深愛雜談
2026-03-16 22:21:03
中超第9輪,上海申花-成都蓉城,前瞻:金身不破

中超第9輪,上海申花-成都蓉城,前瞻:金身不破

足壇超短波
2026-04-30 10:35:16
2026-04-30 17:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12896文章數 142640關注度
往期回顧 全部

科技要聞

四巨頭財報齊發:AI已經不只是風口

頭條要聞

媒體:打了9周燒了250億 特朗普現在要“窒息”伊朗

頭條要聞

媒體:打了9周燒了250億 特朗普現在要“窒息”伊朗

體育要聞

季后賽場均5.4分,他憑啥在騎士打首發?

娛樂要聞

孫楊博士學歷有問題?官方含糊其辭

財經要聞

易會滿被“雙開”!

汽車要聞

專訪捷途汪如生:捷途雙線作戰 全球化全面落地

態度原創

教育
本地
時尚
公開課
軍事航空

教育要聞

5月5日!南京一中國際部與你一見“中”情

本地新聞

用青花瓷的方式,打開西溪濕地

她,在水里把剪紙燒了?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

意大利議會批準:捐贈航母給印度尼西亞

無障礙瀏覽 進入關懷版