![]()
文|謝澤鋒
編輯|楊旭然
當AI大模型世界沿著Scaling Law向前演進時,中國大模型卻遭遇高端芯片短缺的掣肘。
以達里奧為首的一群“OpenAI 叛將”,已經將Anthropic公司打造為估值達到萬億美元的全球大模型佼佼者,該公司發布的Opus 4.6已經成為大模型的性能標尺。
其最新的模型Mythos甚至因為“性能太過強大”,而沒有被直接公開發布。其規模參數達到10萬億(10 trillion),訓練數據量高達300萬億?token,訓練成本估算達100億美元。
美國政府甚至以“國家安全”為由,暫停了所有外國公民對這款模型的訪問。
目前,我國最強模型DeepSeek V4 Pro總參數量為1.6萬億,與美國十萬億級的產品相差約6倍。而有研究表示,DeepSeek V4 Pro能力落后美國前沿約8個月。
“AI一天,地上一年”,這種代際差的根源就在于高端算力的缺失。
盡管黃仁勛、馬斯克等國際大咖對中國AI極盡夸贊之詞,但高端算力尤其是AI訓練芯片的匱乏,如同一道深厚的溝嵌,長期橫亙在中美AI的競賽場上。
美國科技巨頭們仰仗著巨額資本開支、巨量頂級GPU集群數量、充足的人均token量,正在打一場富裕仗。僅Meta一家的GPU算力就超過我國所有AI企業的總和,美國科技巨頭的AI開支更是一個天文數字。
在算力需求指數級增長、存儲芯片等硬件采購成本持續高漲的背景下,DeepSeek等國內大模型只能通過模型蒸餾來降本,而這也引發中美之間新一輪博弈。
高端AI芯片進口受阻,市場需求井噴的情況下,該如何在滿足需求和國產替代尚未形成氣候之前,找到一條更加可行的發展道路,是整個中國AI產業領域都亟需思考的問題。
本文是來自《巨潮WAVE》內容團隊的深度價值文章,歡迎您多平臺關注。
![]()
算力掣肘
去年底以來,摩爾線程、沐曦股份、壁仞科技、天數智芯等國產GPU掀起資本熱浪。然而,二級市場財富盛宴之下,一條不容忽視的暗線正變得越來越明晰,其引發的問題也愈發迫切。
過去幾年,國產AI芯片主要集中在相對安全且較為邊緣的“推理側”,如近期豆包計劃豪購天數智芯5萬塊芯片用于推理運算任務,以滿足這家中國最大AI APP終端的高頻調用。
而在AI訓練這一算力金字塔頂端序列中,國產芯片目前只能參與邊緣“打雜”任務。
AI訓練芯片主要用于人工智能模型的訓練,期間會進行大量的矩陣運算和參數調整,因此需要具備強大的計算能力和高能效比,性能更強大且價格也十分高昂,如英偉達A100、H100、H200以及AMD的MI300系列等;
![]()
相較而言,推理芯片的任務要輕松許多。用于模型訓練完成后的部署階段,主要負責執行模型的推理任務,其對實時性要求較高,推理芯片需要在保證準確率的同時,具備快速響應和低功耗的特點。
一個恰當的比喻就是,訓練是讓AI模型“學會知識”, 推理是讓大模型“運用知識”。在學習階段,訓練芯片要調用巨量數據來“喂養”十億、萬億乃至十萬億級參數的動態更新,不僅要具備強悍的算力,還需配置高效的帶寬和通信能力,還要保障萬卡級集群下的穩定性。
中美模型差距根源就在這些“看不見的地方”,尤其是高端訓練芯片的缺席。
在大模型Scaling Law規律下,模型參數越大,算力需求相應線性增長,而指數級膨脹的算力及硬件成本開支,讓訓練大模型成為極少數科技巨頭的“專屬游戲”。
美國科技巨頭中,僅Meta一家就計劃2026年底部署超120萬張高端GPU,年投入超1450億美元;另據測算,谷歌擁有的AI總算力相當于500萬塊英偉達H100,一家企業占到了全球總量的1/4。
Amazon、Microsoft、Alphabet、Meta四家公司今年的資本開支高達7250億美元,同比猛增77%,這一規模,相當于美國全年私人國內總投資的13%。大摩更是預測,到2027年,美國科技企業資本開支有望達到1.1萬億美元的歷史紀錄。
目前美國掌控全球七成以上高端GPU,芯片禁令后國內可用的高端芯片只有美國的1/8。斯坦福AI Index Report 2026報告中指出,美國數據中心數量(5427個)是中國10倍有余。
![]()
依據中國信息通信研究院(CAICT)的測算,截至2025年初,美國算力規模為2400 EFLOPS,中國1053 EFLOPS,美國是中國的2倍有余。
![]()
上述四家科技巨頭在手的算力規模,每一家單拎出來,都已經超過中國所有AI企業之和。
這種碾壓式的算力優勢,使美國企業可以一年內完成十幾輪大模型迭代實驗。
馬斯克甚至更加奢侈,旗下的xAI擁有號稱全球“首個GW級AI集群”的Colossus 2。因此他有底氣宣稱,正在同時訓練7個模型——兩個1萬億、兩個1.5萬億、一個6萬億和一個10萬億參數模型,這種“暴力美學”,只有在算力極度充裕的情況下才能做到。
![]()
與此同時,由于美國鉗制芯片出口,在近年來出貨的高端AI芯片中,中國企業獲得的份額持續下滑(根據epoch.AI統計)。
可以毫不夸張地說,算力基座的巨大差距,將導致中國AI長期處于追趕階段,也將讓國產大模型追上美國同行的過程變得更加困難。
![]()
代際之差
“中國創新的步伐不可阻擋”,“ 誰要是覺得中國做不出來(芯片),那就真的看走眼了。中美之間的差距只是納秒級別”。
英偉達創始人黃仁勛不止一次在公開場合稱贊中國半導體的進步。
![]()
馬斯克也經常會在X上表達相似的觀點——“中國一定會解決芯片卡脖子問題,人工智能算力領域,必將遠超全球其他國家”,“中國會贏下地球上的AI競賽”。
科技界如雷貫耳的大佬對中國AI發展極盡溢美之詞,很容易讓人信以為真。這些言論顯然有捧殺的嫌疑。部分美國媒體不斷宣揚中美模型差距極小的輿論,試圖混淆事實,掩蓋一些客觀真相。
對此,國內AI相關領域都應該保持清醒冷靜。
如果說如今中國先進大模型在解決標準化問題時與美國競品差別不大,那么在復雜工業和企業環境下,差距就會顯得更加明顯。
和美國Anthropic等公司的前沿模型相比,中國仍屬于追趕者。美國CAISI評估認為,國內最強的DeepSeek V4 Pro落后美國前沿約8個月。
李開復近期在接受《華爾街日報》采訪時指出,以Anthropic推出的Claude Fable 5等美國頂尖模型為標桿,?美國目前領先中國約15個月?。
![]()
大模型遵循Scaling Law規律,模型參數量越大、訓練數據越多、投入的算力越大,模型的性能就越好。如今,美國最前沿大模型已進入十萬億參數時代,且迭代速度還在加快。
Anthropic最強大的Mythos已達10萬億參數,訓練它就要耗費100億美元;xAI的Colossus 2正同時訓練7個模型,含6萬億和10萬億參數模型;OpenAI迭代一輪4萬億參數模型的周期僅為一個月。
![]()
中國最強模型DeepSeek V4 Pro總參數量為1.6萬億,和美國十萬億級前沿相差約6倍。
Anthrpoic旗下的Claude系列,已經被公認為近兩年最強的AI編程大模型,Mythos則又再一次刷新了公眾的認知,其性能相比此前的旗艦Oups 4.6還要更加強大。
OpenBSD在業界有著最安全的系統的美名,結果Mythos找到了一個27年間都沒發現的漏洞,它還在FFmpeg、Linux內核中尋覓到了幾年甚至十幾年都沒發現的漏洞,而且全程自主發現,沒有依靠人類。
要知道,大模型“預訓練”決定了模型能力的上限,無法通過“后訓練”將萬億級別參數模型調到達到10萬億參數模型的能力水平。而預訓練的決定因子就是高端算力芯片,它決定了參數規模和訓練迭代速度。
科大訊飛董事長劉慶峰就坦言,目前各家頂尖大模型廠商,特別是美國的巨頭,都在建超大規模算力平臺。而國產算力目前確實面臨陣痛期,導致在訓練超長文本上下文中遇到了限制。
可見,算力差距就是中美模型之差的根源。
![]()
國產崛起
一家企業壟斷全球高端AI訓練芯片90%的市場份額——這助力英偉達保持著全球第一大市值公司的王座。其總市值一度超過全球第三大經濟體德國2025年的GDP。
集邦咨詢數據顯示,2026年Q1全球GPU服務器市場,英偉達一家吃掉68%,AMD占據5%-6%,而國產GPU廠商整體不足4%。
憑借先發優勢,超強的技術壁壘、高速互聯、軟件生態以及綁定臺積電先進制程,英偉達獨霸天下。在高端訓練場景,英偉達GB300性能強于AMD MI325,也好于寒武紀思元690、摩爾線程MTT40,尤其在萬億參數大模型訓練中,性能強于競品30%以上。
出口禁令之下,黃仁勛此前已表示,英偉達在華市場份額(新增)已基本歸零,僅剩存量市場。國產替代政策支持下,包括華為昇騰910、海光DCU深算2號、寒武紀思元370/590,以及摩爾、沐曦等企業相繼涌現。
其中昇騰910是華為最強算力芯片,昇騰910B算力達到640TOPS(INT8),可媲美到英偉達A100芯片。
![]()
絕對性能層面,國產GPU雖仍有差距,但可先從推理與邊緣場景入手,目前國產GPU基本滿足國內政企通用推理需求,與英偉達中端產品差距縮小至15%-20%,具備替代可行性。
![]()
需要特別指出的是,算力性能固然重要,而其背后的技術軟件生態才是國產GPU的軟肋。正如CUDA才是鑄造英偉達GPU帝國的根基,中國工程院院士鄭緯民就指出,國產AI芯片核心問題是生態不夠好,如果生態好,性能做到60%也有人用。
可以說,軟件生態是GPU賽道最硬核的壁壘,在這方面英偉達的能力同樣難以替代。
CUDA生態經過了十余年深耕,已經擁有超400萬開發者、數十萬開源模型、全品類第三方工具鏈,覆蓋AI訓練、推理、圖形渲染、科學計算,生態壁壘強悍無二。
IDC數據顯示,目前全球95%以上的AI模型基于CUDA生態開發。而國產GPU在依托政策支持下,需要和產業鏈進行長期協同,需要媒體輿論、資本市場給予足夠的耐心。
![]()
今年1月,智譜就聯合華為開源新一代圖像生成模型GLM-Image,該模型基于華為昇騰Atlas 800T A2設備與昇思MindSpore AI框架,完成從數據處理到模型訓練的全流程閉環,是首個依托國產芯片實現全程訓練的SOTA多模態模型;
摩爾線程還與北京智源人工智能研究院一起,基于MTT S5000智算集群與FlagOS-Robo框架,完成智源自研具身大腦模型RoboBrain 2.5的全流程訓練。這一成果首次驗證了,國產算力集群在具身智能大模型訓練中的可用性。
可以看出,國產GPU在適配性和生態構建方面已經有所突破,并正從推理側的“單點突破”,邁向訓練側的“逐步適配”,這已是一種長足進步。
![]()
總結
整體上看,在海外先進芯片進口受阻的背景下,不妨“中西結合”用兩條腿來走路,同時重點扶持國內算力芯片,以滿足迫切的市場需求。
需求的真實性毋庸置疑,“泡沫論”仍然存在,但聲音并沒有越來越大。全球市場對于AI建設的熱情,已經超越了此前以往任何一個產業早期的發展歷程。
今年以來,全球資本市場再度掀起超級AI周期,三星、sk海力士、博通、臺積電股價屢創新高,國內市場上,以寒武紀等代表的硬科技也是漲勢兇猛,光模塊巨頭中際旭創市值更是一度超過茅臺。
回顧韓國半導體發展史,韓國以舉國之力支持存儲芯片產業,熬過至暗時刻,并最終擊敗日本,成為世界存儲產業絕對王者。
無論存儲芯片、手機芯片、乃至當下的AI芯片,中國都還處于追趕階段,這絕非一朝一夕之功。但憑借巨大的市場、不斷涌現的AI人才、龐大的資本實力,國產GPU已經開始展露出一定的適配性,能夠解決很多AI企業的真實需要。
在這場關于國運的AI對弈中,中美兩國既是對手,同時也有對方所需的技術、市場和資源。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.