網易首頁 > 網易號 > 正文申請入駐

國產AI芯片三國殺：從算力競爭到生態戰爭

國產AI芯片三國殺

2026-05-29 09:51:27　來源: 鈦媒體APP

北京舉報

分享至

文 | 智訊智庫分析師劉婷

2025年下半年，“國產 AI 芯片崛起”在中國市場逐漸成為共識——國產合計份額突破 40%，華為單家出貨逼近百萬張[1]，寒武紀首次扭虧[2]，海光營收破百億[3]，NVIDIA 三年間被切走 35-40 個百分點[1]——這一趨勢也得到了黃仁勛公開表態的佐證。

黃仁勛 2025 年內三次到訪中國，在北京明確表示“任何低估華為、任何低估中國制造能力的人都極其天真”，并稱華為“芯片設計極其優秀、擁有從芯片到系統、云服務的完整技術棧[4]；在 SCSP 論壇上，他更直接承認 NVIDIA 在中國 AI 芯片市場的份額“實際上已經歸零”，并多次警告美國出口管制“在很大程度上事與愿違”[5]，反而加速了中國本土芯片的崛起。

但所有的數據和信息也都指向一個更深的問題：這究竟是國產芯片完成了“供給能力的躍遷”(產能、營收、出貨規模快速擴張)，還是已經實現了“競爭結構的終局重構”(NVIDIA 在中國的主導地位被根本動搖)?——這兩者意味著完全不同的產業前景。

本文基于上市公司年報、IDC 市場數據、SemiAnalysis 等行業研究，以及公開報道資料，從算力、生態、玩家結構、訓推分化、路徑分析五個維度，對當前國產AI芯片的真實狀態進行一次系統梳理。核心判斷包括:

2025-2026國產AI芯片的真實狀態

從公開披露的數據看，2025年是國產 AI 芯片商業化進程的一個關鍵拐點。在中國AI加速卡(涵蓋GPU、NPU、ASIC等)市場約 400 萬張的年度出貨規模中，國產廠商合計出貨約 165 萬張，市場份額首次穩定突破 40%。這意味著國產芯片已經不再處于“局部替代”的早期階段，而是進入了可以在整體市場中形成結構性存在的區間。

在這一背景下，華為昇騰、寒武紀、海光——這三家專業 AI 芯片公司，即國產 AI 芯片“三國”，在過去 12 個月里都跨過了此前未曾達到的門檻：

將四組數據放在一起，可以看到三個結構性變化：

(1)國產AI芯片出貨量從2023年的單廠萬張級，躍升至2025年的行業合計百萬張以上；

(2)客戶結構從“政策驅動”擴展到字節、阿里、百度、騰訊等頭部互聯網公司；

(3)商業模型從“高投入低回收”轉向“收入可持續兌現”

——但這些變化仍發生在訂單和收入層面，而非硬件性能與軟件生態的同步突破。

2025年下半年，“國產 AI 芯片崛起”在中國市場逐漸成為共識。但這組數據仍有幾個關鍵的問題待討論：國產芯片所切走的 35–40% 市場份額，在訓練與推理等不同工作負載之間分布并不均衡；互聯網大廠的"采用"并不等價于"替代"，其真實依賴度仍存在顯著差異；CUDA 開發者基數(約 590 萬)與國產生態(<100 萬)仍存在數量級差距[6]。換句話說，這一階段的變化更像是“供給能力的躍遷”，而不是“競爭結構的終局重構”。

而這場躍遷的成因，恰恰印證了上述判斷：它與其說是國產芯片在公開競爭中勝出，不如說是多重外部力量共同作用的結果——美國對 H100、乃至特供版 H20(NVIDIA 為中國市場設計的減配版)的出口管制[17]，把大量原屬于 NVIDIA 的需求“逼”向國產替代；國產化政策對國企、運營商、頭部大廠的采購形成引導；中芯國際(SH：688981) 7nm 良率爬坡(約 40%)[7]與華為產能儲備[8]，讓供給側第一次接得住規模化訂單；再疊加大模型需求整體爆發，市場本身在迅速變大。簡單來說，這場躍遷的底層邏輯是“需求被管制重新分配、而供給剛好接得住”，而不是“國產芯片在性能與生態上贏過了 NVIDIA”。

算力維度：與NVIDIA的差距評估

只看硬件性能，國產 AI 芯片在 2024–2025 年完成了一輪實質性追趕，但同樣的對照表也清晰標記了仍未突破的物理與供應鏈邊界。

國產已做到的部分。與 NVIDIA 上一代主力平臺(A100、H100)相比，國產旗艦單卡性能已實質接近，并通過系統級集成實現局部反超。

圖表1：國產旗艦芯片性能對比

單看一張卡，國產最強的昇騰 910C，實測能發揮出 NVIDIA H100 約六成的性能[9]。而 H100 是 NVIDIA 2022 年發布的旗艦——如今已被 H200(2023)、B200(2024)兩代新品超越[12]，但因存量巨大，它仍是當前全球 AI 數據中心的主力芯片。所以“達到 H100 的 60%”的準確含義是：國產單卡追上了“NVIDIA 兩三年前的主力”的六成，而不是“NVIDIA 當前最強”的六成。若對標 NVIDIA 2024 年發布的 Blackwell B200，差距仍然明顯。(見圖表 2)。

但單卡不是故事的全部。在“堆卡”的系統級方案上，華為 CloudMatrix 384(用 384 顆 910C 組成一個超節點)靠數量和工程優化，在算力、內存帶寬等部分指標上反超了 NVIDIA 的旗艦機柜 GB200 NVL72(由 72 張 Blackwell GPU 組成的機柜級 AI 超級計算系統)[11]，代價是約 4 倍的功耗。這反映出國產廠商當前的核心策略：以系統級集成與規模化部署，彌補單卡層面的性能代差。

國產仍落后的部分。與NVIDIA最新一代平臺相比，四個關鍵維度的差距依然清晰：

圖表2：算力四維度對比表

四個維度并非平行。HBM 帶寬(高帶寬內存，AI 芯片“讀取和搬運數據”的速度)往往比理論 FLOPS 更關鍵，因為大模型訓練的瓶頸在數據搬運而非純計算。互聯差距在萬卡級集群中會被指數放大，NVIDIA NVL72 方案能讓 72 顆 B200 在邏輯層表現為單一 GPU[12]，這是國產體系目前無法對標的架構性優勢。同時，進入 3nm 區間的不只 NVIDIA，Google TPU v7p、Amazon Trainium 3 也在快速迭代[13]，國產 AI 芯片真正面對的是整個全球先進制程梯隊的持續跑動。

部分差距是工程外的硬約束。荷蘭阿斯麥(ASML)的 EUV 光刻設備長期受美國出口管制，無法向中國大陸供貨，直接限制了中芯國際向 5nm 以下推進；HBM3E/HBM4(高帶寬內存 HBM 的演進版本，屬于面向 AI 芯片、高性能計算(HPC)和數據中心的 3D 堆疊 DRAM 技術)全球產能集中于 SK 海力士、三星、美光三家韓美廠商，2024 年底美國進一步加強對華出口管制[14]。這兩個約束的共同特點在于國產芯片公司并非“完全做不出來”，而是在全球供應鏈關鍵節點上仍缺乏自主能力，受制于海外公司和出口管制，這種差距不是會隨時間自然消失的線性問題。過去四年里，國產 AI 芯片確實實現了從“接近 A100”到“部分場景接近 H100”的工程突破，但單卡算力的縮小并不意味著真實工作負載下的性能差距也在同步縮小。

面對這一制程天花板，華為也在嘗試“換賽道”。2026 年 5 月，華為在 IEEE ISCAS 2026 上提出“韜(τ)定律”，主張以“時間縮微”(通過邏輯折疊等技術壓縮信號傳播時延)替代傳統的“幾何縮微”(把晶體管做得更小)，目標是到 2031 年在不依賴先進光刻機的前提下，實現等效 1.4nm 制程的晶體管密度。不過這目前仍是一項面向未來的原則與路線圖——密度數字來自華為自身披露、尚待獨立驗證。相關報道稱，該路線可能率先進入后續麒麟手機芯片，并進一步擴展至 AI 芯片。但其能否在 AI 算力場景兌現仍需觀察。

生態層面： 國產生態仍處于“建立第二語言”階段

如果說硬件層面的追趕存在清晰上限，那么生態層面的差距則呈現出完全不同的形態。這并不是一道單純依靠工程投入就能解決的技術題，而是一個由時間積累、開發者規模與網絡效應共同構成的復雜系統。

NVIDIA 披露，截至 2025 年其 CUDA 生態已經形成一組極具規模效應的數據：全球 CUDA 開發者規模達到 590 萬；CUDA-enabled GPU 累計部署超 5 億；CUDA 自 2006 年發布以來，已經持續演進近 20 年[6]。

在工具鏈層面，NVIDIA 圍繞 CUDA 構建起覆蓋深度學習、HPC(高性能計算)、數據科學與 AI 推理的完整體系。PyTorch(目前最主流的 AI 模型訓練框架)、TensorFlow(Google 推出的深度學習框架)、JAX(Google 推出的高性能機器學習計算框架)等主流框架默認以 CUDA 作為第一優先級后端，vLLM(大模型高吞吐推理框架)、TensorRT-LLM(NVIDIA 官方的大模型推理加速引擎)、SGLang(面向大模型服務與推理優化的開源框架)等主流推理框架也都首先圍繞 NVIDIA 平臺開發。當前大量前沿模型的訓練與部署，仍高度依賴 CUDA 生態。

國產生態相比仍處于明顯更早期階段。華為 CANN 是其中推進最快的一套：2018 年發布，CANN 6.0(2022)開始支持大量主流模型與框架兼容；2024-2025 年華為進一步推進 CANN 8.x 并宣布工具鏈全面開源[15]，這是國產 AI 軟件生態迄今最重要的戰略升級。但真正的差距不在"支持多少模型"，而在起跑時間存在 12 年代差、開發者基數仍為百萬級以下、主流框架對國產平臺仍停留在“兼容與遷移”層面。寒武紀 NeuWare、海光 DTK 等其他方案則處于更早期階段。當前國產 AI 芯片真正面對的，并不是“有沒有軟件棧”的問題，而是 CUDA 已經成為全球 AI 開發的默認語言，而國產生態仍然處于“建立第二語言”的階段。

在紙面參數上，國產旗艦芯片與 NVIDIA 的差距正在快速縮小。但在真實的大模型訓練與推理環境中，這種差距往往會被重新放大。

以 LLaMA-2 70B(Meta 發布的第二代 700 億參數大語言模型)推理為例，SemiAnalysis 等機構測算認為昇騰 910C 的部分硬件指標已達到 H100 的約 80%[10]，但 DeepSeek 等團隊的實測顯示，真實推理工作負載下整體性能約為 H100 的 60%[9]。從“紙面 80%”到“實際 60%”之間這 20 個百分點的差距，本質上就是生態成熟度帶來的性能損耗。

這種損耗主要來自三個層面：關鍵算子庫(FlashAttention、KV-Cache、MoE Routing)的優化滯后、編譯器協同與算子融合體系不夠成熟、通信庫與集群軟件棧仍在快速迭代等多處疊加。這意味著，即便國產芯片在采購價格上接近 NVIDIA，如果實際有效算力只能發揮對方六成，企業最終省下的硬件成本，很可能重新消耗在額外服務器、工程適配與運維復雜度上。

軟件生態真正難以撼動的地方，在于它具有典型的網絡效應(Network Effect)。CUDA 的護城河不來自某個單獨組件，而來自一個持續自我強化的循環：軟件適配更充分 → 開發者更多 → 企業遷移成本更高 → 市場份額擴大 → NVIDIA 獲得更多投入 → 軟件生態繼續增強。每一環都在強化下一環，系統整體呈現"越強者越強"的正反饋。這也解釋了即便競爭對手在硬件上追平 NVIDIA，開發者依然不愿遷移的現象。因為遷移成本(重寫代碼、重新訓練團隊、放棄成熟的庫與工具鏈)遠大于硬件性能差距所能帶來的收益。

觀察過去三年，國產生態確實在快速進步：CANN 演進 + 全面開源、昇騰芯片進入互聯網大廠、國產推理框架逐漸成熟。但 CUDA 同期也沒放緩，開發者從 2020 年約 200 萬增長至 2025 年接近 600 萬[6]，主流推理框架體系持續擴張。國產生態在追趕，但 CUDA 這個“移動目標”本身也在持續加速。這也是為什么說當前國產芯片獲得的大量市場份額，更多建立在供應鏈安全與去風險化需求之上，而非開發者生態層面的完全替代。

國產AI芯片的真實格局

在“專業AI芯片公司”這個子集里，“三國”仍是核心力量。但整個中國AI算力產業已經從“三家競爭”演變為“專業芯片公司 + 云廠商自研 + 長尾新勢力”共存的多層結構。

圖表4：玩家清單表

值得注意的是阿里平頭哥的 26.5 萬張出貨已經超過寒武紀兩倍以上。阿里平頭哥 PPU(Programmable Processing Unit，可編程處理器)芯片在 2025 年 9 月經央視《新聞聯播》首次披露，性能超過 NVIDIA A800、接近 H20，單卡 BOM 較 H20 下降約 40%[16]，說明互聯網大廠自研已不是“內部供給”的副產品，而是具備規模化交付能力的獨立力量。字節、騰訊等“未量產”項目本身也說明，頭部互聯網公司已經把 AI 算力視為“基礎設施能力”而不是采購品。

此外，國產 AI 芯片當前的客戶結構仍帶有明顯的"項目制擴張"特征。寒武紀 2025 年報披露前五大客戶占比 88.66%[2]、海光 90%+[3]。這并非任何一家獨有，而是產業早期的典型特征：客戶少、單筆大、決策周期長。但這種結構意味著單一頭部客戶的采購變化(自研落地或重新增加 NVIDIA)會直接放大業績波動。國產 AI 芯片行業目前更像“少數大客戶推動的項目制增長”，而非“開發者生態驅動的自然擴張”。

如果把"滲透率提升"視為一個整體，很容易忽略當前行業最重要的結構性事實：國產芯片在推理與訓練兩個場景中的滲透速度完全不同。

推理場景對算力與生態要求相對寬松，更強調成本、供給穩定性與部署效率。百度昆侖芯 R480 在 batch size=64 的推理場景下，單卡吞吐量約為 H100 的 62%，但成本僅為后者的 45%[17]。對于大量推理型工作負載而言，“性能略低但成本顯著更低”的組合，已經具備商業可行性。因此，過去兩年國產 AI 芯片市場份額的快速提升，很大程度上來自推理側的規模化部署。

訓練場景則是另一套邏輯。大模型訓練不僅依賴單卡性能，更依賴完整軟件棧、穩定通信系統與成熟開發工具鏈。一次訓練中斷可能意味著數百萬美元級別的損失，對穩定性(MTBF)、框架兼容性、集群調度的要求遠高于推理。目前大量智算中心采用"異構部署"策略：NVIDIA 承擔核心基座訓練，國產芯片承擔推理、微調與垂類任務。直到 2025 年 DeepSeek 才首次披露針對國產芯片的專項優化[18]。市場將 2026 年定義為“國產 AI 芯片訓練落地元年”，這一說法也從側面印證了訓練側的規模化國產替代此前尚未真正展開。

AI 芯片競爭正在分化為兩種戰爭：推理市場更像成本與供給能力的競爭；訓練市場則更像生態、工具鏈與開發者體系的競爭。這也解釋了為什么國產份額能夠快速提升，但 NVIDIA 的生態優勢與利潤率依然穩固。

生態突圍：三條路徑 分析與判斷

從軟件生態演進路徑看，國產AI芯片并不存在單一“追趕路線”，而是并行演化出三種不同范式，本質上反映的是對“CUDA依賴如何被打破”這一問題的不同解法。

圖表5：三條生態路徑對照表

三條路徑的根本差異不在技術細節，而在競爭策略：

回看 AI 芯片產業的演進，競爭的“決勝維度”經歷過一次遷移。這場遷移主要發生在 NVIDIA 主導的過去十余年里：最早，硬件性能強者勝；隨著 AI 普及，軟件棧(編譯器、算子庫)的成熟度成為效率分水嶺；而到了今天，決定格局的已是生態規模與網絡效應帶來的路徑依賴。越往后，生態層的權重越大——這是 NVIDIA 即使硬件優勢收窄、仍能穩守市場地位的根本原因。這也點出了國產 AI 芯片的結構性困境：在它們大規模入場時(2019 年之后)競爭早已進入“生態決勝”階段。既錯過了“硬件決勝”的窗口期，又不得不直接在 NVIDIA 最深的護城河上正面交鋒。這也是為什么單卡性能的追平，并不足以撼動整體格局。

2025 年中國 AI 芯片市場的核心變化并不是“替代完成”，而是供給能力顯著擴張后的結構性分層形成——NVIDIA 仍主導高端訓練與前沿模型開發，國產芯片則率先在推理、政企、運營商和成本敏感型場景中實現規模化落地。不同國產廠商之間，也開始形成不同技術路線與客戶定位。

這也意味著，對國產 AI 芯片的評估，不能僅依據“份額提升”或“性能接近 H100”這類表層指標。因為市場份額可以由供應鏈環境推動，硬件性能也可以通過工程投入持續逼近；但生態遷移的速度，往往慢于硬件追趕，并且具有明顯的路徑依賴特征。未來幾年，真正值得持續跟蹤的，可能是兩個更深層的領先指標：其一，國產芯片能否真正進入大模型訓練這一核心工作負載；其二，開源中間層與“硬件可插拔”架構，是否足以削弱 CUDA 對開發流程的綁定能力。前者決定國產替代能夠達到的產業上限，后者則決定 NVIDIA 的生態優勢是否會出現結構性松動。

附錄：國產AI芯片能力一覽（以NVIDIA為基準）

數據截至2026年1月。"未公開"= 廠商未披露確切參數，不做估算填充。

國產AI芯片能力一覽（以NVIDIA為基準）

[1] IDC(經 The Decoder 報道),《Chinese chipmakers now control 41 percent of China's AI accelerator market》,https://the-decoder.com/chinese-chipmakers-now-control-41-percent-of-chinas-ai-accelerator-market/

[2] 中科寒武紀科技股份有限公司,《2025 年年度報告》。

[3] 海光信息技術股份有限公司,《2025 年年度報告》。

[4] CNBC,《As Nvidia gets a lifeline in China, Jensen Huang goes on the charm offensive in Beijing》,https://www.cnbc.com/2025/07/16/as-nvidia-gets-a-lifeline-in-china-jensen-huang-goes-on-the-charm-offensive-in-beijing.html

[5] AIM《Jensen Huang Says NVIDIA’s China Chip Share Has Fallen to Zero》,https://analyticsindiamag.com/ai-news/jensen-huang-says-nvidias-china-chip-share-has-fallen-to-zero

[6] NVIDIA 10-K Annual Report FY2025，https://www.sec.gov/Archives/edgar/data/1045810/000104581025000023/nvda-20250126.htm

[7] Digitimes,《Huawei Ascend AI chip yield rate report》,https://www.digitimes.com/news/a20250225PD224/huawei-ascend-ai-chip-yield-rate.html

[8] SemiAnalysis,《Huawei Ascend Production Ramp: Die Banks, TSMC Continued Production, HBM is The Bottleneck》,https://newsletter.semianalysis.com/p/huawei-ascend-production-ramp

[9] Tom's Hardware,《DeepSeek research suggests Huawei's Ascend 910C delivers 60% of Nvidia H100 inference performance》,https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseek-research-suggests-huaweis-ascend-910c-delivers-60-percent-nvidia-h100-inference-performance

[10] News,《Huawei’s Ascend 910C Takes on NVIDIA as China’s AI Race Heats Up: More Alleged Details》，https://www.trendforce.com/news/2025/03/13/news-huaweis-ascend-910c-takes-on-nvidia-as-chinas-ai-race-heats-up-more-alleged-details/

[11] SemiAnalysis,《Huawei CloudMatrix 384》;Counterpoint Research(經 TechStartups 報道),《Huawei's Ascend 910C system reportedly outperforms Nvidia's H100 in key metrics》,https://techstartups.com/2025/04/28/

[12] NVIDIA Corporation,《NVIDIA Blackwell Architecture / GB200 NVL72 Datasheet》,https://www.nvidia.com/en-us/data-center/gb200-nvl72/

[13] SemiAnalysis,《Google TPUv7: The 900lb Gorilla In the Room》,https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the

[14] U.S. Department of Commerce, Bureau of Industry and Security (BIS),《Export Controls Final Rule, 89 Fed. Reg. 96790》,https://www.bis.gov/

[15] 觀察者網,《對標英偉達 CUDA,華為宣布開源 CANN》,https://www.guancha.cn/economy/2025_08_05_785551.shtml

[16] 電子工程專輯(EE Times China),《央視"意外"曝光參數:平頭哥 PPU 芯片超越英偉達 A800》,https://www.eet-china.com/news/202509177867.html

[17] 吳建明,《國產 AI 芯片產業深度研究報告(2025 年度)》,https://www.cnblogs.com/wujianming-110117/p/19240246

[18] 36 氪,《2026,國產 AI 芯片,跨越天塹:從"推理"走向"訓練"》,https://www.36kr.com/p/3696839539338881

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.