![]()
如今的國產算力可以說是“冰火兩重天”,一面是國內廠商“一卡難求”;另一面是即便是諸如銀行這樣信創要求極高的行業,也會通過算力服務的方式使用英偉達的芯片。而就是在這個國產算力即“不好買”,又“不好用”的時代交叉路口,華為提出的韜定律讓國產算力又一次成為萬眾矚目的焦點,雖然國產算力與國際一流之間的鴻溝并不會隨著華為提出韜定律而被磨平,但韜定律至少在追趕的路上,為國產算力的崛起提供了一個思路。
荊棘滿途的崛起之路
2026年開年,國產算力賽道迎來一系列高光時刻:摩爾線程、沐曦相繼登陸科創板,壁仞科技、天數智芯扎堆港股掛牌,短短一個多月,四家企業合計募資超百億港元。幾乎同期,智譜新一代旗艦模型GLM-5完成了對華為昇騰、摩爾線程、寒武紀、昆侖芯、沐曦、燧原、海光等七大國產芯片平臺的深度推理適配。IDC數據顯示,2025年中國AI加速卡市場中國產份額已達41%,2026年更升至超60%。
然而,在這些“高光”背后,一個更為復雜且真實的國產算力生態畫像正在浮現。算力服務商并行科技的國產算力業務僅占整體的“百分之幾”;推理服務商是石科技超過70%的算力仍依賴英偉達;即便在已經部署國產算力的壹檢健康測試案例中,軟硬件適配過程仍充滿曲折。從“能用”到“好用”,國產算力正在經歷一場從工程化、生態化到規模化的“爬坡”馬拉松。
“適配”不是一次性的點亮,而是持續博弈的長跑。 對于大多數用戶而言,國產卡最直接的痛點仍然是一個字,“難”。
國內某企業在測評國產卡用于影視創作平臺時,算是一路上踩坑無數。“因為很多廠家直接把裸機給我們,讓我們自己部署。國產卡整個生態還是存在一些問題,每家多少有些差異,比如底層算子的問題、包依賴的問題,甚至包括驅動的問題都存在。”該企業項目負責人如是說。更棘手的是,測試環境的整體指標表現平穩,一到線上環境便出現性能逐漸下降的詭異狀況,結果查到底是底層某個包依賴的問題。“平臺上有一萬多張卡,我到現在都還沒跟他們扯清楚,線上一萬多張卡,怎么保證環境沒問題?”
“適配”這個詞在紙面上意味著“能用”,但在實際工程中,它是一場持久戰。即便是華為昇騰這樣的國產領頭羊,在首個萬卡集群落地時,也是“派了幾百人的團隊一直在那邊調試”。這揭示了一個深層困境:對大多數應用廠商而言,用戶本身只會為成果買單,“如果我現在有足夠的英偉達卡,我肯定會去用,因為我天天在上面跑,可以直接用起來。但對于國產卡,如果需要花時間去適配,生產就會受到影響,這件事無法強行讓用戶去做”鹽城超級計算中心副主任、是石科技(平湖)有限公司聯合創始人毛運航告訴筆者。
從硬實力看,國產卡在算力指標上確實在不斷逼近國際主流水平。以華為昇騰950系列為例,950PR實測FP4算力約為英偉達H20的2.87倍,是“國內唯一支持FP4低精度推理的商用產品”,其Atlas 950超節點支持8192顆昇騰950DT芯片,互聯帶寬達62倍于英偉達NVL144。然而這些光鮮的峰值數據與實際應用中的表現仍有鴻溝。就像毛運航在總結超算經驗時一針見血:“峰值性能只是理論性能,實際應用中能用到百分之十幾就已經很不錯了。”
除了適配方面的問題之外,據筆者了解,盡管當前國產卡整體的能力不盡如人意,但當前國產卡卻仍面臨著“一卡難求”的困境。很多用戶的潛意識里,買不到英偉達卡就買國產卡,但問題在于國產卡同樣不那么好買。并行科技國產算力負責人坦言,“國內的卡確實是一卡難求,流量暴漲了幾倍甚至十幾倍,但卡的上新速度卻很慢,國產卡也基本都不愁賣,主要還是因為這個推理的需求太大了”
從華為的公開數據來看,2026年計劃生產約60萬枚910C及75萬顆950PR,總產量達160萬片。然而,受芯片制造設備限制,市場普遍預期“昇騰950系列的產量仍將遠低于需求”。在中國AI算力需求呈指數級飆升的背景下,這樣的產能并不足以覆蓋市場的龐大體量。據華為估計,到2030年人工智能基礎設施支出將達到3萬億至4萬億美元。也就是說,國產算力的產能瓶頸,有可能成為其規模化最大的天花板。
如果說硬件的差距是看得見的挑戰,那么軟件生態的鴻溝則是更隱蔽也更難跨越的“高山”。
以英偉達CUDA為例,該生態“擁有超400萬開發者、2500+加速庫,95%以上AI框架原生支持”。作為對比,摩爾線程MUSA的開發者數量約為45萬,華為CANN雖然兼容率達到95%但綁定MindSpore生態,整體遷移損耗仍達20%—40%。
在這個生態困局中,調優的碎片化、高昂的遷移成本、跨平臺的穩定性能問題,構成一個相互交織的因果鏈。每一家采用國產卡的企業,都必須正面應對的痛苦過程,“需要不斷花時間去積累”,毛運航指出。
麒麟軟件作為國產底層操作系統核心廠商,麒麟軟件有限公司 麒麟軟件副總經理姚翎明確表示,當前國產算力生態最大的痛點是多架構適配難度極高。不同國產芯片廠商的底層架構、驅動程序、算子邏輯各不相同,無統一兼容標準,導致上層應用軟件、模型適配需要針對每一款芯片單獨開發、單獨調優,極大增加了企業的研發與運維成本。對于中小企業而言,單獨適配一款國產芯片需要投入大量工程師人力,開發周期長達3-6個月,單項目前期適配成本可達數十萬元,后續規模化部署更是需要千萬級投入,極高的適配門檻讓大量企業望而卻步。
而這些痛點也造成一個現實的現象:國產卡離國際一流水平仍很大,這也導致了很多企業即便有國產化的要求,還是通過種種方式“合規”的使用非國產卡。
以國產化做的比較早且比較好的金融行業為例,金融行業在強監管的背景下,AI應用深度在眾多行業中算是深度較淺的行業,但在諸如精準營銷、風控等AI應用場景下,依舊會選擇通過算力服務的方式,使用一些非國產卡。造成這種情況主要有兩個,其一是當前AI發展速度較快,這也推動了芯片迭代的加速,購置的方式不如租賃的方式性價比高;其二是,在AI加速卡方面,英偉達等海外廠商的優勢明顯,“很多銀行都會通過‘租買’同步的方式,購置一部分國產卡,同時通過第三方算力服務公司,使用一些非國產卡,”國內某頭部金融IT解決方案供應商相關負責人進一步解釋道,“因為監管要求只停留在第一層使用的是否是國產算力,只要銀行在租賃算力服務的時候,選擇國內的算力服務商即可,至于服務商使用的是什么卡,就不受監管影響了。”
“曙光”在下一代?
如果說當前是國產算力的“磨難期”,那么面向未來,行業內絕大多數從業者都認為,國產算力的規模化擴張期即將到來。而其中最值得關注的轉折點,莫過于業界普遍期待,預計今年年底將陸續量產的新一代國產芯片產品。許多人將這一輪產品迭代視為國產算力從“追趕”到“并跑”的關鍵窗口。
當前市面上的國產卡多為上一代或上兩代產品,其性能與英偉達H100、H200等主流訓練卡存在明顯差距。并行科技國產算力負責人坦率地指出,“上一代的國產卡性能綜合表現仍有不小提升余地,局部測試大致相當于主流卡的60%-70%的性能水準”。另一方面,上一代產品大多僅支持INT8精度,這在處理復雜大模型時成為明顯的瓶頸。
然而,多位產業人士都不約而同地將希望寄托于“下一代”產品。目前行業普遍的觀點是:未來半年至一年,將是國產算力產業的關鍵轉折點。新一代高精度、高性能算力芯片集中投產,將徹底改變當前國產算力性能不足、場景受限的格局。
行業普遍預判,2025年底至2026年初,各大廠商新一代國產算力芯片將完成內測、試點,實現規模化商用落地。相較于上一代產品,新一代芯片全面突破int8精度限制,支持FP4、FP8高精度運算,單卡算力性能可對標英偉達H100、B300等主流高端芯片,徹底補齊硬件核心短板。“在下一代的產品規劃中,首先大家都提到自己能夠支持FP8,甚至有的支持FP4。除此之外,在計算上又能夠把計算性能拉齊英偉達的高端卡”,并行科技國產算力負責人表示。這意味著,新一代國產芯片在低精度推理這一大模型核心場景中,有望與英偉達當前的主流產品站在同一起跑線上。
具體到各廠商的路線圖,信息也逐漸清晰。海光方面明確表示將“保持一年一迭代”的節奏,新一代產品在算力和能效上會有“比較大的提升”,預計今年年底左右進入投產階段;摩爾線程則已經推出了新一代全功能GPU架構“花港”,可以支持十萬卡以上規模的智算集群擴展,其旗艦產品在DeepSeek-V3 671B全量大模型中實測單卡推理性能刷新了國產GPU紀錄;華為昇騰950系列更是被寄予厚望,950PR實測FP4算力約為英偉達H20的2.87倍,是國內唯一支持FP4低精度推理的商用產品,其Atlas 950超節點支持8192顆芯片互聯,已在字節跳動、騰訊、阿里巴巴等頭部企業獲得數十萬顆級別訂單......
正是基于這些可驗證的產品信息,越來越多的行業觀察者認為,“下一代”可能不再是簡單的參數迭代,而是國產算力從“能用”走向“好用”的真正分水嶺。毛運航在總結多年的國產適配經驗時也表達了類似的判斷:“我們也看到國產芯片在不斷進步的同時,也要做自己的生態。現在可能是一個陣痛的過程,但必須去經歷。”
硬件性能升級將直接拓寬國產算力的場景邊界,從單一推理場景延伸至輕量化訓練、多模態生成、工業仿真等中高端場景。此前無法落地的短視頻生成、高精度醫療影像分析、中型模型微調等場景,將逐步實現國產化適配,國產算力的商用覆蓋面與市場滲透率大幅提升。同時,隨著新一代芯片產能逐步釋放,行業“一卡難求”的供需錯配問題將得到有效緩解,市場流通算力資源增加,進一步加速市場化替代。
在推理時代尋找“突圍”機會
在落地應用場景方面,推理場景仍將是國產算力的核心基本盤,占比持續領先,同時訓練場景滲透率穩步提升。短期來看,國產算力仍將延續“推理優先、訓練跟進”的發展節奏,依托成本與合規優勢,全面搶占中小廠商、政企、科教、泛文娛推理市場,逐步蠶食海外芯片的存量市場份額。
前兩年AI的熱潮幾乎都聚焦在“訓練”上,但2025年以來,市場的重心正以肉眼可見的速度向“推理”傾斜。IDC預計,到2028年推理工作負載占比將達73%。與此同時,推理所需Token量已經實現了指數級增長,國家數據局數據顯示,2024年初我國日均Token調用量為1000億,至2025年底躍升至100萬億,兩年增長超千倍。
推理場景相對訓練場景而言,對單卡峰值算力的敏感度更低,但對延遲、并發和單位Token成本有更直接的要求。這意味著,對國產卡來說,這是一個有機會縮小與英偉達差距的競爭區域。在推理側,國產GPU的接受度明顯更高,“現在大部分卡其實都在用推理”,并行科技國產算力負責人告訴筆者。
在訓練領域,國產芯片與國際先進水平仍存差距。并行科技國產算力負責人表示,“上一代的國產卡性能綜合表現仍有不小提升余地,局部測試大致相當于主流卡的60%-70%的性能水準”,但該負責人也透露,“下一代的產品大家都表示能夠支持FP8,甚至FP4,計算性能拉齊英偉達的高端卡水平”
短期來看,國產算力仍將延續“推理優先、訓練跟進”的發展節奏,依托成本與合規優勢,全面搶占中小廠商、政企、科教、泛文娛推理市場,逐步蠶食海外芯片的存量市場份額。
隨著不斷的迭代,行業主流預判,2030年將成為國產算力產業的里程碑節點,在技術迭代、生態完善、產能充足、性價比領先的多重支撐下,國內算力市場有望實現全面國產化。
當然,這一目標的落地,核心取決于兩大關鍵條件:一是國產軟硬件生態完全成熟,所有主流模型、行業應用均可實現無差別適配;二是芯片產能完全釋放,可充分滿足國內市場指數級增長的算力需求,不再依賴海外芯片供給。“如果這兩個問題都能解決,那性價比將成為決定性因素,屆時大家沒有道理不選擇國產算力,”并行科技國產算力負責人如是說。
長期來看,國產算力不會止步于替代海外產品,將逐步實現技術與模式的自主創新。當前AI算力架構完全由海外硬件定義,算法、模型均圍繞海外芯片生態開發,而國產算力生態成熟后,將依托自主底層架構,反向推動算法、計算邏輯的創新迭代,形成適配本土產業需求的算力體系,甚至引領下一代計算技術的發展方向。
(文|Leo張ToB雜談,作者|張申宇,編輯丨楊林)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.