![]()
出品 | 網(wǎng)易智能
作者 | 辰辰
編輯 | 王鳳枝
中國超算重返世界第一。
但這次,它沒用一張GPU。
6月23日,德國漢堡,ISC 2026大會上,深圳國家超算中心的"靈晟"系統(tǒng)以2.198 Exaflops登上TOP500全球超算榜首。
![]()
上一次中國站到這個位置,還是2017年的神威·太湖之光。
九年過去,中國交出的新答案,不是GPU集群,而是一套純CPU系統(tǒng)。
![]()
TOP500組織者、田納西大學教授杰克·唐加拉(Jack Dongarra)最近去深圳實地看過這臺機器。他的評價很簡短:
"一套令人印象深刻的系統(tǒng)。"
然后他補了一句更關鍵的話:
"他們超過我們,靠的是不依賴GPU。"
一、一張沒有GPU的成績單
靈晟最扎眼的,不只是快。是它用什么做到的。
過去幾年,全球頂級超算的主流路線越來越清楚:CPU負責調度,GPU負責堆算力。美國的El Capitan用AMD MI300A,F(xiàn)rontier也是類似邏輯。GPU幾乎成了頂級超算的默認答案。
靈晟偏偏不用GPU。
它用一顆自研的LX2處理器,304核,ARMv9架構,1.55GHz主頻。整機塞了1379萬顆核心,90個機柜。自研靈啟互聯(lián)網(wǎng)絡。功耗42.2兆瓦,能效52.07 GFlops/瓦。
更具體地看,每顆LX2 CPU依賴兩個計算芯粒(chiplet),304個核心被組織為8個核心集群,每個集群內(nèi)含38個核心。每個核心都集成了Arm SVE(可伸縮矢量擴展)和SME(可伸縮矩陣擴展)單元,以加速AI訓練和科學計算中的矢量及矩陣運算,支持FP64、FP32、BF16、FP16和INT8等多種數(shù)據(jù)格式。芯片采用了極為獨特的內(nèi)存架構:將32GB的封裝(on-package)HBM內(nèi)存提供高達4 TB/s的帶寬,與多達256 GB的外部DDR5內(nèi)存相匹配,在最大化內(nèi)存帶寬的同時,兼顧了容量擴張。
![]()
純CPU路線聽起來很復古。上一次純CPU拿下TOP500第一,還是2020年的日本富岳,能效只有靈晟的三分之一。
但靈晟和富岳不是一回事。富岳是傳統(tǒng)CPU路線,靈晟是把GPU的活兒(向量和矩陣運算)做進了CPU的指令集。 唐加拉把這種設計描述為"一種可能更好的、把AI與傳統(tǒng)科學任務融合的方式"。
14個戈登·貝爾獎申報項目用了靈晟。三個入圍決賽,三個入圍氣候科學獎。應用覆蓋大氣海洋模擬、材料科學、藥物研發(fā)、腦科學、大模型推理。
不是PPT機器。
二、"他們交了卷"
靈晟登頂本身不算意外。
意外的是深圳交了卷。
過去三年,中國超算系統(tǒng)集體缺席TOP500榜單。2023年起,中國停止了所有系統(tǒng)的排名提交。背景很清楚:美國從特朗普第一任期開始,一輪接一輪收緊芯片和計算相關的出口管制,拜登接力加碼。中國的策略是低調,有系統(tǒng),不參賽。
所以Intersect360 Research分析師艾迪森·斯內(nèi)爾(Addison Snell)的那句話,成了這次所有外媒報道里被引用最多的:
"我不意外它能拿第一。我意外的是他們主動提交了,想要這個認可。"
這句話的信息量很大。不參賽,是因為怕暴露哪些芯片能造、哪些不能。參賽,是因為不怕了。
![]()
唐加拉在深圳得知了一個關鍵細節(jié):靈晟沒有使用政府資金,設計者認為提交排名不違規(guī)。這解釋了"能交卷"的法律邏輯。
更重要的信號不在合規(guī)層面。
合規(guī)是前提,但合規(guī)不等于動機。
資深科技分析師馬繼華說得更直接:中國不再保持低調,重新參與全球"基準競爭"。早前的克制,主要是外部限制和謹慎披露策略。現(xiàn)在自主超算能力取得突破,中國重新進入頂級競賽,性能大幅領先西方系統(tǒng)。
"重新參與"四個字,比"拿了第一"更值得讀。
美國那邊的解讀則完全不同。加州大學全球沖突與合作研究所高級研究員吉米·古德里奇(Jimmy Goodrich)說:"中國在試圖讓世界相信出口管制沒用。"
三、換了解題思路
靈晟的故事里,最讓美國人難受的可能不是它拿了第一。
而是這個第一,恰恰是用美國人斷定走不通的那條路走出來的。
2017年之后,美國出口管制策略有一個清晰假設:卡住GPU和先進制程,就是卡住了中國超算的咽喉。這個假設不無道理。全球頂級超算都在GPU上堆算力,英偉達和AMD是這個生態(tài)的核心。沒有GPU,按常理出不了頂級超算。
靈晟證明的不是"沒有GPU也湊合能跑"。而是在TOP500這張傳統(tǒng)超算卷子上,確實存在另一條路線:不用GPU,也能跑到第一。
X用戶@OopsGuess那條被廣泛轉發(fā)的推文,抓住了這個敘事里最深的諷刺:"限制沒有阻止答案。它換了考題。而中國還是拿了第一。"
![]()
這就是靈晟這件事的核心張力。外部限制本意是切斷路徑,結果逼出了路徑創(chuàng)新。
中國科技與戰(zhàn)略研究院副院長陳靖的解讀最為系統(tǒng):靈晟體現(xiàn)的不是單一硬件突破,而是體系級能力,獨立生態(tài)建設、架構創(chuàng)新、全系統(tǒng)集成,以及存儲和冷卻的配套突破。他把這條路比作華為的"韜定律",從單點競爭轉向系統(tǒng)架構創(chuàng)新和工程優(yōu)化,是"換道",不是"彎道超車"。
馬繼華也強調同一個判斷:這不是突然的超車,而是長期技術積累和體系重建的結果。中國超算底子本來就不弱,這幾年雖然不參賽,能力建設沒停過。
但這個敘事,美國那邊不太認。
四、兩個第一,不在同一條賽道上
這里需要拆一個很少被大眾討論的技術細節(jié)。
TOP500的核心排名基準是Linpack,測試雙精度浮點(FP64)性能。 這是傳統(tǒng)科學計算的標準:氣候模擬、密碼破譯、核武器設計,需要64位的高精度計算,分毫不差。
AI不這么干活。
大模型訓練和推理用的是低精度,8位、4位浮點。精度低,但一次能算更多。不求準,求快。
兩條賽道。
靈晟在傳統(tǒng)賽道上碾壓:Linpack 2.198 Exaflops,HPCG 22.0 PFlops,兩個都是第一。
換到AI賽道(HPL-MxP混合精度測試),靈晟排第四。7.92 Exaflops,落后于El Capitan、Frontier和Aurora。
LX2從雙精度轉到混合精度,性能只提升了3.6倍。集成專用低精度加速器的AMD MI300A和Intel Ponte Vecchio,提升幅度大得多。這意味著靈晟的設計目標從一開始就不在AI賽道上,但其在傳統(tǒng)超算任務上的杰出表現(xiàn)彌補了這一短板。
說人話就是:靈晟干科學計算,全球沒人比它快。干AI訓練,美國還有余量。
古德里奇承認靈晟"引人注目、令人印象深刻"之后,立刻換了一個維度:"它們跟美國AI實驗室建造的那些大規(guī)模AI超算相比,不值一提。"
他的依據(jù)確實真實存在:大型云服務商的AI計算集群(微軟、谷歌、亞馬遜、xAI)從不參加TOP500。2025年一項研究估算,xAI的Colossus系統(tǒng)實際算力可能已經(jīng)超過El Capitan。古德里奇等人認為,如果這些系統(tǒng)參賽,靈晟進不了前五。
聽起來是在貶低靈晟。也可以理解成:美國甚至要搬出不參賽的選手,才能找到心理平衡。
古德里奇說的不是假話,如果你只比AI算力。
斯內(nèi)爾也沒說假話,如果你比的是TOP500排名。《紐約時報》引了他的原話:"總有人說美國是唯一能造這些系統(tǒng)的國家。然后你會發(fā)現(xiàn),別的國家也有這個能力。"
兩句話都指向同一個事實:決定話語權的,不是哪個數(shù)據(jù)準確。是說話的人選擇用哪條賽道的數(shù)據(jù)。
勞倫斯伯克利國家實驗室的HPC架構師格倫·洛克伍德(Glenn Lockwood)在X上寫了一句技術圈內(nèi)分量很重的點評:"靈晟相對El Capitan的效率躍升是驚人的。這表明了為FP64優(yōu)先而設計,與把FP64硬塞進一個AI優(yōu)先的芯片封裝里,之間的差距。"
![]()
從事高性能計算的人讀這句話,能聽到真正的技術判斷:靈晟不是在跟美國比誰更AI。它是在證明,當所有人都在為AI改賽道的時候,純科學計算這條路,還有人在走,而且走到了最前面。
中科院計算所研究員張云泉點了一個更本質的問題:純CPU路線在科學計算這樣的傳統(tǒng)超算場景里,兼容性優(yōu)勢很強。這條路技術難度更大,但走通之后與傳統(tǒng)應用的適配成本極低,不需要重新寫代碼去適配GPU架構。
簡單說:靈晟不是為AI競賽設計的。它是為科學計算、工程模擬、藥物研發(fā)這些"老派"超算任務設計的。在這些任務上,GPU+CPU混合架構不一定更優(yōu)。
硬件上為科學計算優(yōu)化,軟件上與既有代碼天然兼容,兩頭都順。
TOP500則在自己的總結里寫了一句含蓄但關鍵的話:"通往頂級計算沒有單一主導的技術路線;供應商在追求CPU、GPU、APU和定制加速器等多種路徑。"
不點名,但靈晟就是這句話的最好注腳。
五、第三國的選擇題
一名用戶在X上拋出了一個更長遠的問題:
"讓我們來品味一下這何其像是'自擺烏龍'。歐美企業(yè)不僅在中國失去業(yè)務和豐厚機遇,如今中國已擁有能在全球舞臺上競爭的產(chǎn)品。假如你是第三國,你會選擇昂貴的美國技術棧,并隨時面臨被限制的風險,還是選擇價格更低、可能性能更優(yōu)的中國產(chǎn)品,而且沒有人對你如何治理本國指手畫腳?"
![]()
這個問題不好回答,但不能不回答。
全球超算市場本身不大。可超算是算力金字塔的頂端,頂端路線一旦被證明可行,影響會向下滲透到數(shù)據(jù)中心、云服務和企業(yè)計算。
靈晟現(xiàn)在還談不上直接改變?nèi)虿少徃窬帧P酒烧l代工、使用什么工藝節(jié)點、ARM授權能否覆蓋出口型號,這些問題都還沒有答案。
但這件事真正刺到美國的地方,不是"中國超算能不能賣出去"。而是美國限制的可信代價。
如果每一次限制(GPU、半導體設備、架構授權)最后都逼出新的替代路徑,那么限制本身的威懾力就會被削弱。
靈晟的意義不只在超算排名,而在于它展示了一種可能:在最不利的條件下,換一條路,仍然能跑到最前面。
另一位用戶總結得更鋒利:"這就是人們低估的東西。限制不只是減少能力,它可以重新引導工程人才。靈晟聽起來像中國對著硬件封鎖說了句:'好,那我們重新設計整條路。'非常棘手的劇情轉折。"
![]()
截至2025年中,中國算力總規(guī)模全球第二,已批復14個國家超算中心。今年1月,國家超算互聯(lián)網(wǎng)平臺用戶突破100萬,超算資源從集中供給轉向普惠服務。
靈晟的排名,只是這條更長弧線上的一個點。
六、結語:未完的競賽
當然,靈晟的答卷上還有一些沒填的空白。
唐加拉在深圳看到機器,但設計者沒有披露由哪家公司制造芯片、使用什么工藝水平。ARM架構授權來自日本軟銀旗下的ARM公司。ARM發(fā)言人表態(tài):"ARM在全球運營,都遵守適用的出口管制法律法規(guī)。"
措辭精準。沒說代工廠。沒說工藝節(jié)點。
陳靖也承認,底層約束仍然存在,架構授權、先進制造工藝、部分芯片制造環(huán)節(jié)。中國超算從"對外依賴"到"完全自主",還在過渡階段。
兌現(xiàn)到哪個程度,下一臺機器才能回答。
![]()
美國那邊也沒閑著。靈晟登榜前一天,特朗普簽署了一份量子計算行政令,目標是確保美國在新興計算領域對中國保持領先。2025年11月啟動的"創(chuàng)世使命"計劃,正在把國家實驗室和私營公司的超算資源整合起來,加速AI和科學研究。
至于古德里奇說的"美國應該對CPU也加強管制",且不說技術上是否可行,ARM是一家英國公司,由日本軟銀控股。管不管得到,本身就是問題。
競賽還在繼續(xù)。換卷子的故事,考的不是一臺機器的排名。考的是一個產(chǎn)業(yè)在被外力阻斷后,能不能長出另一條肌肉。
靈晟拿下了第一場考試的第一名。
但這場競賽,不止一場考試。
