全球AI基建正在瘋狂提速,算力競賽的下半場,哨聲已經(jīng)吹響。
“星際之門計劃”20個數(shù)據(jù)中心落地,歐洲80億歐元砸向智算云,國內(nèi)算力規(guī)模穩(wěn)居全球第二——這場競賽的烈度,已經(jīng)遠(yuǎn)超幾年前的市場預(yù)期。
但有一個問題正在浮出水面:卡堆起來了,網(wǎng)跟得上嗎?
業(yè)內(nèi)都知道一個數(shù)字:稠密模型的通信耗時占10%~20%,到了MoE架構(gòu),這個比例直接飆到40%-60%。這意味著,你投幾十億建一個萬卡集群,如果網(wǎng)絡(luò)效率不行,小一半算力都在空轉(zhuǎn)等數(shù)據(jù)。
算力競賽的上半場拼的是單卡性能,下半場拼的是網(wǎng)絡(luò)效率。這個轉(zhuǎn)折點(diǎn),已經(jīng)到了。
所以中科曙光最近發(fā)布全自研scaleFabric這件事,值得多說兩句。
不是因?yàn)樗钛a(bǔ)了國產(chǎn)原生InfiniBand的空白——雖然確實(shí)填補(bǔ)了,而是因?yàn)樗兄辛诉@輪競賽的真正賽點(diǎn):當(dāng)算力規(guī)模堆到一定程度,決定集群價值的,不再是堆了多少卡,而是讓算力“跑起來”的那張網(wǎng)。
看數(shù)據(jù):800Gb/s單端口帶寬,端到端延遲低于1微秒,單子網(wǎng)集群可擴(kuò)展至11.4萬張卡,網(wǎng)絡(luò)成本較進(jìn)口IB降低約30%。更關(guān)鍵的是落地——國家超算互聯(lián)網(wǎng)核心節(jié)點(diǎn),36小時完成3套萬卡集群部署,穩(wěn)定運(yùn)行超10個月,服務(wù)超10000名用戶。
這是跑出來的實(shí)戰(zhàn)結(jié)果。
在高速網(wǎng)絡(luò)領(lǐng)域,一直有兩條路線:InfiniBand精準(zhǔn)高效但被海外壟斷,RoCE依托以太網(wǎng)但需要復(fù)雜優(yōu)化才能接近“無損”。過去國內(nèi)用戶沒有選擇——要么接受RoCE的性能折中,要么忍受IB的高昂成本和供應(yīng)限制。
曙光的解法很直接:自己造一條路。歷時三年,從112G SerDes IP到上層管理軟件,100%全棧自研,既繼承IB技術(shù)優(yōu)勢,又實(shí)現(xiàn)自主可控。三年時間,把“中國算力跑在中國網(wǎng)絡(luò)上”從愿景變成現(xiàn)實(shí)。
回頭看這輪全球基建競賽,其實(shí)釋放了一個明確信號:AI基礎(chǔ)設(shè)施的競爭,已經(jīng)從“有沒有算力”進(jìn)入到“算力好不好用”的階段。而在這個階段,網(wǎng)絡(luò)不再是算力的配角,而是核心變量。
中國信通院已經(jīng)在聯(lián)合中科曙光等單位推進(jìn)智算網(wǎng)絡(luò)行業(yè)標(biāo)準(zhǔn)制定。這意味著,中國團(tuán)隊正在從市場參與者轉(zhuǎn)向規(guī)則制定者。
畢竟,算力規(guī)模全球第二這個位置,想坐穩(wěn)靠的不是數(shù)字,是能讓算力真正跑起來的那張網(wǎng)。
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.