大模型訓(xùn)練的熱潮尚未退去,智能體應(yīng)用的浪潮已經(jīng)洶涌而至。算力需求的持續(xù)井噴,讓超節(jié)點(diǎn)這一AI基礎(chǔ)設(shè)施基本單元站上了風(fēng)口。但隨之而來(lái)的,是一個(gè)被忽視已久的問(wèn)題:當(dāng)超節(jié)點(diǎn)越做越大,光模塊越堆越多,這背后隱藏的工程代價(jià)和運(yùn)維成本,究竟由誰(shuí)來(lái)買單?用戶又該如何厘清這筆算力經(jīng)濟(jì)賬?
當(dāng)“光進(jìn)銅退”走向極端
在算力“奇點(diǎn)”之下,“光進(jìn)銅退”曾被視為一場(chǎng)通信革命——用更高帶寬、更低損耗的光纖替代銅纜,推動(dòng)集群網(wǎng)絡(luò)基礎(chǔ)設(shè)施全面升級(jí)。然而,隨著超節(jié)點(diǎn)算力競(jìng)賽日益激烈,這條路徑正走向另一個(gè)極端。
近年來(lái),為了追趕算力規(guī)模化腳步,部分超節(jié)點(diǎn)不惜大量堆砌光模塊,導(dǎo)致產(chǎn)品故障率居高不下。以某384卡規(guī)模產(chǎn)品為例,其配置了近7000個(gè)光模塊,采用了總長(zhǎng)度達(dá)數(shù)百公里的光纖。這也意味著,僅單個(gè)超節(jié)點(diǎn)內(nèi)的光模塊數(shù)量,就相當(dāng)于一個(gè)小型數(shù)據(jù)中心的總和。
超節(jié)點(diǎn)形成的光互聯(lián)路徑依賴,帶來(lái)的不僅是采購(gòu)成本飆升,更是運(yùn)維復(fù)雜度的指數(shù)級(jí)增長(zhǎng)。
在業(yè)內(nèi),大規(guī)模集群運(yùn)維有一個(gè)公認(rèn)的痛點(diǎn):光模塊故障長(zhǎng)期占據(jù)硬件故障榜前列。根據(jù)公開的技術(shù)文檔數(shù)據(jù),計(jì)算集群中光模塊的年失效率在千分之幾量級(jí)。把這一數(shù)字放到數(shù)千個(gè)光模塊規(guī)模下,意味著每年僅自然失效的模塊就達(dá)到數(shù)十個(gè)。
“這還不包括因灰塵污染、接口松動(dòng)導(dǎo)致的性能劣化和閃斷。”一位數(shù)據(jù)中心運(yùn)維工程師坦言:“光模塊故障是‘查起來(lái)最痛苦’的問(wèn)題之一。一根光纖斷了,可能是光模塊壞了,可能是接口臟了,可能是線纜折了。上千根線纜,你很難第一時(shí)間知道問(wèn)題出在哪里。”
更棘手的是故障定位的耗時(shí)。傳統(tǒng)運(yùn)維方式需要專業(yè)人員攜帶檢測(cè)設(shè)備到機(jī)房現(xiàn)場(chǎng),通過(guò)重插交叉驗(yàn)證判斷故障,單次故障排查往往需要數(shù)小時(shí)。在超大規(guī)模組網(wǎng)中,光鏈路數(shù)量動(dòng)輒數(shù)萬(wàn)甚至十?dāng)?shù)萬(wàn)條,運(yùn)維團(tuán)隊(duì)幾乎處于“隨時(shí)待命”的狀態(tài)。
有運(yùn)維工程師形容:“修的時(shí)間比跑的時(shí)間多,今天換一個(gè),明天壞兩個(gè)。算法團(tuán)隊(duì)等著出結(jié)果,運(yùn)維團(tuán)隊(duì)在機(jī)房里滿頭大汗。”隨著光模塊故障成為常態(tài),系統(tǒng)可用性已經(jīng)觸及紅線。
![]()
短距離場(chǎng)景下的“電回歸”
當(dāng)“光進(jìn)銅退”的極端路徑碰壁現(xiàn)實(shí),業(yè)界正在重新審視超節(jié)點(diǎn)互聯(lián)模式。
“銅依然很重要。”在今年的英偉達(dá)GTC大會(huì)上,黃仁勛再次將銅纜放在了AI服務(wù)器核心位置。據(jù)悉,在NVL72超節(jié)點(diǎn)中,英偉達(dá)采用了cable tray線纜連接方案,并未一味追求光模塊化。這也說(shuō)明,在超節(jié)點(diǎn)內(nèi)部互聯(lián)這一特定場(chǎng)景下,電互聯(lián)仍有其不可替代的價(jià)值。
不過(guò),傳統(tǒng)的銅纜電互聯(lián)模式,貌似仍未徹底滿足超節(jié)點(diǎn)主流用戶需要。
有業(yè)內(nèi)觀點(diǎn)指出,盡管電聯(lián)的部署運(yùn)維難度,遠(yuǎn)遠(yuǎn)小于高敏感的光模塊互聯(lián),但復(fù)雜的線纜連接和布線調(diào)試依然不是中小企業(yè)吃得消的。再加上高昂的采購(gòu)成本和機(jī)房改造難度,大部分超節(jié)點(diǎn)用戶都很難獨(dú)立完成產(chǎn)品落地。
在光模塊和銅纜連接之間,國(guó)內(nèi)開始進(jìn)一步走出無(wú)線纜電互聯(lián)路線。就在英偉達(dá)GTC會(huì)后,有國(guó)產(chǎn)廠商發(fā)布了全球首個(gè)無(wú)線纜箱式超節(jié)點(diǎn),其設(shè)計(jì)思路是在超節(jié)點(diǎn)內(nèi)部短距離互聯(lián)場(chǎng)景下,計(jì)算節(jié)點(diǎn)與交換節(jié)點(diǎn)直接對(duì)插,徹底消滅板間線纜,全方位打破超節(jié)點(diǎn)部署運(yùn)維門檻。
這種工程級(jí)產(chǎn)品創(chuàng)新,并非追求算力規(guī)模上的極限堆疊,而是真正面向企業(yè)級(jí)AI用戶現(xiàn)實(shí)需求,系統(tǒng)性解決超節(jié)點(diǎn)產(chǎn)品落地難、故障率高的問(wèn)題。并且,在產(chǎn)品功耗、可用性等方面,無(wú)線纜箱式超節(jié)點(diǎn)已經(jīng)全面反超光互聯(lián)和銅纜連接,提供了一種性價(jià)比更高的電連模式。
根據(jù)實(shí)測(cè)數(shù)據(jù),該無(wú)線纜箱式超節(jié)點(diǎn)芯片間單向通信時(shí)延可做到百納秒級(jí),比傳統(tǒng)光互聯(lián)方案快了近一個(gè)數(shù)量級(jí);由于去掉了功耗較高的光模塊,系統(tǒng)功耗相比光纖連接下降40%-70%;系統(tǒng)可用性則是銅纜模式的10倍——達(dá)到99.99%,意味著故障率大幅降低。
有工程師評(píng)價(jià):“從光互聯(lián)切換到電互聯(lián),表面上看是超節(jié)點(diǎn)互聯(lián)技術(shù)回退,本質(zhì)上卻是在特定場(chǎng)景下尋求最優(yōu)解。就像城市交通,地鐵適合跨區(qū)長(zhǎng)途,但小區(qū)內(nèi)騎自行車更靈活高效。”
超節(jié)點(diǎn)算的不只是硬件賬
在超節(jié)點(diǎn)市場(chǎng)被“光模塊崇拜”裹挾時(shí),新一代電互聯(lián)技術(shù)的悄然回歸,帶來(lái)了一本更精打細(xì)算的“經(jīng)濟(jì)賬”。
此前,部分超節(jié)點(diǎn)廠商力推光互聯(lián)極限擴(kuò)張,并一度提出“以軟件補(bǔ)硬件”的概念。然而,隨著光模塊故障率持續(xù)飆升,僅依賴“軟件補(bǔ)丁”的補(bǔ)救措施無(wú)異于抱薪取火,甚至?xí)萑搿八懔σ?guī)模越大-光模塊越多-成本和故障率越高”的惡性循環(huán)。
而且,超節(jié)點(diǎn)用戶需要考量的,絕不僅僅是一筆硬件賬。傳統(tǒng)超節(jié)點(diǎn)的采購(gòu)成本動(dòng)輒數(shù)千萬(wàn)甚至上億,但這只是冰山一角。水面之下的“隱形賬單”更加驚人:機(jī)房改造費(fèi)用、專業(yè)團(tuán)隊(duì)人力成本、因故障導(dǎo)致的訓(xùn)練中斷損失……等等。
以人力成本為例。傳統(tǒng)超節(jié)點(diǎn)產(chǎn)品從到貨到上線,往往需要專業(yè)工程團(tuán)隊(duì)進(jìn)場(chǎng)布線、配置、調(diào)優(yōu),耗時(shí)數(shù)周甚至數(shù)月。這期間的工程師工時(shí)費(fèi)、機(jī)房空置成本,加起來(lái)是一筆不小的開支。設(shè)備上線后,運(yùn)維團(tuán)隊(duì)還需要24小時(shí)待命應(yīng)對(duì)光模塊故障、鏈路抖動(dòng)等問(wèn)題。
有業(yè)內(nèi)人士透露,根據(jù)某國(guó)產(chǎn)AI大廠的萬(wàn)卡集群運(yùn)營(yíng)分析,集群設(shè)備空轉(zhuǎn)7天的損失可達(dá)1548萬(wàn)元。對(duì)訓(xùn)練任務(wù)來(lái)說(shuō),一次中斷可能讓數(shù)周的計(jì)算工作付諸東流。
這意味著,超節(jié)點(diǎn)采購(gòu)賬單不僅是選型之初的硬件價(jià)格,更要綜合考慮到全生命周期的算力經(jīng)濟(jì)賬。而要真正實(shí)現(xiàn)超節(jié)點(diǎn)算力普惠,必須把部署門檻、運(yùn)維復(fù)雜度、人力成本降下來(lái)。
尤其在“人工智能+”行業(yè)浪潮下,國(guó)產(chǎn)算力競(jìng)賽的下半場(chǎng)比的不是誰(shuí)的超節(jié)點(diǎn)大、光模塊多,而是誰(shuí)能讓計(jì)算系統(tǒng)真正穩(wěn)定跑起來(lái),誰(shuí)能幫助用戶把算力真正轉(zhuǎn)化為生產(chǎn)力。
無(wú)論是極端演進(jìn)的光互聯(lián),還是技術(shù)成熟電互聯(lián),只有從算力需求的第一性原理出發(fā),才能在工程可靠性、先進(jìn)性與經(jīng)濟(jì)性之間找到最佳平衡點(diǎn),并贏得行業(yè)市場(chǎng)的最終投票。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.