凌晨三點,一個AI研究員盯著訓練日志發(fā)呆。集群里兩千張GPU卡,利用率只有42%。不是代碼有問題,是網(wǎng)絡(luò)拖了后腿。他做了個實驗——把所有GPU拆下來,看看這座耗資數(shù)億美元的數(shù)據(jù)中心,到底為什么而建。
過去幾十年,建數(shù)據(jù)中心是門確定性很高的生意。放上計算服務(wù)器,掛好存儲陣列,再扯一張網(wǎng)把它們連起來。目標就一個:利用率往高拉,成本往低壓。流量模式也很規(guī)矩——客戶端發(fā)請求給服務(wù)器(南北向流量),服務(wù)器偶爾去問問存儲(東西向流量)。網(wǎng)絡(luò)偶爾堵一下,數(shù)據(jù)包丟了沒關(guān)系,標準TCP/IP會重傳。網(wǎng)頁圖片加載慢個幾毫秒,用戶根本感覺不到。能忍。
![]()
AI訓練把這個模型砸得粉碎。網(wǎng)絡(luò)不再是配套設(shè)施,它直接決定加速器利用率。現(xiàn)代AI集群里,訓練一個超大模型不是讓幾千臺服務(wù)器各干各的活,而是把它們焊成一臺分布式超算。幾千張GPU必須持續(xù)交換參數(shù),流量方向徹底翻轉(zhuǎn)——集群內(nèi)部GPU之間、服務(wù)器之間、機架之間的東西向通信成了絕對主角。網(wǎng)絡(luò)要承載的不再是百萬條細小流量的間歇沖擊,而是少量卻極其龐大的“大象流”。梯度同步那一刻,數(shù)千張GPU同時往網(wǎng)絡(luò)里灌數(shù)據(jù),交換機緩沖瞬間被打滿。
![]()
這個變化擊穿了傳統(tǒng)網(wǎng)絡(luò)的所有假設(shè)。現(xiàn)在一張加速器的數(shù)據(jù)吞吐量是800Gb/s,評判指標從“平均延遲”直接翻轉(zhuǎn)為“任務(wù)完成時間”和“尾部延遲”。深度學習訓練的每一步都是嚴格同步的——整個任務(wù)的進度,等于最慢那個節(jié)點的進度。一個數(shù)據(jù)包延遲,可能讓幾千張GPU同時停下來等。
![]()
延遲的敏感性在傳輸層被進一步放大。現(xiàn)代分布式訓練重度依賴RoCEv2(融合以太網(wǎng)的遠程直接內(nèi)存訪問)技術(shù),讓GPU繞過CPU和操作系統(tǒng),直接讀取彼此內(nèi)存。延遲確實大幅降低了,但RoCEv2對數(shù)據(jù)包丟失極其敏感。丟一個包,可能觸發(fā)重傳、超時級聯(lián),最終拖垮整個集群的同步節(jié)奏。而標準RoCEv2網(wǎng)絡(luò)的丟包控制,依賴PFC優(yōu)先級流控機制——這就引出了那個讓無數(shù)AI基礎(chǔ)設(shè)施工程師頭疼的技術(shù)陷阱。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.