拆掉GPU之后，數(shù)據(jù)中心還剩什么？

2026-05-30 05:43:06　來源: 我是一個粉刷匠2

北京舉報

分享至

凌晨三點，一個AI研究員盯著訓練日志發(fā)呆。集群里兩千張GPU卡，利用率只有42%。不是代碼有問題，是網(wǎng)絡(luò)拖了后腿。他做了個實驗——把所有GPU拆下來，看看這座耗資數(shù)億美元的數(shù)據(jù)中心，到底為什么而建。

過去幾十年，建數(shù)據(jù)中心是門確定性很高的生意。放上計算服務(wù)器，掛好存儲陣列，再扯一張網(wǎng)把它們連起來。目標就一個：利用率往高拉，成本往低壓。流量模式也很規(guī)矩——客戶端發(fā)請求給服務(wù)器（南北向流量），服務(wù)器偶爾去問問存儲（東西向流量）。網(wǎng)絡(luò)偶爾堵一下，數(shù)據(jù)包丟了沒關(guān)系，標準TCP/IP會重傳。網(wǎng)頁圖片加載慢個幾毫秒，用戶根本感覺不到。能忍。

AI訓練把這個模型砸得粉碎。網(wǎng)絡(luò)不再是配套設(shè)施，它直接決定加速器利用率。現(xiàn)代AI集群里，訓練一個超大模型不是讓幾千臺服務(wù)器各干各的活，而是把它們焊成一臺分布式超算。幾千張GPU必須持續(xù)交換參數(shù)，流量方向徹底翻轉(zhuǎn)——集群內(nèi)部GPU之間、服務(wù)器之間、機架之間的東西向通信成了絕對主角。網(wǎng)絡(luò)要承載的不再是百萬條細小流量的間歇沖擊，而是少量卻極其龐大的“大象流”。梯度同步那一刻，數(shù)千張GPU同時往網(wǎng)絡(luò)里灌數(shù)據(jù)，交換機緩沖瞬間被打滿。

這個變化擊穿了傳統(tǒng)網(wǎng)絡(luò)的所有假設(shè)。現(xiàn)在一張加速器的數(shù)據(jù)吞吐量是800Gb/s，評判指標從“平均延遲”直接翻轉(zhuǎn)為“任務(wù)完成時間”和“尾部延遲”。深度學習訓練的每一步都是嚴格同步的——整個任務(wù)的進度，等于最慢那個節(jié)點的進度。一個數(shù)據(jù)包延遲，可能讓幾千張GPU同時停下來等。

延遲的敏感性在傳輸層被進一步放大。現(xiàn)代分布式訓練重度依賴RoCEv2（融合以太網(wǎng)的遠程直接內(nèi)存訪問）技術(shù)，讓GPU繞過CPU和操作系統(tǒng)，直接讀取彼此內(nèi)存。延遲確實大幅降低了，但RoCEv2對數(shù)據(jù)包丟失極其敏感。丟一個包，可能觸發(fā)重傳、超時級聯(lián)，最終拖垮整個集群的同步節(jié)奏。而標準RoCEv2網(wǎng)絡(luò)的丟包控制，依賴PFC優(yōu)先級流控機制——這就引出了那個讓無數(shù)AI基礎(chǔ)設(shè)施工程師頭疼的技術(shù)陷阱。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.