![]()
智東西
編譯 劉煜
編輯 陳駿達
智東西6月23日消息,當地時間6月21日,英偉達發文稱,其新一代Rubin系列AI基礎設施冷卻液體工作溫度上限可達45攝氏度,高于人們泡澡時的水溫(一般在38到40攝氏度之間)。該公司形容這一設計是數據中心發展史上能效提升幅度最大的技術突破之一。
傳統數據中心普遍依靠冷水機組產出低溫冷水,配合精密空調輸送冷空氣完成整機散熱。但Rubin平臺反而采用高溫冷卻液完成散熱,它是全球首款實現100%液冷的AI算力平臺。其芯片、所有網絡組件全部由閉環管路內的液體獨立散熱,整機無任何散熱風扇。
▲Rubin平臺集成液冷基礎設施(圖源:英偉達官網)
英偉達透露,這一看似反常的設計,能使數據中心能夠大幅降低制冷能耗。不止如此,一座50兆瓦的超大規模數據中心,若改用這一液冷基礎設施,理論上每年可節省超400萬美元(約合人民幣2712.3萬元)制冷相關水電開支。
該公司稱,由于英偉達Rubin平臺集成了100%液冷基礎設施,所有云服務商與數據中心運營商在搭建Rubin平臺配套算力集群時,均會同步切換這套散熱方案,產業鏈配套廠商也同步跟進。
Rubin平臺的這套液冷方案完整收錄于英偉達DSX AI工廠參考設計,該參考設計包含全套規范,用于指導整套AI工廠基礎設施的設計、搭建與運維。不止如此,DSX AI工廠參考設計也是英偉達為打造全球最高產出的AI工廠奠定的技術藍圖之一。
英偉達數據中心冷卻與基礎設施總監阿里?海達里(Ali Heydari)稱:“英偉達DSX AI工廠參考設計可實現0耗水。我們大幅削減了電力消耗,幾乎徹底消除水資源損耗。整套方案采用干冷器閉環架構,無蒸發式水冷;僅少數氣候區域全年約1%的時段,才需要啟動冷水機組。”
盡管這套高溫全液冷體系在運營環節實現了節能節水效果,但外界對AI數據中心的多重擔憂并未完全消解。
據科技媒體The Verge報道,該方案仍未解決機房建設階段產生的資源消耗,以及超大型算力設施所需的電力供給壓力。
同時,英偉達發布的官方博文也并未提及使用Rubin平臺的建設成本。不過該公司發言人向美國科技博客Gizmodo透露,相關價格將由數據中心設備供應商制定。至少在短期內,多數頭部AI實驗室大概率仍會繼續使用傳統高耗水型數據中心。
一、節水幅度最高達100%,可減少機械制冷設備運行時長
隨著AI訓練集群規模持續擴大,散熱正成為影響數據中心建設成本和運營效率的重要因素。冷卻系統長期以來一直是數據中心最大的能耗來源之一。英偉達稱,冷卻系統在歷史上最高可占數據中心總電力消耗的40%。
因此制冷優化成了降低運營成本、削減能源需求的核心突破口。
長期以來,行業一直存在一個認知誤區:機房溫度越低,能效越高。幾十年前,只要數據中心環境溫度偏高,運維人員便會判定設備存在故障,久而久之行業普遍將“低溫”與“高效率”直接畫上等號。
但在全液冷架構下,情況已經發生變化。
實際上,芯片可承受的工作溫度遠高于大眾固有認知。硅基處理器運行時會產生巨大內熱,在Rubin平臺中,液體進入機架時溫度可達到45攝氏度,流出時約為55攝氏度。這意味著液體在流經芯片過程中吸收了大量熱量。
如下圖所示,黃色管路是高溫冷卻液輸送管道,紅橙漸變光柱展示該服務器內部芯片的發熱熱量,淺藍色透明區域則代表冷板液冷散熱模塊。圖中右下角面板標注高溫液體冷卻(Hot Liquid Cooling)工況:冷卻液進水溫度45℃,吸熱后出水溫度升至55℃,設備運行狀態顯示正常(Normal)。
![]()
▲Rubin平臺配套的45℃高溫全液冷散熱3D原理示意圖(圖源:英偉達官網)
盡管冷卻液溫度遠高于傳統認知中的“安全溫度”,但處理器性能并不會因此下降。英偉達稱,這是因為冷板(Cold Plate)直接貼附在芯片表面,能夠將芯片工作溫度始終控制在驗證范圍內。
與此同時,整個服務器已經不再依賴機房冷空氣。即使外部環境溫度較高,服務器也能正常工作,因為散熱任務全部由液體循環系統承擔。
行業測算顯示,冷水機組供水溫度每提升1攝氏度,制冷能耗成本可降低約4%。企業規模化部署Rubin平臺后,節能效益將持續疊加。
在氣候適宜地區,英偉達這套45℃液冷架構可在完全停用冷水機組的情況下運行,僅依靠干冷器散熱。傳統冷卻塔制冷系統每兆瓦年耗水量約260萬加侖(約9842噸),而該方案可將耗水量降至近乎為0,節水幅度最高可達100%。
其背后原理在于,傳統風冷數據中心需要輸送大量低溫空氣帶走IT設備熱量,高溫天氣下制冷設備能耗極高。
英偉達45℃液冷方案則直接在芯片端捕獲熱量,通過高溫液體管路輸送熱量,全年大部分時段可依靠室外干冷器高效排熱,可減少機械制冷設備運行時長與機房耗水量。
機房環境溫度無需刻意調低,夏季室外高溫空氣也完全適配,因為服務器內部無任何元器件依賴冷空氣散熱,全部散熱工作由冷卻液完成;液體在閉環管路內循環復用,也無需持續消耗新水冷卻芯片。
施耐德電氣旗下高端冷卻子公司Motivair已和英偉達合作近十年,該公司總裁兼CEO理查德?惠特莫爾(Richard Whitmore)稱:“地理位置與系統設計匹配得當的前提下,整套設施無需任何制冷機組,僅依靠室外大型散熱盤管,利用自然空氣即可完成全部散熱,能效表現極其出色。”
如他所言,液冷系統的效果與地理環境密切相關。例如蘇格蘭高地與美國亞利桑那州鳳凰城的數據中心面臨完全不同的氣候條件,因此能夠達到的節能水平也存在差異。
不過即便如此,英偉達認為,45攝氏度液冷方案已經讓數據中心距離“無冷水機組運行”更進一步。在許多地區,冷水機組可能僅需在一年中的極少數高溫天氣啟動。
二、算力部署密度大幅提升,廢熱可回收供暖
Rubin平臺的這套液冷設計方案除了能節水以外,還一定程度上解決了傳統數據中心進行散熱時出現的噪音問題。
傳統數據中心使用散熱風扇散熱時會讓機房噪音達到85分貝及以上,工作人員進入部分機房甚至需要佩戴護耳設備。同時,傳統機房還需要精心規劃冷熱通道,以確保冷空氣能夠流經各類元器件。
但Rubin平臺取消了這些設計。
該平臺使用由75%水和25%丙二醇組成的冷卻液,冷卻液流經緊貼處理器的冷板時,可以直接在熱源處帶走熱量。冷卻液的工作溫度上限達45攝氏度,多數氣候環境下,機房管路無需啟動機械冷水機組與高噪音風扇即可向外排熱。
![]()
▲左側是大型不銹鋼承壓罐,黑色機柜為VERTIV換熱設備;右側是不銹鋼回水管道(圖源:英偉達官網)
這一變化還帶來了更高的機柜密度。
以往液冷服務器均為混合散熱架構:GPU、CPU配備冷板,其余元器件仍依靠風冷,通過散熱鰭片向流動空氣散發熱量。
而英偉達熱設計團隊重新設計了Rubin平臺服務器內部散熱結構,把過去依賴空氣散熱的組件改為液冷方案,并采用單進單出液路設計優化冷卻液流動路徑。
從外觀上看,Rubin服務器前面板已不再需要空氣冷卻服務器常見的散熱孔。與此同時,原本占用6U空間的系統如今可壓縮至2U空間內,在相同機房面積下部署更多算力設備。
惠特莫爾稱:“單芯片功耗突破臨界值后,液冷將成為唯一可行方案。”
![]()
▲Rubin全液冷AI服務器機柜整機(圖左)機柜頂部液冷管路近距離特寫(圖右)(圖源:英偉達官網)
除了上述優點,英偉達全液冷架構還帶來了余熱利用的新可能。
該公司稱,AI工廠算力運行產生的廢熱可二次利用,能為周邊商業樓宇、居民住宅供暖,提高整體能源利用效率。
隨著AI訓練和推理需求持續增長,數據中心建設規模仍在快速擴張。如果散熱效率無法同步提升,AI基礎設施的能源消耗將隨算力增長同步攀升。英偉達此次推動的100%液冷架構,正是其降低AI基礎設施運行成本和資源消耗的重要方案之一。
結語:算力散熱難題凸顯,高溫全液冷革新傳統制冷思路
當下,AI算力需求持續擴張,數據中心的水電消耗與散熱壓力已成為行業無法回避的現實議題。
英偉達Rubin全液冷架構通過提升冷卻液工作溫度、閉環干冷循環的方式,打破了傳統行業長期追求機房低溫的固有思路。
但這套方案的落地效果受地域氣候制約明顯,前期建設成本、全行業規模化普及進度仍是待觀察的變量,同時它僅優化了制冷環節的資源消耗,無法覆蓋數據中心建造、上游電力供給等全鏈條環境相關問題。
未來,兼顧算力供給、資源消耗與落地成本的散熱體系,仍需要芯片廠商、機房服務商、能源配套產業鏈多方協同適配。未來,高溫全液冷或許會成為重要技術路線之一,但并非解決AI數據中心能耗、耗水問題的唯一答案。
來源:英偉達官網、The Verge、Gizmodo
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.