7月23日凌晨4點20,馬斯克發推文宣稱,自己剛剛啟動了世界上最強的AI訓練集群。
這個超算中心位于美國田納西州,孟菲斯,使用了100,000個(不用數了!是10萬個!)英偉達H100液冷GPU,通過單一RDMA網絡連接 。
RDMA(Remote Direct Memory Access)即遠程直接內存訪問,它可以把數據直接從一臺計算機傳輸到另一臺計算機,無需雙方操作系統的介入。單一RDMA打造了高吞吐、低延遲的網絡通信,尤其適合在大規模并行計算機集群中使用。
感謝xAI,X團隊,英偉達以及其他廠商的支持|X@elonmusk
單從規模來看,xAI孟菲斯超算中心已經在算力上躋身世界第一,不僅遠遠超過了OpenAI用來訓練GPT-4的2.5萬塊A100 GPU,也超越了Aurora(60,000 個 Intel GPU)和Microsoft Eagle(14,400 個 Nvidia H100 GPU),甚至超過了此前的世界第一超算Frontier(37,888 個 AMD GPU)。
H100是英偉達專為處理大型語言模型數據而開發的芯片,每塊芯片價格大概在3萬美元左右,也就是說xAI這次建的超算中心僅是芯片的價值就高達30億美元。
此前,馬斯克的xAI一直不溫不火,xAI推出的人工智能Grok也經常被大家吐槽不好用,但以目前的狀況來看,大模型訓練就是一場算力游戲,再往下深究是能源游戲,而馬斯克不愿意再等了,直接把料堆滿。
他表示,改進后的大模型(不出意外的話是Grok3)會在今年年底完成,屆時它將會是世界上最強大的AI。
2014年的馬斯克:我們正在召喚AI惡魔;2024年的馬斯克:我要自己召喚AI惡魔!!|X@JoshWhiton
其實,英偉達已經推出了新一代的H200芯片和基于Blackwell新架構的B100和B200 GPU,但是更先進的芯片要在今年年底才能出貨,而且也不能一下變出幾萬張來,也許是為了搶在ChatGPT5之前成為世界最強,馬斯克這次比平時更加大干快上。
據福布斯稱,今年3月馬斯克才在孟菲斯敲定這項協議,之后這座超算基地幾乎立即開工。為了加快速度,馬斯克從甲骨文借了2.4萬塊H100。
然而如前文所說,目前的大模型訓練歸根結底是能源游戲,而美國的電網系統相當陳舊,已經有幾十年沒有見證過大規模增長,尤其是AI訓練的用電結構和民用商用電很不一樣,經常會突然出現超高的用電波峰,極大地挑戰電網的最大負荷。在這種情況下能擠出電力水力資源支持超算中心的地方所剩無幾。
據孟菲斯電力、天然氣和水務公司的首席執行官估計,xAI孟菲斯超算集群每小時使用的電力最高會達到150兆瓦,相當于10萬戶家庭的用電量。
目前孟菲斯工廠有3.2萬塊GPU在線,預計今年第四季度供電建設將會完成,工廠將會全速運行。
也難怪會有人質疑馬斯克在撒謊,因為這個電力要求和這個建設速度實在是太不可思議了。
后來質疑馬斯克的人道歉了,他發現馬斯克真的辦到了|DylanPatel@X
除了用電之外,xAI超算集群預計每天至少需要100萬加侖(約379萬升)的水來散熱。
據福布斯報道,孟菲斯市議會議員Pearl Walker上周表示:“民眾很害怕。他們擔心水資源可能出現問題,也擔心能源供應出現問題。”她說,目前數據中心預計每天需要從孟菲斯的地下蓄水層,也就是該市的主要水源中抽取492萬升(該市每天總共消耗大約5.68億升水)。雖然他們說這只是暫時的,但新的灰水工廠的建造計劃還沒定,孟菲斯的公用事業部門也證實,在處理廠建成運行之前,馬斯克的超級計算機將被允許使用地下蓄水層的水。
除了馬斯克,OpenAI和微軟也在部署更大規模的超算,這臺名叫“星際之門”的超算芯片數量會達到百萬級,成本預計高達1150億美元,計劃在2028年推出。
今年四月,OpenAI把微軟電網搞崩潰了,據微軟工程師說,他們當時正在為GPT-6部署10萬個H100訓練集群,不知道馬斯克會不會成為第一個讓10萬個H100一起工作的人呢?
作者:翻翻
編輯:odette
封面圖來源:datacenterdynamics
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.