在「賣盒子」領域,今年火了兩樣產品。
上半年火的是大模型一體機,下半年火的是“又大又猛”的超節點。
![]()
一眾大廠紛紛推出自家的超節點,但是,隨著超節點的發布和落地,爭議也越來越多(以下按發布順序簡列)。
![]()
今天我們就系統地講講,超節點到底中用不中用?
什么是超節點?
首先,我們要明確一點,一臺標準服務器是插不了太多GPU卡的,16卡是極限。
這主要受限于CPU的PCIe通道數以及工程因素(比如機箱空間、散熱、供電)。
![]()
所以,這類傳統服務器,以前叫GPU Server、AI服務器,現在又預裝大模型,被稱作AI一體機、大模型一體機。
今年上半年涌現的各種一體機,基本都是這種情況。
![]()
如果想要突破上面那種限制,插更多卡怎么辦呢?
就必須要在卡間互聯方面整點黑科技↓
用專門的Scale-Up網絡(高帶寬、低時延、強一致、內存語義、對等直出互聯,RoCE、IB都不行),把更多的卡連在一起,定制成一臺更大的“機器”。
![]()
一般來說,16卡以上,基于Scale-Up網絡實現GPU-GPU互聯的系統,我們就可以稱之為超節點了。
![]()
為什么需要超節點?
先講一個事實:
目前大模型的場景,沒有什么8卡機干不了的。如果一臺不夠,那就多臺組團(Scale-Out)干。
比如,即便是遇到當下參數超大的模型,基于MoE架構,需要張量并行、專家并行……,單臺8卡/16卡機遭遇顯存墻扛不動。
![]()
但仍然可以采用組團的方式,多臺機器基于IB或者RoCE網絡形成Scale-Out集群,把切割后的模型(張量并行、專家并行)分擔扛起來。
![]()
但是,這種組團是有代價的,機器間的網絡互聯帶寬和延遲都無法與一臺機內部的連接相比。
內循環和外循環的效率差距很大。
![]()
這種帶寬和延遲的巨大差距,讓每個8卡機上的顯存、內存只能獨立作戰,無法形成跨節點、統一的顯存池、內存池。
此時,遇到張量并行、專家并行這種跨卡通信開銷很大的場景,訓推效率就會打折扣。
![]()
超節點就不一樣了,由于采用了專用的Scale-Up互聯標準(NVLink或其他開放標準比如UALink),天塹變通途了。
超節點內所有的卡之間可以直接進行讀/寫/原子操作,從而形成更大的單體內存/顯存域,就好比組成了一個巨型顯卡,核心超多、顯存容量超大。
![]()
這樣,超節點各GPU之間就可以進行高頻數據交換和控制命令交互,絲滑地像一張卡。
面對超大參數的模型、復雜的張量并行或者專家并行策略,夸張的all-to-all、all-reduce通信開銷,更大的KV Cache壓力,超節點都可以輕松駕馭。
![]()
超節點越大越好嗎?
既然超節點這么牛掰,那就盡量往大里整唄?是不是單個節點越大越好呢?
先說結論,單個超節點的規模并非越大越好,千萬不能這么整。
![]()
![]()
小有小的缺點,大有大的劣勢,超節點太大,會帶來的以下弊端:
①成本:
Scale-Up的網絡成本(比如NVSwitch或者其他新生代互聯技術),本身就高于Scale-Out的網絡成本(RoCE或者IB交換機)。
而節點越大,卡間全互聯的線纜就越復雜,距離也會更大,線纜密度和距離會進一步增加成本,這種成本的增加不是線性的。
![]()
②故障率與爆炸半徑:
單個節點規模越大,內部關鍵器件和連接就越多,潛在的故障點也會隨之增多,比如大規模的光互聯。
故障風險也會隨之增大,而且為提高容錯性付出的成本也會更高。
![]()
同時,單個節點的故障域也會變大,一旦發生故障,會波及更大范圍。
![]()
![]()
③可維護性與可交付性
太大的超節點,高規格的定制機箱、散熱、供電、冗余設置,往往需要特殊的定制化,不僅增加了Capex成本,也大大增加了交付和運維的成本。
甚至,傳統機房的空間、承重、制冷和供電,要經過一番傷筋動骨的改造,才能Hold得住大尺碼超節點。
![]()
所以,超節點雖好,可不要貪大哦。
如何尋求最佳平衡點
超節點很好,但太大的超節點又有一堆麻煩事,到底多大合適呢?
有一條鐵律↓
超節點產品商業化落地的唯一考量,是每Token成本。
提升算力利用率是建設AI Infra的關鍵,而不是盲目買個大家伙擺在家里鎮場子。
![]()
前面我們說過,目前沒有什么場景是8卡機用Scale-Out方案搞不定的。
但搞得定≠搞得好,因為我們需要用每Token成本來評估好壞。
![]()
那些對節點間通信延遲敏感的場景,比如以DeepSeek為代表的大尺寸MoE模型,通信量大、時延要求苛刻。
用超節點來跑,才有機會獲得最大化收益(每Token成本更低)。
![]()
至于單個超節點多少卡合適?其實取決于主流模型的特點。
在當下國內企業級本地部署場景,DeepSeek推理仍然是應用最廣泛的,MoE架構專家并行、P/D分離部署。
需要綜合考慮互聯成本、通信開銷、互聯可靠性,再結合國產卡的性能最終得到一個甜點區。
![]()
根據目前的工程經驗,在這類場景實際落地中,單節點32卡-64卡是一個相對不錯的選擇。
比如,以典型的32卡超節點為例,32路專家并行,把大規模跨卡通信都壓縮在一個機框內。
![]()
針對這樣的Case,新華三用自家超節點UniPod S80000,給出了實際實際落地參考,實戰效果相當不錯。
![]()
確定了最佳的Scale-Up域,接下來,我們可以再根據實際需求,把多臺超節點,用RoCE網絡組成Scale-Out集群,滿足更大的并發和彈性需求。
這種架構不僅能獲得最優的每Token成本,而且運維、部署簡單,具備極佳的可擴展性和準線性性能增長。
![]()
當然,我們也應該看到,當前的大模型產品和技術正在以月甚至以周為單位高速迭代,今天的最優架構可能明天就落伍了。
未來的主流模型是否還是Transformer架構,MoE會不會永遠適用,Scaling Law還能持續多久,一切都尚無定論。
所以,8卡機與超節點之爭、小節點與大節點之戰,會長期存在,讓我們與時俱進、且戰且看吧。
簡單給本文做個總結
①、超節點能干的大模型業務,普通8卡機(Scale-Out方案)都能干;
②、只有跨卡通信開銷大的場景,超節點跑起來才有優勢;
③、超節點落地的唯一標準是算力利用率和每Token成本,不要被情緒價值(高端、大氣、上檔次)左右了你的選擇。
④、超節點的Scale-UP域并非越大越好,“大”意味著更高的額外成本、更大的爆炸半徑、更復雜的運維和部署,以及產品鎖定風險。
⑤、基于目前國內企業級場景和模型生態,32-72卡超節點是相對最優落地選擇,更高算力利用率,并綜合考慮擴展性、可維護性、故障域、國產化因素。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.