AM易道分享
昨天的文章關(guān)于3D打印散熱的:
熱阻、壓降、PUE、所謂1GW數(shù)據(jù)中心釋放344MW。
參數(shù)數(shù)字硬,但文章讀起來還是抽象的。
所以我們花了一些時間,試圖把這篇論文做成一個網(wǎng)頁游戲。
下面想和大家分享的是這個過程,怎么從一篇論文一步步想到現(xiàn)在這個版本,以及讀者打開游戲能玩到什么。
最初的想法做一個儀表盤
最直覺的做法當然是儀表盤。
一堆滑塊,調(diào)流量、調(diào)入口溫度、調(diào)泵轉(zhuǎn)速,實時可以算溫度PUE和溫度。
![]()
我們玩了五分鐘,就放棄了。
毫無游戲感,游戲需要沖突。
溫度漲上來要燒GPU,必須有一個明確的、玩家能看見的對手或目標。
第二個想法做成憤怒小鳥
玩家拉弓蓄力,水珠飛出去撞GPU降溫。
這是mobile游戲最容易上手的玩法。
![]()
視覺上挺好玩,發(fā)射有手感,命中有反饋。
但調(diào)著調(diào)著發(fā)現(xiàn)兩件事不對。
散熱不是離散事件,是連續(xù)過程。
真實冷板里水是24小時不停流的,不是玩家拉一次發(fā)一波。
拓撲冷板居然在游戲里成了劣勢。
![]()
調(diào)參數(shù)的時候發(fā)現(xiàn),拓撲優(yōu)化的銅針翅結(jié)構(gòu)會把水流打得到處彈,反而到不了GPU。
原因是彈弓模式里我們把流場擾動建模成了水被打散,反了。
游戲機制錯了,參數(shù)怎么調(diào)都救不回來,準備換個機制。
找到合適機制,連續(xù)粒子流
第三版的想法很簡單,水是流動的,不是彈射的。
![]()
冷板有三個入口,每幀持續(xù)噴射粒子,粒子數(shù)量由一個全局流量滑塊控制。
粒子在畫布里飛,撞到針翅就給那顆GPU的散熱能力加一些。
散熱跟不上發(fā)熱,溫度就漲;跟得上,溫度就降。
這個機制有幾個好處。
溫度往哪里走、走多快、玩家拉一下滑塊多久能看到效果,都是連續(xù)的、有反饋的。
而且滑塊和游戲世界直接對應,拉大流量,畫面里粒子立刻變密;
切換工藝,針翅形狀立刻變化。
![]()
讀者不需要看HUD,光看畫面就能感受到自己干了什么。
更重要的是需要自然涌現(xiàn)出工藝差異。
CNC是直水道,比表面面積低散熱效率低,不過流阻也低很明顯。
3D打印(SLM/ECAM)的各類針翅膀,水粒子被打得有擾動但每顆GPU區(qū)都被覆蓋到。
這種差異不需要我們額外寫規(guī)則,通過粒子的自然運動能大差不差的模擬。
但這個版本上線后,又發(fā)現(xiàn)問題。
被糾正的物理細節(jié)
我們一開始讓GPU直接被水粒子撞。
但實際是GPU通過導熱界面材料把熱傳給銅底板,銅底板把熱擴散到針翅,水流沖針翅才是真正的對流換熱。
GPU自己根本不接觸水。
這次重寫做了三件事,把GPU畫成半透明矩形浮在冷板表面、給針翅加字段標記它屬于哪顆GPU、粒子撞這些歸屬針翅時給對應GPU散熱。
雖然不是真實的物理傳熱原理但修完之后畫面終于和真實冷板物理的感覺差不多對得上了。
現(xiàn)在打開游戲能玩到什么
三入口連續(xù)水流、可選8款真實GPU、4種制造工藝、實時熱阻。
![]()
游戲現(xiàn)在是一個自由實驗臺。
打開就是默認場景:四顆NVIDIA H100,SLM冷板,40%流量。
這時候GPU溫度會緩慢漲,提示你必須做點什么。
可以做的事情有四件.
選GPU型號。
8款真實數(shù)據(jù)中心芯片:
![]()
發(fā)熱速率按比例計算。
選制造工藝。
四種內(nèi)部結(jié)構(gòu)CNC直水道、SLM粗針翅、ECAM精細方塊、ECAM拓撲(論文方案)。
![]()
切換的時候不只是參數(shù)變,畫面里的針翅也立刻重建。
CNC模式畫三條平行水道,ECAM-TO是密集分叉造型,一眼能看出誰的比表面積大。
![]()
![]()
調(diào)冷卻水流量滑塊。
從0到100%。
![]()
流量越大粒子越密、散熱越好,但泵功耗以平方關(guān)系上漲。
這是真實冷板里最重要的工程取舍。
HUD實時顯示泵功耗,超過250W會變紅警告。
點擊放置/刪除GPU。
最多12顆。
![]()
下游GPU易比上游熱。
有些數(shù)據(jù)中心如果散熱系統(tǒng)設(shè)計的不好是存在上下游不均勻的問題的,游戲里通過粒子的能量衰減自然涌現(xiàn)。
游戲右上角的五格 HUD 會實時算幾個數(shù):
最熱GPU溫度(帶 ↑ ↓ 趨勢箭頭)、已穩(wěn)定GPU數(shù)量、泵功耗、比表面積、熱阻R_th。
![]()
幾個建議玩法
進游戲后可以試試這幾條。
默認配置切到CNC。
看溫度怎么飆,300%流量下幾B300配CNC冷板,幾秒開始爆溫,燒了好幾塊。
![]()
這就是論文的核心信息,傳統(tǒng)冷板上不了下一代GPU。
默認配置切到ECAM-TO。
50%流量輕松穩(wěn)住,同樣GPU配置,工藝一變,操作空間不一樣。
![]()
每次切換都可以看HUD數(shù)字怎么變,看針翅畫面怎么變,看粒子尾跡怎么變。
這個游戲的邊界
想說一下游戲不能做的事,避免誤會。
它不是Fluent,不是Flotherm,不是任何專業(yè)仿真CFD軟件的簡化版。
專業(yè)軟件做的是真實物理場仿真,結(jié)果可以和實驗對照。
我們做的是幾百個粒子在畫布上飛,撞針翅時計數(shù)器加一,物理上至少差三個數(shù)量級。
游戲里的R_th熱阻數(shù)字只能橫向?qū)Ρ裙に囬g相對差距,不能當真實測量值。
游戲的價值我們認為是直覺訓練。
比如拉一下流量你就知道泵功耗平方關(guān)系;
切一次制造工藝就看到比表面積怎么影響散熱效率;
多放幾顆B300就明白數(shù)據(jù)中心得用新型散熱。
AM易道的游戲不會讓你成為散熱工程師。
但下次再有人討論散熱、銅、冷板,你大概率能分得清哪些話有內(nèi)容,哪些只是數(shù)字游戲。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.