被稱為"HBM之父"的韓國科學(xué)技術(shù)院(KAIST)金正浩教授拋出一個(gè)顛覆認(rèn)知的判斷:AI的本質(zhì)是內(nèi)存,而不是GPU。
近日,韓國科學(xué)技術(shù)院(KAIST)電氣工程系教授金正浩接受視頻專訪,圍繞HBM技術(shù)演進(jìn)、AI算力格局和未來半導(dǎo)體架構(gòu)作出系統(tǒng)性闡述。金正浩被業(yè)界稱為"HBM之父",早在2010年代初期便與SK海力士合作參與HBM1開發(fā),此后主導(dǎo)了一系列底層架構(gòu)研究。此次訪談內(nèi)容在科技與投資圈廣泛流傳,核心觀點(diǎn)直指當(dāng)前AI算力競賽的結(jié)構(gòu)性矛盾。
![]()
金正浩在訪談中直接給出了一個(gè)令人震動的數(shù)字:
"GPU裝100萬臺,真正工作的時(shí)間只有10%。"
他解釋,每當(dāng)ChatGPT輸出一個(gè)詞,系統(tǒng)就需要從HBM中讀取數(shù)據(jù)、完成計(jì)算、再寫回內(nèi)存,"讀和寫幾乎占掉了全部時(shí)間,GPU就在旁邊干等著。"即便通過算法優(yōu)化,GPU利用率也很難突破30%。
這正是他多年堅(jiān)持的核心論斷的現(xiàn)實(shí)依據(jù):"AI等于內(nèi)存(AI = Memory)。"
一、為什么GPU遇到了"外通死局"
金正浩對英偉達(dá)(NVIDIA)現(xiàn)狀的判斷措辭犀利。他說,黃仁勛近期頻繁訪問韓國、參加綜藝、吃炸雞喝啤酒、會見各路人士,"這么多會面背后,說明他不安心"。
"GPU的技術(shù)性成長已經(jīng)快停了,這是我的判斷。人工智能計(jì)算機(jī)的進(jìn)化,掌握在內(nèi)存手里。"
他的邏輯鏈條清晰:GPU想提升性能,只能擴(kuò)大芯片面積、堆更多計(jì)算單元;但GPU太熱,必須在背面安裝散熱裝置,因此無法像內(nèi)存一樣垂直堆疊。"GPU陷入了外通死局(外通手? ?? ??)。"
相比之下,從訓(xùn)練時(shí)代轉(zhuǎn)向推理時(shí)代,內(nèi)存的重要性正在被重新定價(jià)。金正浩說:"推理時(shí)代,更重要的是往AI里塞進(jìn)多少數(shù)據(jù),而決定這一點(diǎn)的半導(dǎo)體是內(nèi)存。"
他進(jìn)一步指出,AI能力的競爭最終是內(nèi)存能力的競爭:"谷歌Gemini、OpenAI、Anthropic Claude,誰更強(qiáng),是由內(nèi)存決定的——這是我的主張。"
二、HBM的兩大核心:容量與帶寬
金正浩將HBM的價(jià)值歸結(jié)為兩個(gè)維度。
第一是容量。隨著上下文工程(context engineering)、多模態(tài)輸入和Agentic AI的到來,內(nèi)存需求以每年翻倍的速度增長,"10年就是1000倍"。傳統(tǒng)方式靠縮小晶體管來增容,但如今已逼近量子力學(xué)邊界,幾乎無法繼續(xù)縮小,因此必須"向上堆疊"。
第二是帶寬。金正浩打了個(gè)比方:"傳統(tǒng)內(nèi)存如果是8車道高速公路,HBM是1024車道,現(xiàn)在是2048車道,幾年后可能達(dá)到100萬車道。" 靠并行通道同時(shí)傳輸海量數(shù)據(jù),才能匹配AI計(jì)算的速度需求。
三、HBF:NAND閃存的堆疊時(shí)代
HBM解決了速度問題,但容量依然有天花板。金正浩在訪談中詳細(xì)闡述了他認(rèn)為的下一條技術(shù)路線——HBF(High Bandwidth Flash)。
簡單說,HBF就是把NAND閃存像HBM一樣垂直堆疊。DRAM速度快但容量有限,NAND閃存容量大、可長期保存數(shù)據(jù),速度雖然慢一些,但在推理場景中足夠滿足"冷數(shù)據(jù)"的存儲需求。
金正浩認(rèn)為,未來HBM和HBF將形成共存格局,類似于城市規(guī)劃:"就像有百貨商場,周圍有復(fù)式公寓、普通住宅,各種形態(tài)的HBM、HBF組合在一起,形成復(fù)合體,向GPU供給數(shù)據(jù)。"
他作出了一個(gè)明確的長期預(yù)判:"現(xiàn)在是HBM的時(shí)代,但10年后,NAND閃存和HBF的市場需求將超過HBM。三星和SK海力士必須為HBF時(shí)代做好準(zhǔn)備。"
他指出,目前正在開發(fā)HBF的公司包括SK海力士、閃迪、三星電子,以及日本的鎧俠(Kioxia)。鎧俠市值最近超過了豐田汽車,成為日本股市第一,閃迪股價(jià)持續(xù)上漲,而三星和SK海力士則在韓國市場維持市值領(lǐng)先地位。
四、HBS:更超前的第三條路
金正浩還提出了一個(gè)目前仍屬于前沿概念的設(shè)想——HBS(High Bandwidth SRAM)。
SRAM(靜態(tài)隨機(jī)存儲器)比DRAM快約1000倍,但密度低、成本高,傳統(tǒng)上只能作為芯片內(nèi)的小容量緩存。金正浩的思路是:把整張12英寸晶圓全部做成SRAM,再垂直堆疊12至16層,就能將容量從100GB擴(kuò)展到1600GB。
"這樣速度快1000倍,容量又足夠,那就說得通了。"
他描述的終極AI芯片形態(tài)是一棟"100層3D大樓":"HBM、HBF、HBS各自構(gòu)成多層建筑,GPU放在頂層負(fù)責(zé)散熱冷卻,這就是未來AI計(jì)算機(jī)不可避免的3D半導(dǎo)體結(jié)構(gòu)——這是我現(xiàn)在的判斷。"
他同時(shí)坦言,這條路最大的工程挑戰(zhàn)不是計(jì)算,而是供電與散熱:"要給GPU和堆疊內(nèi)存供幾千安培的電,電力供應(yīng)網(wǎng)絡(luò)的設(shè)計(jì)將是最難的技術(shù),這也將成為企業(yè)間真正的核心競爭力。"
五、定制HBM:甲乙關(guān)系正在逆轉(zhuǎn)
金正浩專門談到了HBM4帶來的供需結(jié)構(gòu)變化。
過去,內(nèi)存是標(biāo)準(zhǔn)化產(chǎn)品,廠商先生產(chǎn)、客戶再選購,買家主導(dǎo)價(jià)格,庫存風(fēng)險(xiǎn)由內(nèi)存廠商承擔(dān),這就是"內(nèi)存周期"的本質(zhì)。
但從HBM4開始,由于需要根據(jù)英偉達(dá)、谷歌、AMD等客戶的加速器架構(gòu)量身設(shè)計(jì)(即"定制HBM"),內(nèi)存廠商必須在研發(fā)之初就拿到客戶的數(shù)量承諾,才會啟動開發(fā)——也就是所謂的"長期協(xié)議(Long-term Agreement)"。
"AI企業(yè)太需要高性能HBM了,所以他們排隊(duì)來。供應(yīng)方開始決定價(jià)格,這是范式的轉(zhuǎn)變。"
他還預(yù)期,未來HBM芯片內(nèi)將集成通信功能,實(shí)現(xiàn)"HBM之間相互通話",形成類似聯(lián)盟的結(jié)構(gòu):"我們自己溝通,誰對我們更好,就給誰更多內(nèi)存;不聽話的GPU,就不分配。"
這進(jìn)一步抬升了內(nèi)存廠商的系統(tǒng)性地位。
六、三星、海力士是唯一能同時(shí)做兩件事的公司
金正浩在訪談中反復(fù)強(qiáng)調(diào),全球范圍內(nèi)能同時(shí)量產(chǎn)DRAM(HBM)和NAND閃存(HBF)的公司,目前只有三星電子和SK海力士。
"閃迪和鎧俠雖然股價(jià)沖天,但只能做HBF,做不了HBM。三星和SK海力士擁有引領(lǐng)未來最強(qiáng)大的工具。"
當(dāng)被問及三星與SK海力士今年合計(jì)營業(yè)利潤500萬億至600萬億韓元的預(yù)測是否現(xiàn)實(shí),金正浩回答:"現(xiàn)實(shí)的。" 他補(bǔ)充說,他經(jīng)常與兩家公司的高管進(jìn)行技術(shù)交流,"他們的眼神越來越亮了。"
不過他也指出競爭壓力真實(shí)存在,美光、閃迪獲得來自英偉達(dá)和谷歌的訂單分流。
七、AI PC與AI手機(jī):內(nèi)存決定設(shè)備價(jià)格
金正浩還將內(nèi)存需求的敘事延伸至終端設(shè)備。
他預(yù)測,未來AI PC要真正實(shí)現(xiàn)個(gè)人AI計(jì)算,所需內(nèi)存規(guī)模將使"一臺PC的價(jià)格達(dá)到1000萬韓元,內(nèi)存價(jià)格決定PC價(jià)格"。而AI智能手機(jī)售價(jià)300萬至500萬韓元中,200萬至300萬韓元將是內(nèi)存的價(jià)格。
"AI基礎(chǔ)設(shè)施、AI模型的持續(xù)進(jìn)化,需要越來越多的內(nèi)存。AI PC和AI手機(jī),是這個(gè)趨勢的另一條主線。"
八、Agentic AI與物理AI:內(nèi)存需求還將暴增1000倍
金正浩對AI演進(jìn)方向的判斷同樣值得關(guān)注。他認(rèn)為,隨著Agentic AI(智能體AI)和Physical AI(具身AI/物理AI)的到來,內(nèi)存使用量將比現(xiàn)在高出約1000倍。
"AI代理24小時(shí)工作,不像人類還要睡覺,工作量暴增,內(nèi)存需求自然跟著爆炸。那時(shí)候不是HBM,而是需要'超級HBM'的時(shí)代了。"
九、研究之路:50年積累,"運(yùn)氣"說
金正浩在訪談結(jié)尾追溯了自己的學(xué)術(shù)路徑。他1993年獲得博士學(xué)位,研究方向是飛秒(femtosecond)級超快電信號測量,導(dǎo)師數(shù)年前獲得諾貝爾物理學(xué)獎(jiǎng)。1994年他加入三星電子內(nèi)存事業(yè)部,1996年回到KAIST,此后持續(xù)深耕內(nèi)存與HBM基礎(chǔ)研究約10年,才形成商業(yè)產(chǎn)品。
2015年,他在一次校內(nèi)會議上第一次聽到"深度學(xué)習(xí)"這個(gè)詞,隨即意識到AI算法與HBM架構(gòu)背后用的是同一套數(shù)學(xué)——線性代數(shù)和矩陣運(yùn)算。"我在大學(xué)二年級特別喜歡矩陣,兩邊恰好用的是一樣的數(shù)學(xué)——這就是運(yùn)氣。"
他笑言,當(dāng)初做HBM時(shí)想的是用在電視機(jī)上讓畫面更生動,完全沒想到會成為AI時(shí)代的基礎(chǔ)設(shè)施:"那時(shí)候不知道,這也可以說是運(yùn)氣。"
以下為訪談文字實(shí)錄有刪減(由AI協(xié)助翻譯)
金正浩: HBM、HBF、HBS將組成一棟百層大樓,GPU則位于最頂層,進(jìn)行散熱等。我認(rèn)為,這種3D半導(dǎo)體結(jié)構(gòu)是未來AI計(jì)算機(jī)不可避免的架構(gòu)。而其中最困難的技術(shù)之一,就是供電。需要供應(yīng)數(shù)千安培的電流,因此電力供應(yīng)網(wǎng)絡(luò)的設(shè)計(jì)將是最困難的。這將成為核心技術(shù)競爭力。
主持人: 被稱為“HBM之父”的KAIST金正浩教授來到了我們的節(jié)目。您好!
金正浩: 您好,很高興見到您。感謝您的邀請。
主持人: 謝謝您抽出時(shí)間。
金正浩: 不客氣。(笑聲)
主持人: 我們得先從HBM聊起。實(shí)際上,HBM真正開始量產(chǎn)和應(yīng)用,也不過大概兩年的時(shí)間,對吧?HBM3是這樣。HBM1的話,從2010年代開始,我就和SK海力士一起參與了,當(dāng)時(shí)GPU方面有NVIDIA和AMD。所以HBM1是在2010年代初期開始的,但那時(shí)它是用于顯卡的。
主持人: 教授您獲得博士學(xué)位是在1990年代,對吧?
金正浩: 是的。
主持人: 但您在2010年HBM最初被開發(fā)出來時(shí),就早早地開始了相關(guān)研究。
金正浩: 是的。我在1993年獲得博士學(xué)位,當(dāng)時(shí)的研究更偏向物理學(xué)。我制造了當(dāng)時(shí)世界上最快的、用激光來測量電信號的示波器。我的導(dǎo)師幾年前獲得了諾貝爾物理學(xué)獎(jiǎng)。當(dāng)時(shí)我制造的設(shè)備可以觀測到飛秒(幾乎靜止的光)級別的極端時(shí)間現(xiàn)象。如今隨著AI的發(fā)展,需要處理海量數(shù)據(jù),數(shù)字電路的運(yùn)行速度已經(jīng)達(dá)到了皮秒甚至飛秒級別。所以30年前博士期間的研究現(xiàn)在都派上了用場。
不過,當(dāng)時(shí)研究的領(lǐng)域非常狹窄和深入,而我的性格更傾向于與社會交流和溝通。所以當(dāng)時(shí)我就想,未來內(nèi)存會變得很重要。抱著這個(gè)想法,我在1994年加入了三星電子的內(nèi)存事業(yè)部。從那時(shí)起,我就一直在學(xué)習(xí)和研究內(nèi)存。1996年我來到KAIST,大約到2010年,HBM前期的基礎(chǔ)研究持續(xù)進(jìn)行了大約10年,然后才作為產(chǎn)品應(yīng)用到了HBM上。
HBM所需的各種技術(shù),如量子力學(xué)、半導(dǎo)體物理、數(shù)學(xué)等,其實(shí)都是大學(xué)二、三年級時(shí)學(xué)過的科目。特別是需要大量的線性代數(shù)知識,那是我在1981年學(xué)習(xí)的,能一直應(yīng)用到現(xiàn)在。HBM不斷推陳出新,我們實(shí)驗(yàn)室甚至提出了到HBM8為止、為期30年的路線圖。這么算下來,從最初研究到現(xiàn)在,差不多有50年了。
主持人: 您在最初研究和思考HBM概念時(shí),就預(yù)料到人工智能時(shí)代會到來,并且HBM會成為其核心嗎?
金正浩: 沒有,當(dāng)時(shí)AMD和NVIDIA是打算把它用在顯卡上。顯卡所需的數(shù)學(xué)和人工智能所需的數(shù)學(xué)是一樣的。所以HBM后來成了AI的核心部件,但最初NVIDIA方面認(rèn)為它只是用在顯卡上。而我當(dāng)時(shí)想,韓國電視產(chǎn)業(yè)很發(fā)達(dá),所以想把這種芯片放進(jìn)電視里,讓電視畫面更華麗、更生動、更逼真,因此我最初是考慮用在電視上的。
大約2015年,在大學(xué)里和一些年輕教授開會時(shí),他們用到了“深度學(xué)習(xí)”這個(gè)詞,那是AI的早期階段。當(dāng)時(shí)我只是覺得“哦,還有這種技術(shù)啊”,半開玩笑地聊著,只有我沒聽懂。所以從那時(shí)起,大概2015年,我實(shí)際上就把專業(yè)方向轉(zhuǎn)向了AI。雖然表面上是研究HBM的實(shí)驗(yàn)室,但我個(gè)人從2015年開始完全轉(zhuǎn)向了AI研究。研究幾年后發(fā)現(xiàn),AI算法和HBM簡直是天作之合。我當(dāng)時(shí)就覺得,這會在AI領(lǐng)域得到爆發(fā)式應(yīng)用。
那時(shí)候主要用在CNN(攝像頭物體識別)上,稍后是強(qiáng)化學(xué)習(xí)(比如下圍棋),這些應(yīng)用都需要大量矩陣運(yùn)算,所以需要HBM。但像現(xiàn)在這樣徹底爆發(fā),大概是在2020年代初ChatGPT出現(xiàn)的時(shí)候。未來AI將向Agentic AI發(fā)展,一部分也會走向Physical AI。從算法上看,Agentic AI或Physical AI的內(nèi)存使用量可能會比現(xiàn)在增加1000倍。那樣的話,就需要HBM的升級版“Ultra HBM”的時(shí)代了。所以我們也有一些其他的想法。總之,一開始我并不知道會這樣,可以說是一種運(yùn)氣。因?yàn)槲掖髮W(xué)二年級時(shí)就非常喜歡線性代數(shù),而兩者用的數(shù)學(xué)是相同的。
主持人: 我理解HBM就是將多個(gè)DRAM堆疊起來,我的理解正確嗎?
金正浩: 是的,正確。無論是顯卡還是AI,在進(jìn)行計(jì)算時(shí),都需要快速從內(nèi)存中讀取數(shù)據(jù)。HBM之所以必要,有兩個(gè)原因。第一是容量要大。特別是AI正在向上下文工程、多模態(tài)、Physical AI發(fā)展,需要在內(nèi)存中累積的數(shù)據(jù)量越來越大。可能每年翻一番,十年就是1000倍。要增加內(nèi)存容量,就需要不斷縮小晶體管或存儲單元,但由于單元間的干擾和漏電現(xiàn)象,我們已經(jīng)接近了量子力學(xué)的極限,難以再縮小。所以容量很難增加。
因此我在2000年代初就認(rèn)為,未來的內(nèi)存必須堆疊起來。從那時(shí)起,我們就主張“堆疊”而非“平面”。當(dāng)時(shí)大多數(shù)人都設(shè)計(jì)單層半導(dǎo)體,而我們的設(shè)計(jì)方向是堆疊。當(dāng)然我們側(cè)重設(shè)計(jì),三星和SK海力士負(fù)責(zé)具體實(shí)現(xiàn),但最終產(chǎn)品化的結(jié)果就是HBM。第二個(gè)原因是,即使容量大,也必須能快速將數(shù)據(jù)傳輸給GPU。這樣才能快速響應(yīng)我們,處理文檔、文字,甚至最近需要制作電影。要提高速度,需要并行傳輸數(shù)據(jù)的技術(shù)。就像高速公路從8車道變成了1024車道,最近是2048車道,幾年后可能變成百萬車道。
所以HBM的核心是:通過堆疊增加容量,同時(shí)通過安裝“電梯”和“高速公路”結(jié)構(gòu),以光速(比傳統(tǒng)內(nèi)存快千倍、百萬倍)傳輸數(shù)據(jù),這就是所謂的并行結(jié)構(gòu)。
主持人: 提到HBM,也常聽到HBF。HBF是什么,和HBM有何不同?
金正浩: 通用內(nèi)存主要有兩種:DRAM和NAND Flash。DRAM速度快但無法長期存儲;而NAND Flash容量大(大約是DRAM的10倍),速度慢一些,但能長期保存,主要用于相機(jī)等設(shè)備。但剛才提到的HBM雖然堆疊了,容量仍然不足。最近因?yàn)樯舷挛墓こ蹋駻I輸入時(shí)不僅用文本,還附帶參考文件、YouTube視頻等,視頻圖像文件暴增,內(nèi)存容量需求比現(xiàn)在更大。計(jì)算過程中的中間結(jié)果(KV Cache)也需要全部存儲。
進(jìn)入Agentic AI時(shí)代,我可能會雇傭10個(gè)或100個(gè)AI替我工作,AI的工作量是我的100倍,而且它們24小時(shí)工作,不像我們會睡覺休息,所以工作量劇增,內(nèi)存需求也隨之增加。即便堆疊了DRAM,容量還是不夠,所以想到了堆疊NAND Flash,這就是HBF。目前開發(fā)HBF的公司有SK海力士、Sandisk、三星電子,日本的Kioxia可能也在開發(fā)。最近Kioxia的市值甚至超過了豐田,成為日本股市第一。美國制造NAND Flash或HBF的Micron和Sandisk股價(jià)也持續(xù)上漲,韓國制造這些的三星和SK海力士市值排名前列。
緊挨著GPU的內(nèi)存有兩種:HBM和HBF,也叫“熱內(nèi)存”;而用于長期記錄AI關(guān)于用戶信息的設(shè)備叫“冷內(nèi)存”,兩者需求都在增長。長遠(yuǎn)來看,大約10年后,NAND Flash和HBF的市場需求增長可能會超過HBM。所以現(xiàn)在雖然是HBM時(shí)代,但三星、SK海力士也要為HBF時(shí)代做好準(zhǔn)備,這是我的主張。
主持人: 您曾提到2038年左右HBM可能會發(fā)展到第八代。
金正浩: 是的。
主持人: 那時(shí)HBM和HBF都將進(jìn)入商業(yè)化階段,兩者是互補(bǔ)關(guān)系,還是競爭關(guān)系?
金正浩: 兩者是互補(bǔ)的。HBM4今年推出,幾年后HBM5會出來,大約每三年換一代,10年后會到HBM8。那時(shí)HBM和HBF將一起使用。HBM容量雖小但速度快,HBF速度稍慢,也有一些物理局限性,但容量巨大。如果HBM容量不夠,旁邊會配上HBF,兩者并非單一存在,而是類似公寓樓群:中心有百貨商店(HBM),周圍有公寓樓群(HBF)。各種形態(tài)的HBM和HBF會組成一個(gè)綜合體,相互連接,為用戶提供數(shù)據(jù)。總?cè)萘糠矫妫琀BF可能比HBM更大。
主持人: 歸根結(jié)底,就是堆疊DRAM還是NAND Flash的區(qū)別,兩者缺一不可。
金正浩: 是的,全球能同時(shí)做這兩種的公司只有三星電子和SK海力士。Sandisk和Kioxia雖然股價(jià)飆升,但它們只能做HBF(或堆疊NAND的ESSD技術(shù)),無法做HBM。所以我認(rèn)為三星電子和SK海力士擁有引領(lǐng)未來的最強(qiáng)大工具。
主持人: 那么可以說三星電子和SK海力士擁有絕對的領(lǐng)先優(yōu)勢嗎?
金正浩: 可以這么說。今天早上的股價(jià)不就突破9000了嗎?雖然預(yù)測股價(jià)不是我的領(lǐng)域,但從根本趨勢看,世界正走向AI霸權(quán)時(shí)代,而AI的能力,我認(rèn)為是由內(nèi)存能力決定的。直到去年,我還以為AI能力源自數(shù)學(xué)(比如注意力機(jī)制),但要實(shí)現(xiàn)它離不開內(nèi)存。最終,內(nèi)存的性能就是AI的性能。所以我定義“AI = 內(nèi)存”。AI企業(yè)、AI國家,或者用半導(dǎo)體建設(shè)數(shù)據(jù)中心,都必須依靠內(nèi)存公司。這是格局轉(zhuǎn)變的時(shí)代。
更驚人的是,HBM和HBF用于建設(shè)AI數(shù)據(jù)中心,現(xiàn)在也叫“AI工廠”——制造AI的工廠。我稱之為“內(nèi)存工廠”,AI工廠的核心是內(nèi)存,擁有多少內(nèi)存決定了AI國家霸權(quán)和AI企業(yè)的競爭力。谷歌、Gemini、OpenAI、Anthropic Claude誰更好?我的主張是,這由內(nèi)存決定。
最近為了保護(hù)個(gè)人信息,出現(xiàn)了在自己的電腦上直接計(jì)算AI的動向,這叫AIPC。NVIDIA也想做這個(gè),和臺積電合作制造PC,里面裝有128GB的LPDDR之類,內(nèi)存非常大。要真正做好可能需要TB級內(nèi)存,那PC價(jià)格就得1000萬韓元,內(nèi)存價(jià)格決定了PC價(jià)格。未來智能手機(jī)也會變成AI智能手機(jī),屏幕上可能只留一個(gè)窗口,其他都由AI代勞,甚至?xí)霈F(xiàn)AI眼鏡。我主張一臺AI手機(jī)價(jià)格的一半以上會是內(nèi)存價(jià)格,比如300萬、500萬韓元的手機(jī),其中200萬、300萬是內(nèi)存成本。AI基礎(chǔ)設(shè)施和AI模型越發(fā)展,內(nèi)存需求越大,而AI PC和AI手機(jī)是另一大增長軸。
主持人: 當(dāng)前全球科技巨頭中,NVIDIA展現(xiàn)壓倒性性能,它保持最強(qiáng)地位的最大秘訣是什么?
金正浩: 直到去年,AI的“學(xué)習(xí)”(訓(xùn)練)更為重要,學(xué)習(xí)能力就是AI能力。在學(xué)習(xí)中,Transformer模型的編碼器部分主要進(jìn)行反向傳播計(jì)算,涉及微分,能做好這個(gè)的是GPU。所以訓(xùn)練時(shí)代是GPU的時(shí)代,因?yàn)樽鯝I必須有GPU,所以大家搶著高價(jià)購買。但從去年夏天開始,“推理”變得更重要。僅靠訓(xùn)練無法克服“幻覺”問題,給出荒謬錯(cuò)誤答案就無法使用。要實(shí)現(xiàn)個(gè)人化AI,推理變得重要,而對推理更重要的半導(dǎo)體是內(nèi)存。所以進(jìn)入推理時(shí)代,內(nèi)存會比GPU更貴、需求量更大。
另一個(gè)原因是,要提高GPU性能,必須增大GPU面積(放入更多計(jì)算器)。一種方法是像Cerebras公司那樣,讓整個(gè)12英寸晶圓成為一個(gè)GPU。但這樣制造難度大,一個(gè)缺陷就要扔掉整個(gè)晶圓,不經(jīng)濟(jì),用途受限。但即便如此,Cerebras也離不開HBM和HBF,沒有內(nèi)存,在推理時(shí)代就會很弱。那么NVIDIA能否堆疊GPU呢?不能,因?yàn)樘珶崃耍竺娴醚b冷卻器,無法堆疊。所以GPU有些被困住了的感覺。最近黃仁勛坐立不安,來韓國上電視、扔棒球、吃炸雞喝啤酒、見很多人,說明他并不安逸。其中一個(gè)原因就是,我認(rèn)為GPU的技術(shù)成長幾乎停滯了。相反,AI計(jì)算機(jī)的成長和進(jìn)化取決于內(nèi)存。
主持人: 有說法是,實(shí)際運(yùn)行的GPU只有10%?
金正浩: 是的。即使安裝了100萬個(gè)GPU,實(shí)際工作時(shí)間可能只有20%,甚至10%。為什么?因?yàn)镚PU需要從內(nèi)存獲取數(shù)據(jù)才能計(jì)算并返回結(jié)果,但數(shù)據(jù)從內(nèi)存(HBM/HBF)傳輸不過來。當(dāng)ChatGPT快速吐出單詞時(shí),每個(gè)瞬間都需要從HBM/HBF讀取數(shù)據(jù)、計(jì)算、再寫入,幾乎全部時(shí)間都花在讀寫上,GPU在等待。所以關(guān)鍵在于能否快速讀取、讀取多少,這就是需要HBM和HBF的原因。無論如何改進(jìn)算法,GPU實(shí)際工作可能最多只有30%,其余時(shí)間在空轉(zhuǎn)。
主持人: 所以教授您主張,未來HBM或HBF內(nèi)部會集成GPU功能,開啟新時(shí)代?
金正浩: 是的。既然HBM/HBF的數(shù)據(jù)讓GPU在等待,那不如我們自己計(jì)算。就好比在公寓一樓安裝GPU,數(shù)據(jù)坐電梯下來計(jì)算,整棟樓里解決所有事,不用去別的地方,省去了奔波時(shí)間。所以主張?jiān)贖BM里放入CPU/GPU功能,甚至讓GPU“靠邊站”。當(dāng)然不能讓GPU完全沒事做,要適當(dāng)分工,讓它“一直保持渴求狀態(tài)”。這就是我所說的“Memory-Centric Computing”(以內(nèi)存為中心的計(jì)算)。從HBM4開始,已經(jīng)在朝這個(gè)方向做了。
主持人: 即使HBM/HBF里集成了GPU功能,因?yàn)闆]有堆疊多個(gè)GPU,散熱問題應(yīng)該不存在吧?
金正浩: 還是會有一點(diǎn)散熱問題。所以從HBM4開始,SK海力士和三星制造的產(chǎn)品性能可能會有差異,這和散熱有關(guān)——能否有效排出熱量。因?yàn)樵谝粯牵▋?nèi)存層)集成了部分GPU功能,那里太熱,內(nèi)存就像坐在“暖炕”上,性能會下降,必須給暖炕降溫。誰能更好地冷卻,將決定HBM4及以后產(chǎn)品的性能差異,GPU也是如此。所以我們實(shí)驗(yàn)室的想法是,既然一層太熱,不如把部分功能移到“屋頂”(頂層),在上面加裝冷卻塔,從頂部直接冷卻。這是我們的核心架構(gòu)之一,目前在HBM5相關(guān)研究中,碩博士們正在進(jìn)行這項(xiàng)研究,希望能大獲成功。
我們發(fā)表這些論文后,NVIDIA、AMD、三星、海力士都會看到,起初可能排斥,但發(fā)現(xiàn)沒有別的辦法,最終會采納。
主持人: 如果教授所說的HBM/HBF內(nèi)部集成GPU的未來到來,甚至以后集成CPU,那三星電子和SK海力士應(yīng)該會發(fā)展得更好吧?
金正浩: 是的,機(jī)會正在到來。“發(fā)展得更好”意味著掌握更多主導(dǎo)權(quán),甚至可能超越NVIDIA。但要實(shí)現(xiàn)這一點(diǎn),需要技術(shù)開發(fā)、投資、人才培養(yǎng),以及良好的政策判斷和經(jīng)營管理層的開放思維和正確判斷。管理層的判斷最重要。
主持人: 教授主張“即將進(jìn)入內(nèi)存時(shí)代而非GPU時(shí)代”,這似乎已經(jīng)開始了。另外,最近GPU勢頭很猛,但也出現(xiàn)了NPU,NPU是什么?
金正浩: 都是處理器,用于矩陣計(jì)算,都用于AI。GPU原本是GPGPU,TPU里也包含HBM,所以都離不開HBM、離不開內(nèi)存。Gemini能寫文章、處理語言模型、畫畫,功能多樣;而有些芯片只擅長寫文章,為特定目的簡化,就是NPU。也有人叫LPU。它們都是AI所需的計(jì)算器,根據(jù)特殊用途做得更小、功耗更低、成本更低。國內(nèi)有Rebellions、FuriosaAI、HyperExcel等公司,全球大約有十幾家做NPU的,但無論Rebellions還是FuriosaAI,為了高性能都必須使用HBM。
主持人: 最近FuriosaAI和Rebellions獲得了國民成長基金的大規(guī)模投資,這是要讓它們真正和NVIDIA一較高下。這兩家公司真有全球競爭力嗎?
金正浩: 我當(dāng)時(shí)是評審委員之一。這個(gè)決策有這樣的考量:NVIDIA無法掌控全世界所有領(lǐng)域,NPU、TPU等肯定存在利基市場。比如沙特阿拉伯建數(shù)據(jù)中心,如果全部用美國產(chǎn)品,依賴度太高,所以可能將其中10%采用其他解決方案,韓國NPU企業(yè)可以成為候選。另外,韓國國內(nèi)建設(shè)AI數(shù)據(jù)中心(可能需要百萬臺設(shè)備),如果100%都用NVIDIA芯片,我們對海外的依賴度太高,需要培育本土企業(yè)。所以決定投資以培育國內(nèi)企業(yè)。總體概括就是這樣。技術(shù)上也有其優(yōu)點(diǎn)。
主持人: 教授您最近的研究中提出了“高帶寬SRAM(HBS)”的概念?
金正浩: 是的,這是我最近提出的新概念。像之前提到的,我提出概念,但要實(shí)現(xiàn)需要三星、SK海力士等公司的大量努力。這些概念往往在10年、20年后會產(chǎn)生重大影響。我提到過Cerebras,有巨大的GPU,美國也有叫LPU的芯片。它們?yōu)榱俗宰鹦幕驕p少對HBM的依賴,在GPU內(nèi)部集成了SRAM作為內(nèi)存。SRAM比DRAM快約1000倍,但容量小。我研究了一下,無論是Cerebras還是LPU,都面臨SRAM容量不足的問題。據(jù)我了解,整個(gè)12英寸晶圓做成的Cerebras芯片,SRAM也只有44GB,而我認(rèn)為至少需要400到440GB才有意義。
所以我的想法是:制造一個(gè)將整個(gè)12英寸晶圓鋪滿SRAM的芯片,然后再把它堆疊10層、12層或16層。這樣100GB就能變成1600GB,容量驚人。然后在這個(gè)晶圓級SRAM堆疊體上再放置GPU。速度是千倍之快,容量又足夠,這主意聽起來可行。所以我把這個(gè)晶圓級SRAM稱為HBS。我未來的夢想是:HBM、HBF、HBS都變成100層高的大樓,GPU放在最頂層,冷卻系統(tǒng)等也集成在一起,這種3D半導(dǎo)體結(jié)構(gòu)將不可避免地成為未來AI計(jì)算機(jī)的架構(gòu)。
這可能需要10年、20年甚至30年。其中最困難的技術(shù)之一就是供電。在HBS、HBM上面堆疊GPU,需要供應(yīng)數(shù)千安培電流,電力供應(yīng)網(wǎng)絡(luò)設(shè)計(jì)將是最困難的,這將成為技術(shù)核心競爭力。SK海力士、三星、Micron、TSMC都一樣,其次是如何散熱,這是實(shí)現(xiàn)過程中的障礙。目前人們關(guān)注TSMC和三星誰在幾納米工藝上做得好、良率如何,但未來,對于包含HBS在內(nèi)的3D AI計(jì)算機(jī),如何供電、如何冷卻,將決定企業(yè)的生存。
主持人: HBS簡直是內(nèi)存半導(dǎo)體領(lǐng)域的“黃政民”(比喻大腕)。
金正浩:是“黃政民”沒錯(cuò)。我10年前就聽說Cerebras用12英寸晶圓做GPU,當(dāng)時(shí)心想“什么?這能用在哪兒?”大概是國防AI吧。當(dāng)時(shí)我還挺自大。但兩周前,這家公司在納斯達(dá)克IPO了,讓我改變了想法。還是有用途的。既然Cerebras芯片最大的弱點(diǎn)是內(nèi)存不足,那就把它也堆疊起來。有一天早上我有了這個(gè)想法,讓學(xué)生畫了圖。最近開始談?wù)揌BF,等今年碩士新生入學(xué),我打算讓他們開始以HBS作為碩博士論文研究方向。
主持人: 那SRAM由誰制造?
金正浩: 由代工廠制造,TSMC和三星電子都會做。
主持人: 今年三星和SK海力士的合計(jì)營業(yè)利潤據(jù)說在500到600萬億韓元之間,這是現(xiàn)實(shí)的目標(biāo)還是過于樂觀的展望?
金正浩: 我認(rèn)為是現(xiàn)實(shí)的。我經(jīng)常與三星和海力士的高管進(jìn)行技術(shù)會議,感覺他們的眼神越來越亮。雖然他們不和我談具體的銷售額。現(xiàn)在HBM、HBF的一個(gè)重要特點(diǎn)是“定制化HBM”。以前是制造標(biāo)準(zhǔn)化產(chǎn)品,大量生產(chǎn),客戶買多買少,價(jià)格波動,這叫“周期”。內(nèi)存廠商不主導(dǎo),而是由CPU廠商、微軟或電腦廠商決定購買數(shù)量,我們只能多生產(chǎn)一些觀望,如果客戶不買,庫存壓力就在我們身上,這就是“內(nèi)存周期”。
但從HBM4開始,不僅集成GPU功能,另一個(gè)重要功能是HBM之間可以相互通信。以前只做GPU指令的事,現(xiàn)在主張它們之間也要溝通。未來,HBM之間可以競爭,把更多內(nèi)存分配給表現(xiàn)更好的HBM。也就是說,它們內(nèi)部形成組合,不給表現(xiàn)差的HBM向GPU傳遞數(shù)據(jù)的機(jī)會。總之,隨著這些算法、通信功能、GPU功能的加入,每個(gè)公司(谷歌、AMD、NVIDIA)對HBM的設(shè)計(jì)要求都不同,這就是定制化HBM。這樣在開發(fā)初期就簽訂了長期供貨協(xié)議(LTA),沒有訂單就不開始開發(fā)。
現(xiàn)在AI企業(yè)極度需要高性能HBM,所以排隊(duì)求購,市場變成了賣方市場,供方定價(jià)。這是一種范式轉(zhuǎn)變。
主持人: 到現(xiàn)在為止,我們與KAIST金正浩教授就半導(dǎo)體生態(tài)進(jìn)行了對話。感謝您今天的分享。
金正浩: 謝謝。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.