HBM之父金正浩：AI的本質(zhì)是內(nèi)存，GPU真正工作的時(shí)間只有10%

2026-07-05 15:40:02　來源: 華爾街見聞官方

上海舉報(bào)

分享至

被稱為"HBM之父"的韓國科學(xué)技術(shù)院（KAIST）金正浩教授拋出一個(gè)顛覆認(rèn)知的判斷：AI的本質(zhì)是內(nèi)存，而不是GPU。

近日，韓國科學(xué)技術(shù)院（KAIST）電氣工程系教授金正浩接受視頻專訪，圍繞HBM技術(shù)演進(jìn)、AI算力格局和未來半導(dǎo)體架構(gòu)作出系統(tǒng)性闡述。金正浩被業(yè)界稱為"HBM之父"，早在2010年代初期便與SK海力士合作參與HBM1開發(fā)，此后主導(dǎo)了一系列底層架構(gòu)研究。此次訪談內(nèi)容在科技與投資圈廣泛流傳，核心觀點(diǎn)直指當(dāng)前AI算力競賽的結(jié)構(gòu)性矛盾。

金正浩在訪談中直接給出了一個(gè)令人震動的數(shù)字：

"GPU裝100萬臺，真正工作的時(shí)間只有10%。"

他解釋，每當(dāng)ChatGPT輸出一個(gè)詞，系統(tǒng)就需要從HBM中讀取數(shù)據(jù)、完成計(jì)算、再寫回內(nèi)存，"讀和寫幾乎占掉了全部時(shí)間，GPU就在旁邊干等著。"即便通過算法優(yōu)化，GPU利用率也很難突破30%。

這正是他多年堅(jiān)持的核心論斷的現(xiàn)實(shí)依據(jù)："AI等于內(nèi)存（AI = Memory）。"

一、為什么GPU遇到了"外通死局"

金正浩對英偉達(dá)（NVIDIA）現(xiàn)狀的判斷措辭犀利。他說，黃仁勛近期頻繁訪問韓國、參加綜藝、吃炸雞喝啤酒、會見各路人士，"這么多會面背后，說明他不安心"。

"GPU的技術(shù)性成長已經(jīng)快停了，這是我的判斷。人工智能計(jì)算機(jī)的進(jìn)化，掌握在內(nèi)存手里。"

他的邏輯鏈條清晰：GPU想提升性能，只能擴(kuò)大芯片面積、堆更多計(jì)算單元；但GPU太熱，必須在背面安裝散熱裝置，因此無法像內(nèi)存一樣垂直堆疊。"GPU陷入了外通死局（外通手? ?? ??）。"

相比之下，從訓(xùn)練時(shí)代轉(zhuǎn)向推理時(shí)代，內(nèi)存的重要性正在被重新定價(jià)。金正浩說："推理時(shí)代，更重要的是往AI里塞進(jìn)多少數(shù)據(jù)，而決定這一點(diǎn)的半導(dǎo)體是內(nèi)存。"

他進(jìn)一步指出，AI能力的競爭最終是內(nèi)存能力的競爭："谷歌Gemini、OpenAI、Anthropic Claude，誰更強(qiáng)，是由內(nèi)存決定的——這是我的主張。"

二、HBM的兩大核心：容量與帶寬

金正浩將HBM的價(jià)值歸結(jié)為兩個(gè)維度。

第一是容量。隨著上下文工程（context engineering）、多模態(tài)輸入和Agentic AI的到來，內(nèi)存需求以每年翻倍的速度增長，"10年就是1000倍"。傳統(tǒng)方式靠縮小晶體管來增容，但如今已逼近量子力學(xué)邊界，幾乎無法繼續(xù)縮小，因此必須"向上堆疊"。

第二是帶寬。金正浩打了個(gè)比方："傳統(tǒng)內(nèi)存如果是8車道高速公路，HBM是1024車道，現(xiàn)在是2048車道，幾年后可能達(dá)到100萬車道。" 靠并行通道同時(shí)傳輸海量數(shù)據(jù)，才能匹配AI計(jì)算的速度需求。

三、HBF：NAND閃存的堆疊時(shí)代

HBM解決了速度問題，但容量依然有天花板。金正浩在訪談中詳細(xì)闡述了他認(rèn)為的下一條技術(shù)路線——HBF（High Bandwidth Flash）。

簡單說，HBF就是把NAND閃存像HBM一樣垂直堆疊。DRAM速度快但容量有限，NAND閃存容量大、可長期保存數(shù)據(jù)，速度雖然慢一些，但在推理場景中足夠滿足"冷數(shù)據(jù)"的存儲需求。

金正浩認(rèn)為，未來HBM和HBF將形成共存格局，類似于城市規(guī)劃："就像有百貨商場，周圍有復(fù)式公寓、普通住宅，各種形態(tài)的HBM、HBF組合在一起，形成復(fù)合體，向GPU供給數(shù)據(jù)。"

他作出了一個(gè)明確的長期預(yù)判："現(xiàn)在是HBM的時(shí)代，但10年后，NAND閃存和HBF的市場需求將超過HBM。三星和SK海力士必須為HBF時(shí)代做好準(zhǔn)備。"

他指出，目前正在開發(fā)HBF的公司包括SK海力士、閃迪、三星電子，以及日本的鎧俠（Kioxia）。鎧俠市值最近超過了豐田汽車，成為日本股市第一，閃迪股價(jià)持續(xù)上漲，而三星和SK海力士則在韓國市場維持市值領(lǐng)先地位。

四、HBS：更超前的第三條路

金正浩還提出了一個(gè)目前仍屬于前沿概念的設(shè)想——HBS（High Bandwidth SRAM）。

SRAM（靜態(tài)隨機(jī)存儲器）比DRAM快約1000倍，但密度低、成本高，傳統(tǒng)上只能作為芯片內(nèi)的小容量緩存。金正浩的思路是：把整張12英寸晶圓全部做成SRAM，再垂直堆疊12至16層，就能將容量從100GB擴(kuò)展到1600GB。

"這樣速度快1000倍，容量又足夠，那就說得通了。"

他描述的終極AI芯片形態(tài)是一棟"100層3D大樓"："HBM、HBF、HBS各自構(gòu)成多層建筑，GPU放在頂層負(fù)責(zé)散熱冷卻，這就是未來AI計(jì)算機(jī)不可避免的3D半導(dǎo)體結(jié)構(gòu)——這是我現(xiàn)在的判斷。"

他同時(shí)坦言，這條路最大的工程挑戰(zhàn)不是計(jì)算，而是供電與散熱："要給GPU和堆疊內(nèi)存供幾千安培的電，電力供應(yīng)網(wǎng)絡(luò)的設(shè)計(jì)將是最難的技術(shù)，這也將成為企業(yè)間真正的核心競爭力。"

五、定制HBM：甲乙關(guān)系正在逆轉(zhuǎn)

金正浩專門談到了HBM4帶來的供需結(jié)構(gòu)變化。

過去，內(nèi)存是標(biāo)準(zhǔn)化產(chǎn)品，廠商先生產(chǎn)、客戶再選購，買家主導(dǎo)價(jià)格，庫存風(fēng)險(xiǎn)由內(nèi)存廠商承擔(dān)，這就是"內(nèi)存周期"的本質(zhì)。

但從HBM4開始，由于需要根據(jù)英偉達(dá)、谷歌、AMD等客戶的加速器架構(gòu)量身設(shè)計(jì)（即"定制HBM"），內(nèi)存廠商必須在研發(fā)之初就拿到客戶的數(shù)量承諾，才會啟動開發(fā)——也就是所謂的"長期協(xié)議（Long-term Agreement）"。

"AI企業(yè)太需要高性能HBM了，所以他們排隊(duì)來。供應(yīng)方開始決定價(jià)格，這是范式的轉(zhuǎn)變。"

他還預(yù)期，未來HBM芯片內(nèi)將集成通信功能，實(shí)現(xiàn)"HBM之間相互通話"，形成類似聯(lián)盟的結(jié)構(gòu)："我們自己溝通，誰對我們更好，就給誰更多內(nèi)存；不聽話的GPU，就不分配。"

這進(jìn)一步抬升了內(nèi)存廠商的系統(tǒng)性地位。

六、三星、海力士是唯一能同時(shí)做兩件事的公司

金正浩在訪談中反復(fù)強(qiáng)調(diào)，全球范圍內(nèi)能同時(shí)量產(chǎn)DRAM（HBM）和NAND閃存（HBF）的公司，目前只有三星電子和SK海力士。

"閃迪和鎧俠雖然股價(jià)沖天，但只能做HBF，做不了HBM。三星和SK海力士擁有引領(lǐng)未來最強(qiáng)大的工具。"

當(dāng)被問及三星與SK海力士今年合計(jì)營業(yè)利潤500萬億至600萬億韓元的預(yù)測是否現(xiàn)實(shí)，金正浩回答："現(xiàn)實(shí)的。" 他補(bǔ)充說，他經(jīng)常與兩家公司的高管進(jìn)行技術(shù)交流，"他們的眼神越來越亮了。"

不過他也指出競爭壓力真實(shí)存在，美光、閃迪獲得來自英偉達(dá)和谷歌的訂單分流。

七、AI PC與AI手機(jī)：內(nèi)存決定設(shè)備價(jià)格

金正浩還將內(nèi)存需求的敘事延伸至終端設(shè)備。

他預(yù)測，未來AI PC要真正實(shí)現(xiàn)個(gè)人AI計(jì)算，所需內(nèi)存規(guī)模將使"一臺PC的價(jià)格達(dá)到1000萬韓元，內(nèi)存價(jià)格決定PC價(jià)格"。而AI智能手機(jī)售價(jià)300萬至500萬韓元中，200萬至300萬韓元將是內(nèi)存的價(jià)格。

"AI基礎(chǔ)設(shè)施、AI模型的持續(xù)進(jìn)化，需要越來越多的內(nèi)存。AI PC和AI手機(jī)，是這個(gè)趨勢的另一條主線。"

八、Agentic AI與物理AI：內(nèi)存需求還將暴增1000倍

金正浩對AI演進(jìn)方向的判斷同樣值得關(guān)注。他認(rèn)為，隨著Agentic AI（智能體AI）和Physical AI（具身AI/物理AI）的到來，內(nèi)存使用量將比現(xiàn)在高出約1000倍。

"AI代理24小時(shí)工作，不像人類還要睡覺，工作量暴增，內(nèi)存需求自然跟著爆炸。那時(shí)候不是HBM，而是需要'超級HBM'的時(shí)代了。"

九、研究之路：50年積累，"運(yùn)氣"說

金正浩在訪談結(jié)尾追溯了自己的學(xué)術(shù)路徑。他1993年獲得博士學(xué)位，研究方向是飛秒（femtosecond）級超快電信號測量，導(dǎo)師數(shù)年前獲得諾貝爾物理學(xué)獎(jiǎng)。1994年他加入三星電子內(nèi)存事業(yè)部，1996年回到KAIST，此后持續(xù)深耕內(nèi)存與HBM基礎(chǔ)研究約10年，才形成商業(yè)產(chǎn)品。

2015年，他在一次校內(nèi)會議上第一次聽到"深度學(xué)習(xí)"這個(gè)詞，隨即意識到AI算法與HBM架構(gòu)背后用的是同一套數(shù)學(xué)——線性代數(shù)和矩陣運(yùn)算。"我在大學(xué)二年級特別喜歡矩陣，兩邊恰好用的是一樣的數(shù)學(xué)——這就是運(yùn)氣。"

他笑言，當(dāng)初做HBM時(shí)想的是用在電視機(jī)上讓畫面更生動，完全沒想到會成為AI時(shí)代的基礎(chǔ)設(shè)施："那時(shí)候不知道，這也可以說是運(yùn)氣。"

以下為訪談文字實(shí)錄有刪減（由AI協(xié)助翻譯）

金正浩： HBM、HBF、HBS將組成一棟百層大樓，GPU則位于最頂層，進(jìn)行散熱等。我認(rèn)為，這種3D半導(dǎo)體結(jié)構(gòu)是未來AI計(jì)算機(jī)不可避免的架構(gòu)。而其中最困難的技術(shù)之一，就是供電。需要供應(yīng)數(shù)千安培的電流，因此電力供應(yīng)網(wǎng)絡(luò)的設(shè)計(jì)將是最困難的。這將成為核心技術(shù)競爭力。
主持人：被稱為“HBM之父”的KAIST金正浩教授來到了我們的節(jié)目。您好！
金正浩：您好，很高興見到您。感謝您的邀請。
主持人：謝謝您抽出時(shí)間。
金正浩：不客氣。（笑聲）
主持人：我們得先從HBM聊起。實(shí)際上，HBM真正開始量產(chǎn)和應(yīng)用，也不過大概兩年的時(shí)間，對吧？HBM3是這樣。HBM1的話，從2010年代開始，我就和SK海力士一起參與了，當(dāng)時(shí)GPU方面有NVIDIA和AMD。所以HBM1是在2010年代初期開始的，但那時(shí)它是用于顯卡的。
主持人：教授您獲得博士學(xué)位是在1990年代，對吧？
金正浩：是的。
主持人：但您在2010年HBM最初被開發(fā)出來時(shí)，就早早地開始了相關(guān)研究。
金正浩：是的。我在1993年獲得博士學(xué)位，當(dāng)時(shí)的研究更偏向物理學(xué)。我制造了當(dāng)時(shí)世界上最快的、用激光來測量電信號的示波器。我的導(dǎo)師幾年前獲得了諾貝爾物理學(xué)獎(jiǎng)。當(dāng)時(shí)我制造的設(shè)備可以觀測到飛秒（幾乎靜止的光）級別的極端時(shí)間現(xiàn)象。如今隨著AI的發(fā)展，需要處理海量數(shù)據(jù)，數(shù)字電路的運(yùn)行速度已經(jīng)達(dá)到了皮秒甚至飛秒級別。所以30年前博士期間的研究現(xiàn)在都派上了用場。
不過，當(dāng)時(shí)研究的領(lǐng)域非常狹窄和深入，而我的性格更傾向于與社會交流和溝通。所以當(dāng)時(shí)我就想，未來內(nèi)存會變得很重要。抱著這個(gè)想法，我在1994年加入了三星電子的內(nèi)存事業(yè)部。從那時(shí)起，我就一直在學(xué)習(xí)和研究內(nèi)存。1996年我來到KAIST，大約到2010年，HBM前期的基礎(chǔ)研究持續(xù)進(jìn)行了大約10年，然后才作為產(chǎn)品應(yīng)用到了HBM上。
HBM所需的各種技術(shù)，如量子力學(xué)、半導(dǎo)體物理、數(shù)學(xué)等，其實(shí)都是大學(xué)二、三年級時(shí)學(xué)過的科目。特別是需要大量的線性代數(shù)知識，那是我在1981年學(xué)習(xí)的，能一直應(yīng)用到現(xiàn)在。HBM不斷推陳出新，我們實(shí)驗(yàn)室甚至提出了到HBM8為止、為期30年的路線圖。這么算下來，從最初研究到現(xiàn)在，差不多有50年了。
主持人：您在最初研究和思考HBM概念時(shí)，就預(yù)料到人工智能時(shí)代會到來，并且HBM會成為其核心嗎？
金正浩：沒有，當(dāng)時(shí)AMD和NVIDIA是打算把它用在顯卡上。顯卡所需的數(shù)學(xué)和人工智能所需的數(shù)學(xué)是一樣的。所以HBM后來成了AI的核心部件，但最初NVIDIA方面認(rèn)為它只是用在顯卡上。而我當(dāng)時(shí)想，韓國電視產(chǎn)業(yè)很發(fā)達(dá)，所以想把這種芯片放進(jìn)電視里，讓電視畫面更華麗、更生動、更逼真，因此我最初是考慮用在電視上的。
大約2015年，在大學(xué)里和一些年輕教授開會時(shí)，他們用到了“深度學(xué)習(xí)”這個(gè)詞，那是AI的早期階段。當(dāng)時(shí)我只是覺得“哦，還有這種技術(shù)啊”，半開玩笑地聊著，只有我沒聽懂。所以從那時(shí)起，大概2015年，我實(shí)際上就把專業(yè)方向轉(zhuǎn)向了AI。雖然表面上是研究HBM的實(shí)驗(yàn)室，但我個(gè)人從2015年開始完全轉(zhuǎn)向了AI研究。研究幾年后發(fā)現(xiàn)，AI算法和HBM簡直是天作之合。我當(dāng)時(shí)就覺得，這會在AI領(lǐng)域得到爆發(fā)式應(yīng)用。
那時(shí)候主要用在CNN（攝像頭物體識別）上，稍后是強(qiáng)化學(xué)習(xí)（比如下圍棋），這些應(yīng)用都需要大量矩陣運(yùn)算，所以需要HBM。但像現(xiàn)在這樣徹底爆發(fā)，大概是在2020年代初ChatGPT出現(xiàn)的時(shí)候。未來AI將向Agentic AI發(fā)展，一部分也會走向Physical AI。從算法上看，Agentic AI或Physical AI的內(nèi)存使用量可能會比現(xiàn)在增加1000倍。那樣的話，就需要HBM的升級版“Ultra HBM”的時(shí)代了。所以我們也有一些其他的想法。總之，一開始我并不知道會這樣，可以說是一種運(yùn)氣。因?yàn)槲掖髮W(xué)二年級時(shí)就非常喜歡線性代數(shù)，而兩者用的數(shù)學(xué)是相同的。
主持人：我理解HBM就是將多個(gè)DRAM堆疊起來，我的理解正確嗎？
金正浩：是的，正確。無論是顯卡還是AI，在進(jìn)行計(jì)算時(shí)，都需要快速從內(nèi)存中讀取數(shù)據(jù)。HBM之所以必要，有兩個(gè)原因。第一是容量要大。特別是AI正在向上下文工程、多模態(tài)、Physical AI發(fā)展，需要在內(nèi)存中累積的數(shù)據(jù)量越來越大。可能每年翻一番，十年就是1000倍。要增加內(nèi)存容量，就需要不斷縮小晶體管或存儲單元，但由于單元間的干擾和漏電現(xiàn)象，我們已經(jīng)接近了量子力學(xué)的極限，難以再縮小。所以容量很難增加。
因此我在2000年代初就認(rèn)為，未來的內(nèi)存必須堆疊起來。從那時(shí)起，我們就主張“堆疊”而非“平面”。當(dāng)時(shí)大多數(shù)人都設(shè)計(jì)單層半導(dǎo)體，而我們的設(shè)計(jì)方向是堆疊。當(dāng)然我們側(cè)重設(shè)計(jì)，三星和SK海力士負(fù)責(zé)具體實(shí)現(xiàn)，但最終產(chǎn)品化的結(jié)果就是HBM。第二個(gè)原因是，即使容量大，也必須能快速將數(shù)據(jù)傳輸給GPU。這樣才能快速響應(yīng)我們，處理文檔、文字，甚至最近需要制作電影。要提高速度，需要并行傳輸數(shù)據(jù)的技術(shù)。就像高速公路從8車道變成了1024車道，最近是2048車道，幾年后可能變成百萬車道。
所以HBM的核心是：通過堆疊增加容量，同時(shí)通過安裝“電梯”和“高速公路”結(jié)構(gòu)，以光速（比傳統(tǒng)內(nèi)存快千倍、百萬倍）傳輸數(shù)據(jù)，這就是所謂的并行結(jié)構(gòu)。
主持人：提到HBM，也常聽到HBF。HBF是什么，和HBM有何不同？
金正浩：通用內(nèi)存主要有兩種：DRAM和NAND Flash。DRAM速度快但無法長期存儲；而NAND Flash容量大（大約是DRAM的10倍），速度慢一些，但能長期保存，主要用于相機(jī)等設(shè)備。但剛才提到的HBM雖然堆疊了，容量仍然不足。最近因?yàn)樯舷挛墓こ蹋駻I輸入時(shí)不僅用文本，還附帶參考文件、YouTube視頻等，視頻圖像文件暴增，內(nèi)存容量需求比現(xiàn)在更大。計(jì)算過程中的中間結(jié)果（KV Cache）也需要全部存儲。
進(jìn)入Agentic AI時(shí)代，我可能會雇傭10個(gè)或100個(gè)AI替我工作，AI的工作量是我的100倍，而且它們24小時(shí)工作，不像我們會睡覺休息，所以工作量劇增，內(nèi)存需求也隨之增加。即便堆疊了DRAM，容量還是不夠，所以想到了堆疊NAND Flash，這就是HBF。目前開發(fā)HBF的公司有SK海力士、Sandisk、三星電子，日本的Kioxia可能也在開發(fā)。最近Kioxia的市值甚至超過了豐田，成為日本股市第一。美國制造NAND Flash或HBF的Micron和Sandisk股價(jià)也持續(xù)上漲，韓國制造這些的三星和SK海力士市值排名前列。
緊挨著GPU的內(nèi)存有兩種：HBM和HBF，也叫“熱內(nèi)存”；而用于長期記錄AI關(guān)于用戶信息的設(shè)備叫“冷內(nèi)存”，兩者需求都在增長。長遠(yuǎn)來看，大約10年后，NAND Flash和HBF的市場需求增長可能會超過HBM。所以現(xiàn)在雖然是HBM時(shí)代，但三星、SK海力士也要為HBF時(shí)代做好準(zhǔn)備，這是我的主張。
主持人：您曾提到2038年左右HBM可能會發(fā)展到第八代。
金正浩：是的。
主持人：那時(shí)HBM和HBF都將進(jìn)入商業(yè)化階段，兩者是互補(bǔ)關(guān)系，還是競爭關(guān)系？
金正浩：兩者是互補(bǔ)的。HBM4今年推出，幾年后HBM5會出來，大約每三年換一代，10年后會到HBM8。那時(shí)HBM和HBF將一起使用。HBM容量雖小但速度快，HBF速度稍慢，也有一些物理局限性，但容量巨大。如果HBM容量不夠，旁邊會配上HBF，兩者并非單一存在，而是類似公寓樓群：中心有百貨商店（HBM），周圍有公寓樓群（HBF）。各種形態(tài)的HBM和HBF會組成一個(gè)綜合體，相互連接，為用戶提供數(shù)據(jù)。總?cè)萘糠矫妫琀BF可能比HBM更大。
主持人：歸根結(jié)底，就是堆疊DRAM還是NAND Flash的區(qū)別，兩者缺一不可。
金正浩：是的，全球能同時(shí)做這兩種的公司只有三星電子和SK海力士。Sandisk和Kioxia雖然股價(jià)飆升，但它們只能做HBF（或堆疊NAND的ESSD技術(shù)），無法做HBM。所以我認(rèn)為三星電子和SK海力士擁有引領(lǐng)未來的最強(qiáng)大工具。
主持人：那么可以說三星電子和SK海力士擁有絕對的領(lǐng)先優(yōu)勢嗎？
金正浩：可以這么說。今天早上的股價(jià)不就突破9000了嗎？雖然預(yù)測股價(jià)不是我的領(lǐng)域，但從根本趨勢看，世界正走向AI霸權(quán)時(shí)代，而AI的能力，我認(rèn)為是由內(nèi)存能力決定的。直到去年，我還以為AI能力源自數(shù)學(xué)（比如注意力機(jī)制），但要實(shí)現(xiàn)它離不開內(nèi)存。最終，內(nèi)存的性能就是AI的性能。所以我定義“AI = 內(nèi)存”。AI企業(yè)、AI國家，或者用半導(dǎo)體建設(shè)數(shù)據(jù)中心，都必須依靠內(nèi)存公司。這是格局轉(zhuǎn)變的時(shí)代。
更驚人的是，HBM和HBF用于建設(shè)AI數(shù)據(jù)中心，現(xiàn)在也叫“AI工廠”——制造AI的工廠。我稱之為“內(nèi)存工廠”，AI工廠的核心是內(nèi)存，擁有多少內(nèi)存決定了AI國家霸權(quán)和AI企業(yè)的競爭力。谷歌、Gemini、OpenAI、Anthropic Claude誰更好？我的主張是，這由內(nèi)存決定。
最近為了保護(hù)個(gè)人信息，出現(xiàn)了在自己的電腦上直接計(jì)算AI的動向，這叫AIPC。NVIDIA也想做這個(gè)，和臺積電合作制造PC，里面裝有128GB的LPDDR之類，內(nèi)存非常大。要真正做好可能需要TB級內(nèi)存，那PC價(jià)格就得1000萬韓元，內(nèi)存價(jià)格決定了PC價(jià)格。未來智能手機(jī)也會變成AI智能手機(jī)，屏幕上可能只留一個(gè)窗口，其他都由AI代勞，甚至?xí)霈F(xiàn)AI眼鏡。我主張一臺AI手機(jī)價(jià)格的一半以上會是內(nèi)存價(jià)格，比如300萬、500萬韓元的手機(jī)，其中200萬、300萬是內(nèi)存成本。AI基礎(chǔ)設(shè)施和AI模型越發(fā)展，內(nèi)存需求越大，而AI PC和AI手機(jī)是另一大增長軸。
主持人：當(dāng)前全球科技巨頭中，NVIDIA展現(xiàn)壓倒性性能，它保持最強(qiáng)地位的最大秘訣是什么？
金正浩：直到去年，AI的“學(xué)習(xí)”（訓(xùn)練）更為重要，學(xué)習(xí)能力就是AI能力。在學(xué)習(xí)中，Transformer模型的編碼器部分主要進(jìn)行反向傳播計(jì)算，涉及微分，能做好這個(gè)的是GPU。所以訓(xùn)練時(shí)代是GPU的時(shí)代，因?yàn)樽鯝I必須有GPU，所以大家搶著高價(jià)購買。但從去年夏天開始，“推理”變得更重要。僅靠訓(xùn)練無法克服“幻覺”問題，給出荒謬錯(cuò)誤答案就無法使用。要實(shí)現(xiàn)個(gè)人化AI，推理變得重要，而對推理更重要的半導(dǎo)體是內(nèi)存。所以進(jìn)入推理時(shí)代，內(nèi)存會比GPU更貴、需求量更大。
另一個(gè)原因是，要提高GPU性能，必須增大GPU面積（放入更多計(jì)算器）。一種方法是像Cerebras公司那樣，讓整個(gè)12英寸晶圓成為一個(gè)GPU。但這樣制造難度大，一個(gè)缺陷就要扔掉整個(gè)晶圓，不經(jīng)濟(jì)，用途受限。但即便如此，Cerebras也離不開HBM和HBF，沒有內(nèi)存，在推理時(shí)代就會很弱。那么NVIDIA能否堆疊GPU呢？不能，因?yàn)樘珶崃耍竺娴醚b冷卻器，無法堆疊。所以GPU有些被困住了的感覺。最近黃仁勛坐立不安，來韓國上電視、扔棒球、吃炸雞喝啤酒、見很多人，說明他并不安逸。其中一個(gè)原因就是，我認(rèn)為GPU的技術(shù)成長幾乎停滯了。相反，AI計(jì)算機(jī)的成長和進(jìn)化取決于內(nèi)存。
主持人：有說法是，實(shí)際運(yùn)行的GPU只有10%？
金正浩：是的。即使安裝了100萬個(gè)GPU，實(shí)際工作時(shí)間可能只有20%，甚至10%。為什么？因?yàn)镚PU需要從內(nèi)存獲取數(shù)據(jù)才能計(jì)算并返回結(jié)果，但數(shù)據(jù)從內(nèi)存（HBM/HBF）傳輸不過來。當(dāng)ChatGPT快速吐出單詞時(shí)，每個(gè)瞬間都需要從HBM/HBF讀取數(shù)據(jù)、計(jì)算、再寫入，幾乎全部時(shí)間都花在讀寫上，GPU在等待。所以關(guān)鍵在于能否快速讀取、讀取多少，這就是需要HBM和HBF的原因。無論如何改進(jìn)算法，GPU實(shí)際工作可能最多只有30%，其余時(shí)間在空轉(zhuǎn)。
主持人：所以教授您主張，未來HBM或HBF內(nèi)部會集成GPU功能，開啟新時(shí)代？
金正浩：是的。既然HBM/HBF的數(shù)據(jù)讓GPU在等待，那不如我們自己計(jì)算。就好比在公寓一樓安裝GPU，數(shù)據(jù)坐電梯下來計(jì)算，整棟樓里解決所有事，不用去別的地方，省去了奔波時(shí)間。所以主張?jiān)贖BM里放入CPU/GPU功能，甚至讓GPU“靠邊站”。當(dāng)然不能讓GPU完全沒事做，要適當(dāng)分工，讓它“一直保持渴求狀態(tài)”。這就是我所說的“Memory-Centric Computing”（以內(nèi)存為中心的計(jì)算）。從HBM4開始，已經(jīng)在朝這個(gè)方向做了。
主持人：即使HBM/HBF里集成了GPU功能，因?yàn)闆]有堆疊多個(gè)GPU，散熱問題應(yīng)該不存在吧？
金正浩：還是會有一點(diǎn)散熱問題。所以從HBM4開始，SK海力士和三星制造的產(chǎn)品性能可能會有差異，這和散熱有關(guān)——能否有效排出熱量。因?yàn)樵谝粯牵▋?nèi)存層）集成了部分GPU功能，那里太熱，內(nèi)存就像坐在“暖炕”上，性能會下降，必須給暖炕降溫。誰能更好地冷卻，將決定HBM4及以后產(chǎn)品的性能差異，GPU也是如此。所以我們實(shí)驗(yàn)室的想法是，既然一層太熱，不如把部分功能移到“屋頂”（頂層），在上面加裝冷卻塔，從頂部直接冷卻。這是我們的核心架構(gòu)之一，目前在HBM5相關(guān)研究中，碩博士們正在進(jìn)行這項(xiàng)研究，希望能大獲成功。
我們發(fā)表這些論文后，NVIDIA、AMD、三星、海力士都會看到，起初可能排斥，但發(fā)現(xiàn)沒有別的辦法，最終會采納。
主持人：如果教授所說的HBM/HBF內(nèi)部集成GPU的未來到來，甚至以后集成CPU，那三星電子和SK海力士應(yīng)該會發(fā)展得更好吧？
金正浩：是的，機(jī)會正在到來。“發(fā)展得更好”意味著掌握更多主導(dǎo)權(quán)，甚至可能超越NVIDIA。但要實(shí)現(xiàn)這一點(diǎn)，需要技術(shù)開發(fā)、投資、人才培養(yǎng)，以及良好的政策判斷和經(jīng)營管理層的開放思維和正確判斷。管理層的判斷最重要。
主持人：教授主張“即將進(jìn)入內(nèi)存時(shí)代而非GPU時(shí)代”，這似乎已經(jīng)開始了。另外，最近GPU勢頭很猛，但也出現(xiàn)了NPU，NPU是什么？
金正浩：都是處理器，用于矩陣計(jì)算，都用于AI。GPU原本是GPGPU，TPU里也包含HBM，所以都離不開HBM、離不開內(nèi)存。Gemini能寫文章、處理語言模型、畫畫，功能多樣；而有些芯片只擅長寫文章，為特定目的簡化，就是NPU。也有人叫LPU。它們都是AI所需的計(jì)算器，根據(jù)特殊用途做得更小、功耗更低、成本更低。國內(nèi)有Rebellions、FuriosaAI、HyperExcel等公司，全球大約有十幾家做NPU的，但無論Rebellions還是FuriosaAI，為了高性能都必須使用HBM。
主持人：最近FuriosaAI和Rebellions獲得了國民成長基金的大規(guī)模投資，這是要讓它們真正和NVIDIA一較高下。這兩家公司真有全球競爭力嗎？
金正浩：我當(dāng)時(shí)是評審委員之一。這個(gè)決策有這樣的考量：NVIDIA無法掌控全世界所有領(lǐng)域，NPU、TPU等肯定存在利基市場。比如沙特阿拉伯建數(shù)據(jù)中心，如果全部用美國產(chǎn)品，依賴度太高，所以可能將其中10%采用其他解決方案，韓國NPU企業(yè)可以成為候選。另外，韓國國內(nèi)建設(shè)AI數(shù)據(jù)中心（可能需要百萬臺設(shè)備），如果100%都用NVIDIA芯片，我們對海外的依賴度太高，需要培育本土企業(yè)。所以決定投資以培育國內(nèi)企業(yè)。總體概括就是這樣。技術(shù)上也有其優(yōu)點(diǎn)。
主持人：教授您最近的研究中提出了“高帶寬SRAM（HBS）”的概念？
金正浩：是的，這是我最近提出的新概念。像之前提到的，我提出概念，但要實(shí)現(xiàn)需要三星、SK海力士等公司的大量努力。這些概念往往在10年、20年后會產(chǎn)生重大影響。我提到過Cerebras，有巨大的GPU，美國也有叫LPU的芯片。它們?yōu)榱俗宰鹦幕驕p少對HBM的依賴，在GPU內(nèi)部集成了SRAM作為內(nèi)存。SRAM比DRAM快約1000倍，但容量小。我研究了一下，無論是Cerebras還是LPU，都面臨SRAM容量不足的問題。據(jù)我了解，整個(gè)12英寸晶圓做成的Cerebras芯片，SRAM也只有44GB，而我認(rèn)為至少需要400到440GB才有意義。
所以我的想法是：制造一個(gè)將整個(gè)12英寸晶圓鋪滿SRAM的芯片，然后再把它堆疊10層、12層或16層。這樣100GB就能變成1600GB，容量驚人。然后在這個(gè)晶圓級SRAM堆疊體上再放置GPU。速度是千倍之快，容量又足夠，這主意聽起來可行。所以我把這個(gè)晶圓級SRAM稱為HBS。我未來的夢想是：HBM、HBF、HBS都變成100層高的大樓，GPU放在最頂層，冷卻系統(tǒng)等也集成在一起，這種3D半導(dǎo)體結(jié)構(gòu)將不可避免地成為未來AI計(jì)算機(jī)的架構(gòu)。
這可能需要10年、20年甚至30年。其中最困難的技術(shù)之一就是供電。在HBS、HBM上面堆疊GPU，需要供應(yīng)數(shù)千安培電流，電力供應(yīng)網(wǎng)絡(luò)設(shè)計(jì)將是最困難的，這將成為技術(shù)核心競爭力。SK海力士、三星、Micron、TSMC都一樣，其次是如何散熱，這是實(shí)現(xiàn)過程中的障礙。目前人們關(guān)注TSMC和三星誰在幾納米工藝上做得好、良率如何，但未來，對于包含HBS在內(nèi)的3D AI計(jì)算機(jī)，如何供電、如何冷卻，將決定企業(yè)的生存。
主持人： HBS簡直是內(nèi)存半導(dǎo)體領(lǐng)域的“黃政民”（比喻大腕）。
金正浩：是“黃政民”沒錯(cuò)。我10年前就聽說Cerebras用12英寸晶圓做GPU，當(dāng)時(shí)心想“什么？這能用在哪兒？”大概是國防AI吧。當(dāng)時(shí)我還挺自大。但兩周前，這家公司在納斯達(dá)克IPO了，讓我改變了想法。還是有用途的。既然Cerebras芯片最大的弱點(diǎn)是內(nèi)存不足，那就把它也堆疊起來。有一天早上我有了這個(gè)想法，讓學(xué)生畫了圖。最近開始談?wù)揌BF，等今年碩士新生入學(xué)，我打算讓他們開始以HBS作為碩博士論文研究方向。
主持人：那SRAM由誰制造？
金正浩：由代工廠制造，TSMC和三星電子都會做。
主持人：今年三星和SK海力士的合計(jì)營業(yè)利潤據(jù)說在500到600萬億韓元之間，這是現(xiàn)實(shí)的目標(biāo)還是過于樂觀的展望？
金正浩：我認(rèn)為是現(xiàn)實(shí)的。我經(jīng)常與三星和海力士的高管進(jìn)行技術(shù)會議，感覺他們的眼神越來越亮。雖然他們不和我談具體的銷售額。現(xiàn)在HBM、HBF的一個(gè)重要特點(diǎn)是“定制化HBM”。以前是制造標(biāo)準(zhǔn)化產(chǎn)品，大量生產(chǎn)，客戶買多買少，價(jià)格波動，這叫“周期”。內(nèi)存廠商不主導(dǎo)，而是由CPU廠商、微軟或電腦廠商決定購買數(shù)量，我們只能多生產(chǎn)一些觀望，如果客戶不買，庫存壓力就在我們身上，這就是“內(nèi)存周期”。
但從HBM4開始，不僅集成GPU功能，另一個(gè)重要功能是HBM之間可以相互通信。以前只做GPU指令的事，現(xiàn)在主張它們之間也要溝通。未來，HBM之間可以競爭，把更多內(nèi)存分配給表現(xiàn)更好的HBM。也就是說，它們內(nèi)部形成組合，不給表現(xiàn)差的HBM向GPU傳遞數(shù)據(jù)的機(jī)會。總之，隨著這些算法、通信功能、GPU功能的加入，每個(gè)公司（谷歌、AMD、NVIDIA）對HBM的設(shè)計(jì)要求都不同，這就是定制化HBM。這樣在開發(fā)初期就簽訂了長期供貨協(xié)議（LTA），沒有訂單就不開始開發(fā)。
現(xiàn)在AI企業(yè)極度需要高性能HBM，所以排隊(duì)求購，市場變成了賣方市場，供方定價(jià)。這是一種范式轉(zhuǎn)變。
主持人：到現(xiàn)在為止，我們與KAIST金正浩教授就半導(dǎo)體生態(tài)進(jìn)行了對話。感謝您今天的分享。
金正浩：謝謝。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.