網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“為了一個(gè)功能，需要再造一個(gè)Google！”Jeff Dean最新對(duì)話：TPU的誕生，與那些差點(diǎn)把服務(wù)器燒了的瘋狂往事

2026-04-27 17:25:08　來(lái)源: AI科技大本營(yíng)

北京舉報(bào)

分享至

揭秘那些寫在教科書之外的硬核黑歷史與底層邏輯。

圖文 | Gemini A I 小分隊(duì)

責(zé)編 | CSDN 編輯部

出品丨AI 科技大本營(yíng)（ID：rgznai100）

在 Google Cloud Next 的主舞臺(tái)上，兩塊泛著金屬冷光的芯片被穩(wěn)穩(wěn)地?cái)[在桌面上。左邊那塊稍微厚重一點(diǎn)，右邊那塊則顯得更加緊湊。

此時(shí)的臺(tái)下，坐著數(shù)千名剛剛聽完 Keynote 一系列大模型新功能發(fā)布的開發(fā)者；而在桌子兩邊，則是科技播客圈和工程界最具分量的四個(gè)人。一邊是著名商業(yè)播客《Acquired》的主播Ben Gilbert和David Rosenthal——就在幾個(gè)月前，他們剛用一檔長(zhǎng)達(dá) 12 小時(shí)的節(jié)目，把 Google 25 年的技術(shù)史扒了個(gè)底朝天；另一邊，則是這段歷史真正的締造者：Google 首席科學(xué)家Jeff Dean，以及 Google AI 基礎(chǔ)設(shè)施高級(jí)副總裁Amin Vahdat。

就在過(guò)去的這大半年里，整個(gè) AI 行業(yè)的敘事正在經(jīng)歷一場(chǎng)劇烈的物理轉(zhuǎn)向。當(dāng)具有長(zhǎng)鏈條推理能力的新一代大模型出現(xiàn)，當(dāng)各種“智能體（Agent）”開始在后臺(tái)日夜不休地調(diào)用工具、生成成千上萬(wàn)行代碼時(shí)，人們突然發(fā)現(xiàn)，過(guò)去那種“重訓(xùn)練、輕推理”的算力消耗模式到頭了。推理端的算力需求，正在從一道涓涓細(xì)流變成決堤的洪水。

與此同時(shí)，大模型帶來(lái)的不再只是軟件層面的代碼競(jìng)速，它已經(jīng)徹底演變成了一場(chǎng)重資產(chǎn)的物理戰(zhàn)爭(zhēng)。為了滿足龐大的能源需求，微軟買下了三里島核電站的產(chǎn)能，亞馬遜和 Google 也在滿世界尋找風(fēng)電、太陽(yáng)能和小型核反應(yīng)堆；英偉達(dá)的新一代架構(gòu)常常因?yàn)榘l(fā)熱和封裝產(chǎn)能牽動(dòng)著整個(gè)華爾街的神經(jīng)。AI 正在猛烈地撞擊著真實(shí)世界的物理壁壘。

在這樣的背景下，Jeff Dean 和 Amin Vahdat 并沒(méi)有在臺(tái)上大談 AGI 還有幾年到來(lái)，也沒(méi)有兜售虛無(wú)縹緲的科幻概念。他們聊起的是 11 年前，為了不讓龐大的語(yǔ)音識(shí)別需求把 Google 拖垮，而在一張幻燈片背面算出來(lái)的TPU雛形；是 2003 年為了造出 1 萬(wàn)個(gè)端口的交換機(jī)，直接把服務(wù)器主板燒起火的極客往事；是今天哪怕手握上千億美元的資本支出預(yù)算，依然會(huì)被一顆 57 美分的德州儀器電容器卡住脖子的工程現(xiàn)實(shí)。

這也是一次極其難得的“軟硬碰撞”。當(dāng)一個(gè)掌管著世界上最前沿模型研發(fā)方向的首席科學(xué)家，遇上一個(gè)掌管著地球上最龐大算力網(wǎng)絡(luò)的基建狂魔，他們每天在會(huì)議室里是如何為了下一代芯片的架構(gòu)討價(jià)還價(jià)的？為了讓模型少等幾毫秒，硬件團(tuán)隊(duì)需要對(duì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)做出怎樣的妥協(xié)？以及，當(dāng) Google 內(nèi)部 75% 的新代碼都已經(jīng)被 AI 自動(dòng)生成時(shí)，人類工程師這最后 1% 的價(jià)值，究竟落在了哪里？

在這場(chǎng)對(duì)談中，你不僅能聽到一段關(guān)于 Google 算力帝國(guó)是如何在誤解與試錯(cuò)中崛起的極客秘史，更能窺見在未來(lái)十年，支撐起整個(gè) AI 時(shí)代的鋼鐵骨架究竟長(zhǎng)什么樣。

以下為這場(chǎng)精彩對(duì)談的完整實(shí)錄：

“我們需要再造一個(gè) Google”：TPU 的瘋狂起點(diǎn)

David Rosenthal & Ben Gilbert：我們是今天的主持人。今天我們將展開一場(chǎng)非常精彩、有趣的對(duì)話。《Acquired》是我們做的一檔超長(zhǎng)篇幅的播客，專門講述科技及其他公司的發(fā)展史。去年，我們做了一個(gè)由三部分組成、長(zhǎng)達(dá) 10 到 12 小時(shí)的系列節(jié)目，深扒了 Google 的整個(gè)歷史——從搜索引擎的誕生，一直講到我們當(dāng)下所處的 AI 時(shí)代。所以，當(dāng) Google打來(lái)電話問(wèn)：“嘿，你們想不想在臺(tái)上采訪 Amin 和 Jeff？”這簡(jiǎn)直是想都不用想的好事。今天非常激動(dòng)能在這里對(duì)他們進(jìn)行采訪。也很高興能和大家一起分享。

Amin Vahdat：臺(tái)上的這些芯片確實(shí)巧奪天工。它們真的很美。

David Rosenthal：右邊這塊看起來(lái)比左邊那塊稍微大一點(diǎn)點(diǎn)。是這樣嗎？

Amin Vahdat：左邊這是 v8t，這是我們的訓(xùn)練性能怪獸；而右邊這塊是 v8i，它在物理尺寸上確實(shí)稍微大一點(diǎn)，它的內(nèi)部構(gòu)造意味著這里蘊(yùn)含了更強(qiáng)的算力。里面有更多的靜態(tài)隨機(jī)存取存儲(chǔ)器（SRAM）。這也是為什么我們能實(shí)現(xiàn)超低延遲推理的部分原因。我們可以把像 KV 緩存之類的東西全都存放在芯片上。高帶寬內(nèi)存（HBM）和 SRAM 之間的數(shù)據(jù)傳輸速度極快。

這一塊則是為吞吐量而生的，提供規(guī)模化的原始算力，每個(gè) Pod 最多可容納 9600 個(gè) TPU。然后通過(guò)我們的數(shù)據(jù)中心網(wǎng)絡(luò)和軟件——其實(shí)如果你聽了今天早上的演講就會(huì)知道——得益于 Pathways 和 JAX，一百萬(wàn)塊芯片可以協(xié)同工作。

Jeff 在這兩項(xiàng)技術(shù)的開發(fā)中發(fā)揮了舉足輕重的作用。它們真的就像一臺(tái)計(jì)算機(jī)在運(yùn)轉(zhuǎn)。換句話說(shuō)，你只需寫下一段代碼，編譯器和運(yùn)行時(shí)環(huán)境就會(huì)自動(dòng)弄清楚，如何將它分配到多達(dá)一百萬(wàn)個(gè) TPU 上去執(zhí)行。

Jeff Dean：甚至只需一個(gè) Python 進(jìn)程就能驅(qū)動(dòng)這整個(gè)龐然大物。

Ben Gilbert：這絕對(duì)是我聽過(guò)“最 Google”的事情了。Jeff，我們想先問(wèn)問(wèn)你，1999 年你加入那個(gè)沒(méi)人看好的小型初創(chuàng)搜索引擎公司時(shí)的情景——你是 Google 的第 30 號(hào)員工。

Jeff Dean：當(dāng)時(shí)我們?nèi)紨D在帕洛阿爾托市中心一家店鋪的樓上，那地方現(xiàn)在是個(gè) T-Mobile 手機(jī)店。現(xiàn)在每次路過(guò)那里感覺都很奇妙。它現(xiàn)在就是個(gè)賣手機(jī)的。

Ben Gilbert：你當(dāng)時(shí)有想過(guò)有一天自己會(huì)設(shè)計(jì)最前沿的硅芯片嗎？

Jeff Dean：我當(dāng)然沒(méi)想過(guò)，因?yàn)槲覊焊鶝](méi)有這方面的經(jīng)驗(yàn)。但我認(rèn)為，就我們要努力實(shí)現(xiàn)的目標(biāo)而言，Google 一直是一家雄心勃勃的公司。我喜歡我們那個(gè)永恒的使命：整合全球信息。我覺得這仍然是我們正在努力做的事情。而這也帶來(lái)了一系列多年來(lái)仍未被完全解決的、非常有趣的純技術(shù)挑戰(zhàn)。

David Rosenthal：說(shuō)到這個(gè)，我們今天想先帶大家回到十多年前的 2013 年，回到 TPU 項(xiàng)目的起點(diǎn)，聊聊當(dāng)時(shí)你和 Google 預(yù)見到了怎樣即將到來(lái)的技術(shù)挑戰(zhàn)，從而催生了你們要自己研發(fā)芯片這個(gè)瘋狂的想法。你能帶我們回到那個(gè)時(shí)刻嗎？整個(gè)項(xiàng)目是怎么開始的？那是個(gè)很棒的故事。

Jeff Dean：其實(shí)比那還要早一點(diǎn)，甚至在2011 年和 2012 年的時(shí)候，我們就開始使用海量的 CPU 機(jī)器來(lái)訓(xùn)練規(guī)模越來(lái)越大的神經(jīng)網(wǎng)絡(luò)了。因?yàn)槲覀儼l(fā)現(xiàn)，每次只要我們擴(kuò)大訓(xùn)練模型的規(guī)模，用更多的數(shù)據(jù)去喂它——我們當(dāng)時(shí)有句口頭禪：“模型越大，數(shù)據(jù)越多，效果越好”。這在我們嘗試過(guò)的許多問(wèn)題中都得到了印證，無(wú)論是語(yǔ)音識(shí)別領(lǐng)域，還是各種不同的計(jì)算機(jī)視覺任務(wù)，以及在 2012 年、2013 年初的語(yǔ)言和翻譯任務(wù)中，都是如此。

Ben Gilbert：而這后來(lái)就被大家通俗地稱為“縮放定律”（Scaling Laws）。

Jeff Dean：我們當(dāng)時(shí)其實(shí)并沒(méi)有對(duì)它進(jìn)行過(guò)什么正式的定義。大家只是在茶水間里閑聊：“哦，我們把模型做大了一倍，效果更好了”，諸如此類的話。但這確實(shí)是我們?cè)?2012 年和 2013 年初，在規(guī)模越來(lái)越大的實(shí)驗(yàn)中實(shí)實(shí)在在看到的結(jié)果。

所以，特別是在語(yǔ)音識(shí)別方面，我們?cè)谶^(guò)去幾個(gè)月里通過(guò)訓(xùn)練更大的模型，使得詞錯(cuò)率下降的幅度，竟然抵得上過(guò)去 20 年語(yǔ)音識(shí)別研究取得的進(jìn)步總和。在那個(gè)時(shí)候，現(xiàn)有的語(yǔ)音系統(tǒng)效果還不夠好，無(wú)法讓人真正愿意去用，因?yàn)榇蟾琶空f(shuō)五個(gè)詞就會(huì)錯(cuò)一個(gè)。想象一下，你口述了一段話，然后還得回過(guò)頭去修改每五個(gè)詞里的一個(gè)錯(cuò)誤，這太讓人抓狂了。

Ben Gilbert：而且那時(shí)候我們已經(jīng)進(jìn)入移動(dòng)互聯(lián)網(wǎng)時(shí)代五年了。

Jeff Dean：尤其是當(dāng)時(shí)的手機(jī)沒(méi)有足夠的算力在本地運(yùn)行語(yǔ)音識(shí)別。所以你只能把音頻發(fā)送到云端，在云端進(jìn)行識(shí)別。但如果我們能把錯(cuò)誤率降低一半，顯然人們就會(huì)開始更頻繁地使用它。

于是我就做了一個(gè)思維實(shí)驗(yàn)——通常大家會(huì)說(shuō)是“信封背面的粗略計(jì)算”，或者是“幻燈片背面的推演”——我當(dāng)時(shí)想：“好吧，假設(shè)有 1 億人每天開始對(duì)著手機(jī)說(shuō)上 3 分鐘的話。為了推出我們想要的最優(yōu)質(zhì)模型，我們需要多少算力？”

結(jié)果算出來(lái)，為了上線這個(gè)新的語(yǔ)音識(shí)別功能，我們需要比Google當(dāng)時(shí)擁有的計(jì)算機(jī)總數(shù)還要多出一倍以上的機(jī)器。

Ben Gilbert：為了一個(gè)功能投入這么多，聽起來(lái)代價(jià)太大了。你等于是需要把 Google 的整個(gè)基礎(chǔ)設(shè)施再?gòu)?fù)制一遍。

Jeff Dean：所以我當(dāng)時(shí)撓了撓頭。心想：“這聽起來(lái)不太妙啊。”

但后來(lái)我們發(fā)現(xiàn)，神經(jīng)網(wǎng)絡(luò)推理有一個(gè)極其不可思議的特性，那就是它對(duì)降低精度有著極高的容忍度。它本質(zhì)上就是一堆線性代數(shù)的基本運(yùn)算、矩陣乘法、向量運(yùn)算，為了不同的模型以不同的方式串聯(lián)在一起。

因此，如果你能造出一塊芯片，它本質(zhì)上就是一臺(tái)性能極其強(qiáng)悍的低精度線性代數(shù)運(yùn)算機(jī)——也就是后來(lái)的TPU——那你就有希望獲得更好的性能。

我們?cè)?2017 年發(fā)表了一篇關(guān)于TPU v1的論文，它的誕生正是源于那個(gè)“幻燈片背面的推演”，論文顯示它的效率是當(dāng)時(shí) CPU 和 GPU 的 30 到 80 倍，延遲則降低了 15 到 30 倍。這就是 TPU 最初的故事。

David Rosenthal：所以當(dāng)時(shí)的邏輯就是，如果要搞語(yǔ)音轉(zhuǎn)文字這類東西，就需要一個(gè) ASIC（專用集成電路），也就是一塊專門為處理這類運(yùn)算而定制的硅芯片。

Jeff Dean：在設(shè)計(jì)過(guò)程中，我們其實(shí)試圖解決幾種不同類型的問(wèn)題。我們有語(yǔ)音識(shí)別，它對(duì)應(yīng)一種特定類別的模型。我們還有用于各種視覺任務(wù)的多種卷積神經(jīng)網(wǎng)絡(luò)模型。然后在最后一刻，我們開始覺得：“哦，這些 LSTM（長(zhǎng)短期記憶網(wǎng)絡(luò)）的東西挺有意思的。哪怕我們已經(jīng)開始設(shè)計(jì)芯片了，還是給它們加點(diǎn)額外的支持吧。”

正是因?yàn)檫@樣，我們后來(lái)才能支持 Google 翻譯以及其他一堆類似 LSTM 的應(yīng)用。

Ben Gilbert：LSTM 正是 Transformer 架構(gòu)的前身。

“第一代產(chǎn)品直接燒了”：被群嘲后，自研硬件的血淚史

David Rosenthal：大多數(shù)公司在這個(gè)時(shí)候面臨這種問(wèn)題，哪怕是資源雄厚的其他大型科技公司，估計(jì)都會(huì)跑去找，比如英特爾、博通或者英偉達(dá)，然后說(shuō)：“嘿，給我造塊芯片吧。”

但 Google 并沒(méi)有這么做。為什么？

Amin Vahdat：我來(lái)講個(gè)故事吧。這可能算是個(gè)坊間傳聞——因?yàn)槟鞘窃谖壹尤?Google之前的事了。也許 Jeff 可以幫我證實(shí)一下。

在早期，我們意識(shí)到，為了支持 Jeff 和其他人在 Google 早期構(gòu)建的一些系統(tǒng)，比如 MapReduce、Google 文件系統(tǒng)（GFS）等等，我們需要一個(gè)擁有1萬(wàn)個(gè)端口、每秒 1GB 帶寬——這在 2003 年可是個(gè)天文數(shù)字——的無(wú)阻塞以太網(wǎng)交換機(jī)。而這就是我們想要的。所以我們當(dāng)時(shí)真的發(fā)布了一個(gè)——

David Rosenthal：而這東西當(dāng)時(shí)根本不存在。很難想象一個(gè)設(shè)備上有1萬(wàn)個(gè)端口。

Amin Vahdat：不管別人怎么想，反正這就是我們想要的。在那個(gè)年代，主流帶寬還是每秒 100 兆，能有 32 個(gè)端口左右你就謝天謝地了。所以我們實(shí)際上發(fā)了一份 RFQ（報(bào)價(jià)請(qǐng)求），把它發(fā)了出去，結(jié)果所有的網(wǎng)絡(luò)公司……每個(gè)人都在嘲笑我們。

每一家都說(shuō)：“這簡(jiǎn)直是個(gè)笑話。你們做不到的。1 萬(wàn)個(gè)端口，絕不可能。這就是你們異想天開。”

所以，Google 一如既往地展現(xiàn)了它的極客本色，說(shuō)：“那我們就自己搞。網(wǎng)絡(luò)嘛，能有多難？” 于是我們打造了第一個(gè)系統(tǒng)，而且我們實(shí)際上是把它做成了一張PCI 擴(kuò)展卡，因?yàn)槲覀冇X得傳統(tǒng)的網(wǎng)絡(luò)盒子沒(méi)什么意義。我們懂服務(wù)器。我們要造一張 PCI 卡，然后把它插進(jìn)服務(wù)器里。

結(jié)果第一代產(chǎn)品直接起火了。事實(shí)證明，搞硬件確實(shí)很難。它失敗了。

但是不，我們沒(méi)有放棄。我們?cè)炝说诙５诙鷮?shí)際上投入了生產(chǎn)。我想現(xiàn)在我可以坦白說(shuō)，它并不怎么好用。實(shí)際上大家都很討厭它。他們雖然在用，但都想盡量避開那些插了這卡的服務(wù)器。

第三代產(chǎn)品就是那個(gè)無(wú)阻塞的、當(dāng)時(shí)已經(jīng)達(dá)到每秒 10GB 帶寬、擁有 1 萬(wàn)個(gè)端口的交換機(jī)。它不是一個(gè)單獨(dú)的盒子。它是數(shù)百個(gè)盒子排列成一種叫做 Clos 拓?fù)涞目芍嘏艧o(wú)阻塞拓?fù)浣Y(jié)構(gòu)。它在整個(gè) Google 內(nèi)部大獲成功。它改變了 Google。

我認(rèn)為正是像這樣的經(jīng)驗(yàn)教訓(xùn)，讓我們?cè)敢馊ネ顿Y那些看起來(lái)很瘋狂的東西，那些所有傳統(tǒng)觀念、所有懂點(diǎn)網(wǎng)絡(luò)的人都覺得荒謬的東西。我們總是愿意站出來(lái)說(shuō)，我們要試一試。我們?cè)敢獬惺艿谝淮稳计鸫蠡鸬膽K痛失敗。第二次它是個(gè)還湊合的產(chǎn)品，但我們繼續(xù)前行。然后是第三次、第四次，還有我們今天宣布的Virgo——那個(gè)百萬(wàn) TPU 網(wǎng)絡(luò)，它正是第三次迭代在邏輯上的延續(xù)。

而我有幸在 2010 年把開發(fā)第四代版本作為我在 Google 的新人項(xiàng)目。所以我們?cè)敢馊L試——我不用去處理那場(chǎng)大火，但我享受了那場(chǎng)大火帶來(lái)的紅利。但我認(rèn)為這在某種程度上是相似的，因?yàn)槿绻慊氐?2003 年，你問(wèn)：“制造加速器的傳統(tǒng)智慧是什么？”

答案是，不，你不要去造加速器。你不要為單個(gè)工作負(fù)載去制造 ASIC，因?yàn)樗鼈兒芸炀蜁?huì)過(guò)時(shí)。等你把它推向市場(chǎng)的時(shí)候，世界早就把你拋在腦后了。

所以我認(rèn)為我們當(dāng)時(shí)可能本可以去英偉達(dá)，或者別的什么公司，然后說(shuō)：“嘿，你們能為這個(gè)專門造點(diǎn)東西嗎？” 然后可能被告知：“好的，這需要花這么多時(shí)間”等等。

不過(guò)，與我們的網(wǎng)絡(luò)設(shè)備不同，第一版 TPU v1 就成功了。它不僅能用，而且效果非常好。

David Rosenthal：速度極快，大概只用了18個(gè)月。

Jeff Dean：我想從有了想法到實(shí)際部署，只用了15個(gè)月。

David Rosenthal：真是不可思議。

Jeff Dean：我們當(dāng)時(shí)還抱著投機(jī)的心態(tài)買了一大批，雖然當(dāng)時(shí)還不知道要怎么用，但后來(lái)全用光了。我當(dāng)時(shí)跑去攔住我們當(dāng)時(shí)的首席財(cái)務(wù)官 Patrick Pichette，我說(shuō)我們應(yīng)該買一大堆這玩意兒。他問(wèn)：“多少？”我說(shuō)：“很多很多。”

Ben Gilbert：嗯，這就像是那種情況：你看，既然我們有這么多 Google 工程師，我們也許應(yīng)該給他們點(diǎn)好玩的玩具，看看他們能搗鼓出什么新產(chǎn)品來(lái)。而且，甚至在 2021、2022 年左右我們現(xiàn)在所處的這場(chǎng)真正的 AI 大爆發(fā)之前，就已經(jīng)有很多機(jī)器學(xué)習(xí)的狹義應(yīng)用在Google的產(chǎn)品中大放異彩了。

Jeff Dean：我給你舉個(gè)例子。這不是一個(gè) Google 的常規(guī)產(chǎn)品，但在 AlphaGo 對(duì)戰(zhàn)李世石的比賽中，我們使用了整整兩個(gè)機(jī)架的 TPU v1 芯片來(lái)進(jìn)行推理。我后來(lái)去參觀數(shù)據(jù)中心的時(shí)候，甚至還在那個(gè)機(jī)架旁邊貼了一個(gè)紀(jì)念版的圍棋棋盤。

正是因?yàn)閾碛辛舜罅坎⑿械膶Ｓ?ASIC，我們才得以對(duì)落子空間進(jìn)行如此深度的探索，這是一個(gè)極其關(guān)鍵的因素。

Ben Gilbert：而李世石當(dāng)時(shí)并沒(méi)有意識(shí)到這一點(diǎn)。你知道，我們之前沒(méi)聊過(guò)這個(gè)，但我回想起了我們做調(diào)研時(shí)發(fā)現(xiàn)的一點(diǎn)。TPU v1 真的能塞進(jìn)硬盤倉(cāng)里嗎？

Jeff Dean：它們是基于 PCIe 接口的擴(kuò)展卡，所以你只需要把它們插進(jìn) PCI 插槽里就行了。

Ben Gilbert：我一直覺得這是一種非常聰明的做法，就好像在說(shuō)：“好吧，有很多東西我們不想去碰。我們只想專注于解決這個(gè)非常狹窄的問(wèn)題，我們能不能直接把它塞進(jìn)現(xiàn)有的硬件里。”

Jeff Dean：我們當(dāng)時(shí)試圖把模型塞進(jìn)單張卡里，而這個(gè)事實(shí)讓事情變得簡(jiǎn)單了，因?yàn)槟銓?shí)際上不需要那么大的帶寬來(lái)讓數(shù)據(jù)進(jìn)出這張卡。然而，如果你現(xiàn)在想塞進(jìn)大得多的模型，即使只是用于推理，它們也無(wú)法容納在單一芯片上，你就需要復(fù)雜得多的網(wǎng)絡(luò)，就像我們?cè)?v8i 或后續(xù)幾代 TPU 上所做的那樣。

David Rosenthal：而真正帶來(lái)質(zhì)變的是幾年后問(wèn)世的 TPU v2，它把256個(gè)稍微加強(qiáng)版的 v1 通過(guò)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)連接在了一起。那時(shí)的頓悟是，我們不僅能用它們來(lái)提供服務(wù)，還能用它們來(lái)訓(xùn)練這些大模型。

Jeff Dean：而且同樣是利用了降低精度的特性，這意義重大。

想象一下：把一個(gè)帶有六位小數(shù)的分?jǐn)?shù)乘以另一個(gè)帶有六位小數(shù)的數(shù)字。這對(duì)你來(lái)說(shuō)超級(jí)難，對(duì)吧？嗯，這對(duì)計(jì)算機(jī)來(lái)說(shuō)也超級(jí)難。

所以，如果你能把相乘的數(shù)字從小數(shù)點(diǎn)后六位減少到只有一位，你就能用更簡(jiǎn)單的乘法器單元去計(jì)算多得多的數(shù)字，并且能夠并行處理更多運(yùn)算。

從本質(zhì)上講，你可以在相同面積的芯片里塞進(jìn)更多的乘法器，這不僅能給你帶來(lái)大得多的吞吐量，還能大幅降低延遲，并且在計(jì)算結(jié)果時(shí)，減少了你需要從內(nèi)存中讀取和寫回的數(shù)據(jù)量。所以，對(duì)于深度學(xué)習(xí)和計(jì)算機(jī)架構(gòu)師來(lái)說(shuō)，這簡(jiǎn)直就是絕配。

Amin Vahdat：我描述這事兒的方式是，如果你回想一下高中物理，或者大學(xué)物理課，當(dāng)教授或老師在黑板上解題時(shí)，他們會(huì)推導(dǎo)出各種各樣的近似值。這曾經(jīng)快把我逼瘋了，因?yàn)槲沂莻€(gè)徹頭徹尾的“精度控”，但教授會(huì)說(shuō)：“3π，我們就把它當(dāng)成 10 吧。” 然后這些數(shù)字在計(jì)算過(guò)程中，偏大和偏小的誤差就會(huì)相互抵消。最后，他或者她就會(huì)得出一個(gè)與真實(shí)答案驚人接近的結(jié)果，而這一切僅僅是通過(guò)一路近似算出來(lái)的。

所以，當(dāng)你能在腦子里完成計(jì)算，并且只用大概百分之一的力氣就能得到幾乎一樣的答案時(shí)，降低精度就是件好事。

Ben Gilbert：但這似乎會(huì)帶來(lái)一種權(quán)衡，它會(huì)影響下游的模型訓(xùn)練，比如有人會(huì)說(shuō)：“嘿，我們來(lái)做一個(gè)使用高精度的優(yōu)秀模型吧。”我總是覺得非常不可思議，我們今天擁有的這些令人驚嘆的前沿模型，竟然都是在精度盡可能最低的硬件上訓(xùn)練出來(lái)的。

Jeff Dean：一種理解方式是，你在模型中有一堆不同的權(quán)重，對(duì)吧？如果你降低這些權(quán)重的精度，如果只降一點(diǎn)點(diǎn)，影響并不大。如果你降得很多，那你確實(shí)會(huì)損失一些模型質(zhì)量，但你可以通過(guò)增加，比如說(shuō) 20% 的權(quán)重來(lái)彌補(bǔ)這些質(zhì)量損失，哪怕你把精度的位數(shù)砍掉了一半。所以你就知道這是一筆劃算的買賣，因?yàn)樗屇愕哪Ｐ驮趨?shù)數(shù)量上稍微變大了一點(diǎn)，但在你需要處理的比特?cái)?shù)上卻變小了很多。

“YouTube里全是貓”： Scaling Law 的蠻荒時(shí)代

David Rosenthal：你們 Google 如今擁有一個(gè)處于行業(yè)前沿的硅加速器業(yè)務(wù)，如果你愿意的話，可以稱之為“基建業(yè)務(wù)”。你們制造 TPU。這么說(shuō)很貼切。而且它與一個(gè)前沿人工智能實(shí)驗(yàn)室結(jié)合在一起，全都在同一個(gè)屋檐下。這種緊密的合作是從什么時(shí)候開始的？顯然，在 TPU 剛起步時(shí)，今天概念中的這種“前沿實(shí)驗(yàn)室”還不存在。

Amin Vahdat：我想說(shuō)，早期在大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練上的工作，實(shí)際上為 v1 提供了方向。所以，從某種意義上說(shuō)，我們從一開始就已經(jīng)這么做很久了。Jeff 領(lǐng)導(dǎo)的 Google 研究院（Google Research）在這里做了許多先驅(qū)性的工作，而且多年來(lái)一直在持續(xù)推進(jìn)，他不僅深入?yún)⑴c了 v1，還深度參與了整個(gè) TPU 項(xiàng)目。

我們提到了那個(gè)展現(xiàn)了非凡遠(yuǎn)見的“幻燈片推演”，但 Jeff 一直深度參與了 v1、v2、v3 的研發(fā)，包括架構(gòu)設(shè)計(jì)、細(xì)節(jié)打磨，并將來(lái)自研究領(lǐng)域的全部知識(shí)以及未來(lái)的發(fā)展方向，注入到每一代 TPU 中，包括我們今天在這里看到的這兩款。

Ben Gilbert：那篇關(guān)于 YouTube 識(shí)別出貓的論文，是用 TPU 跑出來(lái)的，對(duì)吧？那是 TPU v1 還是……

Jeff Dean：不，那甚至是在 TPU 誕生之前的事了。那是在 2012 年。當(dāng)時(shí)我們正試圖擴(kuò)大大型神經(jīng)網(wǎng)絡(luò)的規(guī)模。我們對(duì)圖像的無(wú)監(jiān)督學(xué)習(xí)目標(biāo)有一些想法。所以我們說(shuō)：“好吧，我們就隨便挑 1000 萬(wàn)幀隨機(jī)的 YouTube 畫面，看看模型能從中學(xué)到什么。”

于是我們動(dòng)用了 2000 臺(tái)不同的機(jī)器，在 16,000 個(gè) CPU 核心上訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)。結(jié)果我們訓(xùn)練出了一個(gè)多層模型，在訓(xùn)練完成后，你可以去觀察頂層的不同神經(jīng)元會(huì)對(duì)什么樣的圖像產(chǎn)生興奮反應(yīng)。

結(jié)果發(fā)現(xiàn)，因?yàn)槲覀兪怯?1000 萬(wàn)個(gè)隨機(jī)的 YouTube 視頻訓(xùn)練它的，其中一個(gè)神經(jīng)元在看到貓臉時(shí)會(huì)變得非常興奮，因?yàn)?YouTube 上有很多貓的視頻，而其他神經(jīng)元?jiǎng)t會(huì)對(duì)汽車的零部件之類的事物感到興奮。而這完全是無(wú)監(jiān)督的。我們從來(lái)沒(méi)有告訴過(guò)模型這是一只貓，或者這是一輛車、一個(gè)人。但因?yàn)槲覀冇?xùn)練了一個(gè)比別人嘗試過(guò)的都要大 50 倍的模型，這個(gè)模型就開始純粹在無(wú)監(jiān)督的情況下發(fā)展出這些表征能力。我認(rèn)為這也是我們?cè)趦?nèi)部得出“模型越大，數(shù)據(jù)越多”這一啟示的一部分。

Ben Gilbert：我要稍微跑個(gè)題，因?yàn)槲矣X得這個(gè)話題很有意思。這項(xiàng)研究發(fā)展到今天變成什么樣了？比如盯著特定的神經(jīng)元說(shuō)：“這是一個(gè)識(shí)別貓的神經(jīng)元嗎？還是更抽象的概念？”

Amin Vahdat：我們?cè)?Google 內(nèi)部曾進(jìn)行過(guò)一場(chǎng)激烈的辯論，爭(zhēng)論我們是否應(yīng)該將這些深度模型用于搜索。

Jeff 對(duì)此再清楚不過(guò)了，因?yàn)槲覀兠媾R的一個(gè)挑戰(zhàn)是，很多時(shí)候，也許是大多數(shù)時(shí)候，這些模型的表現(xiàn)都優(yōu)于人類手動(dòng)微調(diào)的算法，對(duì)吧？比如那種你可以閱讀并理解的算法：“哦，我明白這個(gè)算法想干什么，這是它給出的搜索結(jié)果。” 模型的表現(xiàn)會(huì)比它更好。

但問(wèn)題來(lái)了——你無(wú)法解釋為什么。比如為什么這個(gè)神經(jīng)元變成了“貓神經(jīng)元”，而另一個(gè)神經(jīng)元變成了……所以如果有漏洞，你該怎么去調(diào)試它？我認(rèn)為這個(gè)問(wèn)題一直延續(xù)到了今天。Jeff，關(guān)于這個(gè)你或許可以多說(shuō)兩句。

Jeff Dean：我認(rèn)為，現(xiàn)在的無(wú)監(jiān)督學(xué)習(xí)已經(jīng)稍微退居二線，讓位于我所說(shuō)的“自監(jiān)督學(xué)習(xí)”了。因?yàn)楝F(xiàn)如今，你訓(xùn)練那些最強(qiáng)大的語(yǔ)言模型的方法，就是拿大量的文本，然后把其中的一部分藏起來(lái)，讓模型去猜缺失的是什么。通常你會(huì)讓它這樣猜：你給它看文檔的前綴，比如一個(gè)句子的前半部分，然后讓它猜下一個(gè)詞。毫不夸張地說(shuō)，這就是今天那些擁有各種驚人能力的語(yǔ)言模型的全部訓(xùn)練目標(biāo)。

還有其他的變體，比如你可以拿一段文本，隱藏掉里面大概 10% 的詞，然后模型在嘗試填空時(shí)，可以同時(shí)看左邊和右邊的上下文。這有點(diǎn)像你小時(shí)候可能玩過(guò)的“瘋狂填詞”（Mad Libs）游戲。但這對(duì)于對(duì)話應(yīng)用來(lái)說(shuō)并不是特別好用，因?yàn)樵趯?shí)際對(duì)話發(fā)生之前，你是看不到對(duì)話后續(xù)部分的。不過(guò)，這種方法在生成文檔摘要之類的事情上，還是有很好的用武之地的。

軟硬件的“宮心計(jì)”：頂級(jí)實(shí)驗(yàn)室如何協(xié)同設(shè)計(jì)？

Ben Gilbert：我想深入探討一下 David 剛才提出的一個(gè)概念。你們這邊有 TPU 團(tuán)隊(duì)。那邊有 Google DeepMind。如果我空降到你們的一些會(huì)議里，那會(huì)是一幅怎樣的場(chǎng)景？誰(shuí)會(huì)提出什么想法？每個(gè)團(tuán)隊(duì)都在要求些什么？有多大的靈活性？基本上就是你們?nèi)粘９ぷ鞯囊惶臁?/p>

Amin Vahdat：靈活性非常大，而且這里最美妙的一點(diǎn)是，大家的目標(biāo)是一致的：構(gòu)建盡可能最好的模型，盡可能最高效的模型。所以我認(rèn)為這里面有很多的相互妥協(xié)與配合。

舉個(gè)例子，研究團(tuán)隊(duì)可能有七個(gè)看起來(lái)非常、非常大有可為的研究方向。實(shí)際上他們遠(yuǎn)不止七個(gè)。硬件團(tuán)隊(duì)也有七個(gè)看起來(lái)非常、非常大有可為的硬件方向。

那么，你如何將這兩者結(jié)合起來(lái)呢？然后就會(huì)有一系列的討價(jià)還價(jià)，因?yàn)樗麄冏罱K會(huì)達(dá)成這樣的共識(shí)：“好吧，如果為了你的模型，你把你那七個(gè)想法中的一個(gè)往這個(gè)方向改一改，然后我也把我在硬件上的七個(gè)想法中的一個(gè)改一改，會(huì)怎么樣？因?yàn)槲覀儧](méi)法完全照你們想要的做。” 這種事經(jīng)常發(fā)生。

研究團(tuán)隊(duì)會(huì)跑來(lái)找硬件團(tuán)隊(duì)說(shuō)：“我們想要 X。” 硬件團(tuán)隊(duì)會(huì)說(shuō)：“那不可能。”

現(xiàn)在，如果你們是在不同的公司，對(duì)話到這兒就結(jié)束了。“好吧，拜拜。我們也許會(huì)去找另一個(gè)搞硬件的人談?wù)劇Ｄ憔芙^了我們的報(bào)價(jià)請(qǐng)求。所以，我們想要一個(gè)1萬(wàn)個(gè)端口的交換機(jī)。”

反過(guò)來(lái)，在許多其他情況下，硬件團(tuán)隊(duì)會(huì)跑去找研究團(tuán)隊(duì)說(shuō)：“我們搞出了一個(gè)超棒的新玩意兒。你們想拿它干點(diǎn)啥？” 研究團(tuán)隊(duì)會(huì)說(shuō)：“啥也不干。聽起來(lái)毫無(wú)用處。我確信你們的硬件小玩意兒很酷，但我們不感興趣。”

所以正是這種相互的磨合促使他們?nèi)ハ耄骸昂冒桑绻矣媚銈兊挠布⊥嬉鈨海业哪Ｐ褪遣皇悄芡娉鳇c(diǎn)不一樣的新花樣？” 所以，這種相互配合的精神真的每天都在，這種對(duì)聯(lián)合空間的探索也每天都在。這不是我的地盤，也不是你的地盤，這是我們的共同地盤。我們?nèi)绾螛?gòu)建一個(gè)系統(tǒng)，能夠盡可能高效地交付模型、服務(wù)、訓(xùn)練、智能體（Agents）以及所有的一切。這發(fā)生在各個(gè)層級(jí)。現(xiàn)在 Google 有很多人，所以很多這種交流都是工程師對(duì)工程師的直接碰撞，這正是你所期望的。然后，其中一些想法就會(huì)脫穎而出。

Jeff Dean：我想補(bǔ)充一點(diǎn)，在人工智能和機(jī)器學(xué)習(xí)這樣一個(gè)日新月異的領(lǐng)域里，作為一名硬件設(shè)計(jì)師是極其艱難的。因?yàn)榛旧希绻憧紤]今天開始設(shè)計(jì)一款芯片，可能需要兩年時(shí)間才能完成設(shè)計(jì)并部署到數(shù)據(jù)中心，然后它還需要服役三到六年之類的時(shí)間。所以你實(shí)際上是在試圖預(yù)測(cè)這個(gè)發(fā)展極其迅猛的領(lǐng)域，在未來(lái)兩到六年、甚至八年的時(shí)間跨度里會(huì)走向何方。

而就在六個(gè)月前，我們可能剛剛用某種新算法徹底改變了機(jī)器學(xué)習(xí)的許多方面。所以這超級(jí)難。因此，能擁有那些真正在小規(guī)模上嘗試各種想法、并且這些想法看起來(lái)很有希望成功的研究人員的洞察力，是非常棒的。

對(duì)于一個(gè)研究人員來(lái)說(shuō)，最美妙的事情莫過(guò)于一個(gè)看起來(lái)“呼之欲出”的想法，因?yàn)槟阒乐灰偌影褎牛憔湍茏屗烧妫欢切┰趺磁疾灰娖鹕⒛阍嚤M了所有辦法也不行的想法，可能就沒(méi)那么讓人興奮了。

但我認(rèn)為那種相互配合和協(xié)同設(shè)計(jì)真的非常重要。我實(shí)際上可以給你舉一個(gè) v8i 的例子。我們想做的一件事是為強(qiáng)化學(xué)習(xí)進(jìn)行非常長(zhǎng)的軌跡追蹤，你需要解碼海量的 Token。比方說(shuō)你生成了一段大約 500 行的代碼，然后你希望能夠運(yùn)行它，看看代碼是否能跑通并經(jīng)過(guò)單元測(cè)試，如果可以，它們就會(huì)在強(qiáng)化學(xué)習(xí)中獲得獎(jiǎng)勵(lì)。

那么，為了解碼這些 Token，你必須承受每次生成 Token 時(shí)的延遲，對(duì)于一次生成 60,000 個(gè) Token 來(lái)說(shuō)，如果這需要很長(zhǎng)時(shí)間，那么你的強(qiáng)化學(xué)習(xí)就會(huì)花費(fèi)長(zhǎng)得多的時(shí)間，因?yàn)樗鼪](méi)有達(dá)到盡可能低的延遲。

因此，研究團(tuán)隊(duì)找到 TPU 硬件團(tuán)隊(duì)說(shuō)：“我們真的需要一種方法來(lái)大幅降低延遲，因?yàn)檫@不僅能改善在線推理，還能提升強(qiáng)化學(xué)習(xí)的效率。” 于是大家湊在一起集思廣益，說(shuō)：“嘿，我們其實(shí)可以對(duì)正在設(shè)計(jì)的芯片做一些相對(duì)較小的改動(dòng)，但改變網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。” 這實(shí)際上不會(huì)是一個(gè)翻天覆地的變化，但它真的能極大地改善解碼的延遲。

Amin Vahdat：這就是蝴蝶拓?fù)浣Y(jié)構(gòu)。

Jeff Dean：所以我認(rèn)為這是一個(gè)非常清晰、具體的例子，展現(xiàn)了我們是如何進(jìn)行協(xié)同設(shè)計(jì)的。

Amin Vahdat：多年來(lái)，我們構(gòu)建這些 TPU 都是為了追求吞吐量，而 Jeff 剛才提到的那個(gè)推理例子，我們過(guò)去基本上是通過(guò)將許多許多查詢組成流水線來(lái)控制延遲的。所以我們會(huì)同時(shí)處理大量查詢。但對(duì)于強(qiáng)化學(xué)習(xí)，你沒(méi)法把很多查詢做成流水線。就像 Jeff 舉的那個(gè)絕佳例子，你正試圖生成這500行代碼。運(yùn)行它，然后測(cè)試它并獲得結(jié)果。你沒(méi)法用流水線來(lái)處理。

所以，那個(gè)為吞吐量?jī)?yōu)化的引擎——它現(xiàn)在依然存在，因?yàn)閷?duì)于其他用例，你仍然需要那種龐大的吞吐量——并不最適合這種“好吧，讓我先跑出一個(gè)結(jié)果來(lái)”的低延遲場(chǎng)景。硬件團(tuán)隊(duì)本來(lái)會(huì)自然而然地傾向于說(shuō)：“我只要把最后一個(gè)環(huán)節(jié)弄快點(diǎn)就行了。” 但這完全忽略了即將到來(lái)的研究問(wèn)題的實(shí)際用例。如果沒(méi)有那種密切的溝通，你就會(huì)錯(cuò)過(guò)這個(gè)關(guān)鍵點(diǎn)。

Ben Gilbert：未來(lái)是未知的，未來(lái)是模糊的，而且你往未來(lái)每多看一天，它就變得越發(fā)不清晰。你們有這么多世界級(jí)的研究人員正在開發(fā)，比如下一個(gè) Transformer 會(huì)是什么？而且你們對(duì)下一次迭代的信心存在著巨大的梯度差異。當(dāng)你們?cè)诠杵现挥泄潭ǖ目臻g，而且這東西還要服役兩到八年的時(shí)候，你們是如何分配籌碼下注的？

Amin Vahdat：這是我們每天都在激烈爭(zhēng)論的問(wèn)題。

Jeff Dean：這就是每天協(xié)同設(shè)計(jì)的整個(gè)過(guò)程，對(duì)吧？

Amin Vahdat：你可能有成千上萬(wàn)個(gè)想法，但你不可能把它們?nèi)既M(jìn)硅片里。正如你所說(shuō)，它們?nèi)际钦雇磥?lái)兩三年的概率分布函數(shù)。而你每一代只能挑選四個(gè)左右的想法。也許是五個(gè)，但絕不是一千個(gè)。你只能挑出四五個(gè)宏大、冒險(xiǎn)且大膽的東西放進(jìn)去。好的。那么現(xiàn)在，你如何去預(yù)測(cè)未來(lái)呢？實(shí)際上，你是去寫模擬器。

換句話說(shuō)，我們并不是完全在憑主觀說(shuō)：“好吧，我喜歡這家伙。我不喜歡那個(gè)人，所以我要去看書了。” 我們實(shí)際上是在進(jìn)行內(nèi)部的“大比武”。

Jeff Dean：擁有高保真度的模擬器真的、真的非常重要。

Amin Vahdat：你必須對(duì)工作負(fù)載做出預(yù)測(cè)。有許許多多的變量。模擬器并不是……到最后，它們可能會(huì)從那一千個(gè)想法中篩選掉 90%。甚至可能是 95%。

這是件好事。但現(xiàn)在你手里還有 50 個(gè)，對(duì)吧？接下來(lái)的就是主觀判斷了，比如，我們認(rèn)為這個(gè)東西在三年后會(huì)有多重要，相比之下，另一個(gè)東西在五年后或兩年后又會(huì)有多重要。

Ben Gilbert：而且我敢肯定，你們也在尋找巧妙的折中方案，比如：“我們能不能用一些獨(dú)特的乘法器或者這里的什么東西，把這兩件事都給辦了？”

Amin Vahdat：但空間終究是有限的。不可避免地會(huì)有一些人感到些許失望，但我認(rèn)為，大家都在同一個(gè)團(tuán)隊(duì)、都有著同一個(gè)目標(biāo)的美妙之處在于，每個(gè)人都參與了這個(gè)過(guò)程。實(shí)際上，關(guān)于 Google 的另一件重要的事情是，大家有一種共識(shí)——而且我認(rèn)為這也是事實(shí)——即這是一個(gè)公開透明、數(shù)據(jù)驅(qū)動(dòng)的過(guò)程。沒(méi)有完美的決定，大家只是在一起做出他們所能做出的最佳決定，然后相互信任：“好吧，這就是我們做出的決定，現(xiàn)在我們要去執(zhí)行它了。”

而且也許 12 個(gè)月后又會(huì)有一趟新列車（新想法）到來(lái)，也許 12 個(gè)月后會(huì)有兩趟列車到來(lái)，誰(shuí)知道呢？所以，也許我這次沒(méi)趕上這趟車，但我為加深理解做出了貢獻(xiàn)。也許我能趕上下一趟車。

Ben Gilbert：TPU v9 就可以有那個(gè)功能了。你們現(xiàn)在是每年都在做新芯片嗎？

Amin Vahdat：數(shù)據(jù)似乎表明，我們將來(lái)每年都會(huì)推出新芯片。而且一年有兩款。

“從一萬(wàn)個(gè)模型到幾個(gè)”：谷歌 AI 中樞的統(tǒng)一之路

David Rosenthal：所以我們一直在談?wù)?Google 內(nèi)部研究團(tuán)隊(duì)和 TPU 團(tuán)隊(duì)之間這種令人驚嘆的互動(dòng)。如今還有第三個(gè)維度，對(duì)吧？這在 TPU 項(xiàng)目剛開始時(shí)是不存在的，那就是——我敢肯定在座有很多 Google 員工，也可能有很多現(xiàn)在正在使用 TPU 的非 Google 員工，我希望如此——第三方用戶。

這在整個(gè)體系中扮演了什么角色？或者實(shí)際上，先給我們講講決定在Google Cloud上向第三方開放 TPU 的過(guò)程吧？我想象那一定是個(gè)復(fù)雜的決定。

Amin Vahdat：其實(shí)并不復(fù)雜。我們?cè)?2018 年發(fā)布了它們。可以這么說(shuō)，Jeff 從第一天起，就一直是將 TPU 向?qū)W術(shù)界和其他公司等外部人員開放的堅(jiān)定支持者。

桑達(dá)爾（Sundar）在 2018 年宣布了首款云 TPU。我想我們可能是在 2017 年做出的決定。所以大概是在 v3 左右的時(shí)候，但我們不想發(fā)布 v1。我的意思是，Jeff 知道它能行。其他許多人也知道它能行，但它還沒(méi)有被廣泛證明。

v2 是我們第一次用于訓(xùn)練。所以到了 v3 的時(shí)候，大家都覺得：“我的天哪，這東西是真的牛。其他人也能利用它。” 而且我認(rèn)為我們看到了世界上機(jī)器學(xué)習(xí)的應(yīng)用正在不斷增長(zhǎng)，對(duì)吧？比如 Google 在采用這項(xiàng)技術(shù)方面走得比較靠前，但我們看到許多不同的公司和機(jī)構(gòu)也意識(shí)到，這種方法可以解決他們關(guān)心的問(wèn)題。

David Rosenthal：但與此同時(shí)，我敢肯定，Google 內(nèi)部的需求絕對(duì)足以消化掉你們生產(chǎn)出來(lái)的每一個(gè)新增的 TPU。

Amin Vahdat：現(xiàn)在依然如此。所以我認(rèn)為，這當(dāng)然就變成了“你如何將你的想法融入 TPU”的另一種變體，它是一個(gè)投資組合。我認(rèn)為它就是一個(gè)投資組合。

換句話說(shuō)，我們極其幸運(yùn)，我們擁有云服務(wù)，我們擁有世界領(lǐng)先的研究實(shí)驗(yàn)室，我們還有各種面向用戶的服務(wù)。換句話說(shuō)，我們擁有分發(fā)渠道。我們有 12 個(gè)日活躍用戶超過(guò) 5 億的服務(wù)，而且它們?nèi)荚谑褂?TPU。好的。那么現(xiàn)在你只有有限數(shù)量的 TPU。你該如何在它們之間進(jìn)行分配？

Jeff Dean：我想說(shuō)，在過(guò)去幾年里幫了大忙的一件事是，在 Gemini 之前，我們有許多不同種類的模型被不同團(tuán)隊(duì)用于各種各樣的任務(wù)。我們有用于視覺任務(wù)的卷積模型。我們有許多用于推薦系統(tǒng)的模型，還有一些用于廣告預(yù)測(cè)的模型，而這些模型都有點(diǎn)截然不同。所以，對(duì)于 TPU 硬件團(tuán)隊(duì)來(lái)說(shuō)，要弄清楚我們應(yīng)該更看重哪一個(gè)并為其進(jìn)行優(yōu)化，實(shí)際上變得有點(diǎn)困難，因?yàn)槟憧赡苄枰煌愋偷募夹g(shù)。

但隨著 Transformer 的使用變得越來(lái)越普遍，你可以專注于讓 Transformer 模型運(yùn)行得極其出色，將其作為一個(gè)非常重要的用例，結(jié)果你最終覆蓋的用例范圍，比我們以前要大得多。

Ben Gilbert：這是最近才做出的決定，對(duì)吧？“All-in”一個(gè)超級(jí)大模型，這大概是 2023 年左右的決定。

Jeff Dean：是的，沒(méi)錯(cuò)。我的意思是，這正是 2018 年 Pathways 項(xiàng)目的初衷，當(dāng)時(shí)的愿景就是我們應(yīng)該訓(xùn)練一個(gè)能夠處理所有模態(tài)的統(tǒng)一大模型。但這是一個(gè)相當(dāng)復(fù)雜且漫長(zhǎng)、宏大的計(jì)劃。所以我們花了一段時(shí)間才走到今天這一步。

Amin Vahdat：這個(gè)決定其實(shí)做得早得多，只是現(xiàn)在才真正實(shí)現(xiàn)，因?yàn)槲蚁胛覀冊(cè)?jīng)統(tǒng)計(jì)過(guò)，我們?cè)谏a(chǎn)環(huán)境中不知道跑著大概 1 萬(wàn)個(gè)不同的模型。其中大多數(shù)可能都是某個(gè)母模型的變體，但大家都在按照自己的意愿進(jìn)行優(yōu)化。

Ben Gilbert：如果你用當(dāng)初得出1萬(wàn)個(gè)模型這個(gè)數(shù)字的相同標(biāo)準(zhǔn)來(lái)衡量，你覺得今天這個(gè)數(shù)字是多少？

Amin Vahdat：幾百個(gè)。

Jeff Dean：是的，可能只有幾百個(gè)。其中少數(shù)幾個(gè)核心大模型，幾乎承載了絕大部分的推理流量和絕大部分的應(yīng)用場(chǎng)景。

Ben Gilbert：這背后的邏輯，是不是完全印證了你之前提到的觀點(diǎn)？“模型越大，數(shù)據(jù)越多，效果越好”，只不過(guò)現(xiàn)在是打了雞血的加強(qiáng)版。我們干脆就把所有 Google 的產(chǎn)品、所有 Google 的用戶數(shù)據(jù)以及所有第三方的數(shù)據(jù)，全都喂給它。

Jeff Dean：機(jī)器學(xué)習(xí)的終極夢(mèng)想，就是構(gòu)建出能夠舉一反三、處理從未見過(guò)的新事物的模型。因此，當(dāng)你構(gòu)建了一個(gè)見多識(shí)廣的更大模型時(shí)，它能夠泛化去處理你要求它做的新任務(wù)的可能性，就會(huì)變得高得多。

所以這就是你在所有這些模型的進(jìn)化過(guò)程中所看到的，它們現(xiàn)在已經(jīng)見識(shí)過(guò)種類多得多的數(shù)據(jù)。它們?cè)谌藗冴P(guān)心的任務(wù)上接受了強(qiáng)化學(xué)習(xí)訓(xùn)練，從而能夠泛化到人們關(guān)心的其他任務(wù)上。這就是為什么你現(xiàn)在能擁有這些幾乎無(wú)所不能的單一統(tǒng)一模型。

“推理需求正在超越訓(xùn)練”：AI 下半場(chǎng)的終極瓶頸

David Rosenthal：順著這個(gè)思路，我們剛才聊了很多歷史，因?yàn)轱@然本和我都熱愛歷史，重溫這一切太有趣了。但既然今天把你們兩位請(qǐng)到了這里，如果不聊聊未來(lái)，那就太失職了。

也許我們可以從“瓶頸”這個(gè)話題開始。能不能給我們講講你們今天工作中所面臨的現(xiàn)狀：阻礙我們獲得更多算力、更高性能的瓶頸究竟是什么？以及你們認(rèn)為未來(lái)幾年這種情況會(huì)如何改變？

Amin Vahdat：我給出的一個(gè)不幸的答案是：一切都是瓶頸。而且我非常確信，如果我們不齊頭并進(jìn)地解決所有問(wèn)題，那么那個(gè)我們沒(méi)有去解決的問(wèn)題，最終就會(huì)變成我們后悔當(dāng)初沒(méi)去解決的致命瓶頸。

Ben Gilbert：給我們盤點(diǎn)一下吧。都有哪些瓶頸？

Amin Vahdat：能源是一個(gè)巨大的瓶頸。我們已經(jīng)將大量工作重心轉(zhuǎn)移到了優(yōu)化每瓦性能上。數(shù)據(jù)中心，在全球各地建設(shè)這些數(shù)據(jù)中心，面臨著許許多多的問(wèn)題。審批許可、土木施工、電氣工程、機(jī)械設(shè)備等等。

Ben Gilbert：這似乎是 Google 和你們的同行目前面臨的最嚴(yán)峻挑戰(zhàn)之一，就是如何實(shí)打?qū)嵉匕堰@些東西建起來(lái)。這是一個(gè)非常硬核的物理過(guò)程。

Amin Vahdat：非常物理的過(guò)程。換句話說(shuō)，我們平時(shí)生活在光子和比特的世界里。但這是原子的世界。我的意思是，這里有大量的混凝土、大量的泥土、大量的電纜等等。還有太陽(yáng)能電池板、風(fēng)力渦輪機(jī)、核反應(yīng)堆……所以這些都是瓶頸。硬件絕對(duì)是個(gè)瓶頸。我是說(shuō)，這是現(xiàn)在大家都知道的一個(gè)。它可能是臺(tái)積電或其他廠商的晶圓。也許是三星、英特爾和其他公司。它可能是內(nèi)存。它可能是印刷電路……

David Rosenthal：甚至可能是用來(lái)把這根小電纜連接到這個(gè)玩意兒上的那個(gè)橡膠小配件。

Amin Vahdat：在新冠疫情期間，我們有個(gè)來(lái)自德州儀器的電容器，大概只要 57 美分。順便說(shuō)一句，它的價(jià)格在一段時(shí)間內(nèi)竟然飆升到了 500 美元左右，而那正是當(dāng)時(shí)的瓶頸。不僅是我們，其他所有人，都栽在了這個(gè)小東西上。

David Rosenthal：電容器是用來(lái)吸收電荷的。

Amin Vahdat：是的。事實(shí)證明它們非常重要。所以這些都是瓶頸。

Ben Gilbert：如果今天 TPU 的數(shù)量是一個(gè)瓶頸，如果我給你雙倍的預(yù)算，讓你去造雙倍數(shù)量的 TPU，而且你也確實(shí)做到了，那還會(huì)遇到瓶頸嗎？瓶頸會(huì)變成什么？

Amin Vahdat：回顧 2025 年，我想我們?cè)谫Y本支出上大概花了 900 億美元左右，不管具體數(shù)字是多少。對(duì)于 2026 年，我們已經(jīng)宣布了大約1750 億到 1850 億美元的資本支出。

Ben Gilbert：看來(lái)我們正在把你的假設(shè)變成現(xiàn)實(shí)。

Amin Vahdat：我每天都在經(jīng)歷這些。我的團(tuán)隊(duì)負(fù)責(zé)在 2025 年到 2026 年間交付兩倍的產(chǎn)能，就是實(shí)打?qū)嵉匕?TPU、GPU、CPU 或其他任何東西部署到位。我覺得我們能做到。

Jeff Dean：我想說(shuō)的一點(diǎn)是，推理能力將會(huì)成為一個(gè)日益突出的問(wèn)題，因?yàn)槲覀兛吹酱笳Z(yǔ)言模型推理對(duì)Token的需求正在爆炸式增長(zhǎng)。隨著人們開始在后臺(tái)任務(wù)中使用更多的智能體，這些智能體會(huì)消耗更多的 Token。

而且我認(rèn)為，低延遲將成為一個(gè)真正決定成敗的關(guān)鍵特性。你從 v8i 上就能看出來(lái)，我們正在追求更低的延遲。

Amin Vahdat：v8i 確實(shí)在集合通信操作上實(shí)現(xiàn)了5倍的延遲降低，而且網(wǎng)絡(luò)直徑也更小了。所以這就是集合加速引擎，實(shí)際上是我們內(nèi)置在板子上的“加速器的加速器”。有太多不同的部件在協(xié)同運(yùn)轉(zhuǎn)。

Ben Gilbert：Google Search 曾經(jīng)也對(duì)速度有著近乎狂熱的癡迷，而這也是它的決定性特征之一。比如，直到搜索跨越了某個(gè)速度門檻、質(zhì)量門檻等等，它才成為了這個(gè)無(wú)處不在的產(chǎn)品。同樣的事情似乎正在 AI 領(lǐng)域重演。Jeff，你應(yīng)該是這件事的親歷者。

Jeff Dean：縱觀 Google 的歷史，我們一直對(duì)產(chǎn)品的響應(yīng)時(shí)間癡迷不已。特別是搜索，它是我們?cè)缙谡嬲揽牡念I(lǐng)域之一，而且我們實(shí)際上可以衡量增加延遲帶來(lái)的影響。

比如，你可以挑出千分之一的用戶，給他們?cè)黾?5 毫秒的延遲。然后你就會(huì)發(fā)現(xiàn)他們使用搜索的頻率降低了。這可不是什么好事。反之亦然，如果速度更快，他們就會(huì)更頻繁地使用搜索。

所以這是我們非常關(guān)注的地方，而且我認(rèn)為你將會(huì)開始看到，模型延遲路徑上的所有環(huán)節(jié)——軟件、為其打造的更好硬件——都會(huì)更加專注于將算力推向離用戶更近的地方，以滿足交互使用的需求。這在過(guò)去對(duì)搜索來(lái)說(shuō)并沒(méi)有那么重要，因?yàn)槿绻麛?shù)據(jù)中心處理時(shí)間是 150 毫秒，然后數(shù)據(jù)在用戶之間往返需要 150 毫秒，那網(wǎng)絡(luò)延遲占了很大比重。但語(yǔ)言模型最初的響應(yīng)時(shí)間更接近一秒，那時(shí)候 150 毫秒的網(wǎng)絡(luò)延遲就顯得沒(méi)那么重要了。

但現(xiàn)在，如果你開始把響應(yīng)時(shí)間縮短 5 倍，你就會(huì)覺得：“好吧，那我最好把這些服務(wù)器放在用戶隔壁，而不是放在大半個(gè)國(guó)家之外。”

Ben Gilbert：我對(duì) Google 所有這些不同團(tuán)隊(duì)的心理模型是：你們?cè)谀硞€(gè)領(lǐng)域取得了突破。某個(gè)團(tuán)隊(duì)在縮短響應(yīng)時(shí)間方面做出了驚人的成績(jī)，然后突然之間，聚光燈打到了另一個(gè)巨大的瓶頸上。

Amin Vahdat：阿姆達(dá)爾定律（Amdahl's law）就是這樣一種情況……在 Google，沒(méi)有哪個(gè)團(tuán)隊(duì)想成為主要的瓶頸。而我總是告訴所有團(tuán)隊(duì)：最終你們都會(huì)成為主要瓶頸的。遲早會(huì)輪到你們的。

Jeff Dean：在智能體的世界里，你看到的是：模型先做一些事情，然后調(diào)用工具，接著獲取這些工具的輸出并進(jìn)行分析，最后決定下一步做什么，這可能又是調(diào)用另一個(gè)工具。如果你把模型處理的時(shí)間降到零，我想我們就會(huì)開始意識(shí)到，我們的工具太慢了。

在很多情況下，我們的工具是為人類的交互節(jié)奏而設(shè)計(jì)的，比如“給我列出目錄里的文件”或者“執(zhí)行 SQL 查詢并給我結(jié)果”。如果你的模型調(diào)用這些工具的速度比人類快 100 倍，那這些工具的響應(yīng)速度就顯得太糟糕了。

Ben Gilbert：這很有趣。我記得就在幾年前，我和 AI 界的一些朋友聊天時(shí)還說(shuō)：“哦，AI 數(shù)據(jù)中心建在哪兒都行，無(wú)所謂，因?yàn)檠舆t根本不是個(gè)事兒。”對(duì)于訓(xùn)練來(lái)說(shuō)，這確實(shí)是真的。

Jeff Dean：沒(méi)錯(cuò)，但我認(rèn)為甚至對(duì)于任何事情，大家當(dāng)時(shí)都覺得，哦對(duì)，對(duì)于離線推理和強(qiáng)化學(xué)習(xí)來(lái)說(shuō)也是如此。

Ben Gilbert：但現(xiàn)在情況正在發(fā)生變化。聽起來(lái)這馬上就要變天了。離線推理有哪些例子？

Jeff Dean：比如你想在每一個(gè)上傳的 YouTube 視頻上運(yùn)行某個(gè)模型，你需要這么做，但這并不是說(shuō)有個(gè)用戶正眼巴巴地等著安全分類器的結(jié)果。或者你需要分析我們抓取的所有網(wǎng)頁(yè)來(lái)做點(diǎn)什么。這種推理工作負(fù)載有相當(dāng)大的比重，這其實(shí)是件好事，因?yàn)槟菚r(shí)你就會(huì)想要以吞吐量為導(dǎo)向的芯片，而不是以低延遲推理為導(dǎo)向的芯片，因?yàn)槟銓?duì)延遲沒(méi)那么在乎，只要今天能跑完就行，你可以把它們?nèi)看虬膳幚怼?/p>

Amin Vahdat：所以這時(shí)候你就可以使用超大的批處理規(guī)模，而在這方面 v8t 比 v8i 更在行。所以，只要你有大批量的任務(wù)要處理，v8t 實(shí)際上在推理方面表現(xiàn)得極其出色。

David Rosenthal：如果我們?cè)?2023 年進(jìn)行這場(chǎng)對(duì)話，我問(wèn)更多的算力是流向了訓(xùn)練還是推理？我想答案肯定是訓(xùn)練。現(xiàn)在情況反轉(zhuǎn)了嗎？

Amin Vahdat：正在反轉(zhuǎn)。天平正在傾斜。

75% 代碼已由 AI 接管？

David Rosenthal：說(shuō)到反轉(zhuǎn)，我們剛才一直在談?wù)撐磥?lái)的瓶頸。但，Google 現(xiàn)在 75% 的代碼都是 AI 寫的？

Amin Vahdat：是有這么個(gè)統(tǒng)計(jì)數(shù)據(jù)，我不知道準(zhǔn)不準(zhǔn)確。它從去年的 50% 躍升到了 75%。我想這大概是智能體和代碼模型共同的功勞。

David Rosenthal：Google 目前的編程現(xiàn)狀是怎樣的？它變化得有多快？

Jeff Dean：實(shí)際上，我們使用編程助手已經(jīng)有很長(zhǎng)一段時(shí)間了，而且我們眼看著這些數(shù)據(jù)一路攀升。有一年大概是 8%，幾個(gè)月后，提交到我們代碼庫(kù)的字符中就有 16% 是它們寫的，然后是 25%。而在過(guò)去大概四個(gè)月里，這個(gè)數(shù)字真的是呈爆炸式增長(zhǎng)，因?yàn)楝F(xiàn)在的模型能夠處理運(yùn)行時(shí)間長(zhǎng)得多、復(fù)雜得多的任務(wù)。

所以現(xiàn)在你實(shí)際上可以對(duì)它說(shuō)：“能不能幫我寫一個(gè)模塊，大致的頂層英文需求是這樣的？” 然后它就會(huì)真的跑去把代碼寫出來(lái)，并且順帶寫一大堆測(cè)試用例。這在過(guò)去可能是好幾個(gè)小時(shí)、甚至好幾天的工作量，而現(xiàn)在模型可以自主完成這一切。

所以你會(huì)看到大家都在充分利用這一點(diǎn)，因?yàn)橥蝗恢g，作為一名軟件開發(fā)者，你可以指揮一大堆這樣的后臺(tái)任務(wù)，從而完成比過(guò)去多得多的工作，而過(guò)去你可能只能交給它一個(gè) 20 分鐘級(jí)別的任務(wù)，而且它還不一定能做對(duì)。

Ben Gilbert：當(dāng)這個(gè)數(shù)字達(dá)到 99% 而不是 100% 的時(shí)候，最后那 1% 由人類編寫的會(huì)是什么類型的代碼？

Jeff Dean：我認(rèn)為，“知道該去解決什么問(wèn)題”蘊(yùn)含著巨大的杠桿效應(yīng)。而且我認(rèn)為，這將是這些模型最難真正理解的事情之一，那就是：你到底應(yīng)該去研究什么問(wèn)題？而人類在這種選擇過(guò)程中，有著不可思議的天賦。

David Rosenthal：這場(chǎng)對(duì)話太精彩了。也許作為收尾的最后一個(gè)問(wèn)題。在你們兩位的職業(yè)生涯中，都經(jīng)歷過(guò)令人難以置信的技術(shù)板塊大碰撞，無(wú)論是互聯(lián)網(wǎng)，還是移動(dòng)設(shè)備、云計(jì)算，以及隨之而來(lái)的一切。我很好奇，以你們今天的親身經(jīng)歷來(lái)看，現(xiàn)在正在經(jīng)歷的這場(chǎng) AI 變革，與過(guò)去相比感覺如何？

Amin Vahdat：對(duì)我來(lái)說(shuō)，這是迄今為止最大的一次。我記得——那已經(jīng)是挺久以前的事了——在 1993 年看到 NCSA Mosaic。那真的是第一個(gè)圖形化網(wǎng)頁(yè)瀏覽器。我當(dāng)時(shí)想：“我的天哪，世界變天了。” 然后互聯(lián)網(wǎng)就爆發(fā)了。

但這次的規(guī)模要大得多。如果我回想從 1993 年到互聯(lián)網(wǎng)真正以有意義的方式改變世界，大概花了十年時(shí)間，也許稍微短一點(diǎn)。我記得幾年前我還說(shuō)過(guò)：“你知道嗎，有了 AI 現(xiàn)在的突破，我們將為每位患者配備一名醫(yī)生，為每個(gè)學(xué)生配備一名老師，為每種疾病找到治愈的方法。” 我的意思是，這些都是很大膽的預(yù)測(cè)。我當(dāng)時(shí)沒(méi)有給出時(shí)間表，但現(xiàn)在看來(lái)，這已經(jīng)不再像是科幻小說(shuō)了。

比如，你能想象我們?cè)谖磥?lái)五年內(nèi)就能實(shí)現(xiàn)其中的很多目標(biāo)嗎？我能想象。這是我見過(guò)的規(guī)模最大、速度最快、很可能也是最具影響力的一場(chǎng)變革。

Ben Gilbert：這是大自然的規(guī)律嗎？是不是在 10 年后，無(wú)論下一個(gè)風(fēng)口是什么，這種情況都會(huì)再次上演？歷史還會(huì)重演嗎？

Amin Vahdat：這些變革發(fā)生的速度——也許我在這方面研究得還不夠深入。我的意思是，如果你想想第一次工業(yè)革命、電力、內(nèi)燃機(jī)，你再想想太空時(shí)代、核能，你再想想信息時(shí)代，所有這些變革現(xiàn)在都來(lái)得越來(lái)越快，影響也越來(lái)越大。這是最新的一次。它是最新的，也是最大的。

所以我猜想，我不知道會(huì)不會(huì)是 10 年，但在未來(lái) 10 到 20 年的某個(gè)時(shí)候，我們將迎來(lái)下一次。

Jeff Dean：是的，我認(rèn)為這是一件真正的大事，比你提到的之前任何一次變革都要大。原因在于它能應(yīng)用到太多領(lǐng)域了，對(duì)吧？比如我們能用 AI 做的所有造福社會(huì)的偉大事業(yè)，像是為每個(gè)人提供更好的醫(yī)療或教育，它加速科學(xué)研究本身的能力將是無(wú)比巨大的，特別是如果你能實(shí)現(xiàn)無(wú)人參與的自動(dòng)化實(shí)驗(yàn)，去真正探索不同科學(xué)領(lǐng)域中那些錯(cuò)綜復(fù)雜的未知空間。它將引領(lǐng)我們?cè)谛率挛锷先〉眯峦黄疲@些新事物或許不像 AI 這樣具有普適性，但 AI 將成為推動(dòng)這一切的引擎。

而這取決于我們所有人，我們要確保自己是在推動(dòng) AI 中那些對(duì)每個(gè)人都最有益的方面。同時(shí)我們也必須清醒地認(rèn)識(shí)到，AI 確實(shí)有一些可能不太積極的方面，我們需要齊心協(xié)力去消除或減少這些負(fù)面影響，我認(rèn)為這是每個(gè)人都應(yīng)該銘記在心的事情。

Amin Vahdat：不過(guò)，作為一個(gè)搞基礎(chǔ)設(shè)施的人，我可以滿懷信心地預(yù)測(cè)一件事：無(wú)論未來(lái)如何，它都將需要海量的算力。

Jeff Dean：而且永遠(yuǎn)都會(huì)有瓶頸。

Amin Vahdat：我認(rèn)為專業(yè)化定制將會(huì)變得越來(lái)越重要。

Jeff Dean：專業(yè)化絕對(duì)會(huì)成為重頭戲。尤其是硬件的專業(yè)化定制。

Ben Gilbert：考慮到我們今天所處的時(shí)代，以及桌上擺著的這些“老朋友”，感覺在這里收尾簡(jiǎn)直再完美不過(guò)了。

（投稿或?qū)で髨?bào)道：zhanghy@csdn.net）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.