網易首頁 > 網易號 > 正文申請入駐

谷歌TPU能撼動英偉達嗎？前TPU工程師首次揭秘

2026-03-24 14:06:02　來源: 硅谷101

上海舉報

分享至

（點擊收聽本期音頻）

采訪｜泓君

圖文｜朱婕

在AI算力爭霸時代，英偉達憑借GPU市值一路狂飆。但如今，它的蛋糕正在被一點點分食——2024年，蘋果論文披露Apple Intelligence全部由TPU訓練；2025年，Anthropic簽下數十億美元訂單，購買TPU訓練Claude；近期，Meta與谷歌簽署數十億美元協議，租用TPU跑Llama。

TPU一直是谷歌低調的“自家武器”，在過去十年里驅動著幾乎全部核心產品。直到TPU訓練的Gemini 3打了一場漂亮的翻身仗，人們才開始重新審視：這套從搜索推薦系統中長出來的定制芯片，究竟藏著多少秘密？

本期硅谷101以視頻播客的形式錄制，主播泓君邀請到前谷歌TPU工程師Henry。他在2018年至2024年間深度參與了三代TPU的研發，也見證了大模型時代TPU的關鍵轉型。他將從硬件架構、軟件生態、生產供應鏈博弈三個維度，一層層揭開TPU的神秘面紗。

TPU與GPU有著完全不同的設計哲學。Henry用“流水線”與“大廚們”來比喻兩者的架構差異：GPU起源于圖形處理，采用SIMT架構，如同一個廚房里擁有眾多獨立思考的大廚，可以并行處理多種任務。而TPU是專為機器學習矩陣計算定制的加速器，通過芯片間互聯（ICI）構建起3D Torus網絡，讓數千張芯片在用戶感知中如同一張芯片般協同工作。

他認為TPU挑戰GPU的機會在于——在軟硬件深度協同下，TPU能夠在已知任務負載時，對整顆TPU Pod進行全局算子融合與內存管理優化，將硬件性能“榨干”到極致。這種設計使得TPU在模型相對穩定、需要大規模部署的場景中，能夠實現比GPU更低的推理成本。

然而TPU的短板也同樣明顯：

軟件生態上，盡管TPU已向Anthropic、Meta等外部客戶開放，但其編譯工具XLA仍是一個“黑盒”，外部團隊很難獨立完成調優。
產能方面，TPU高度受制于被英偉達牢牢鎖定的HBM（高帶寬內存）產能，以及臺積電的CoWoS先進封裝資源，且高度依賴博通打通供應鏈。
更重要的是，作為一款專用ASIC芯片，TPU的通用性遠不及GPU。當模型算法以月為單位迭代，每一代TPU都要去押注兩三年后的技術走向。若未來模型范式發生變化，TPU還能一直賭對嗎？

歡迎關注《硅谷101視頻號》或音頻欄目直接收聽本期播客。如果你喜歡我們的節目，更推薦大家使用音頻客戶端來收聽，《硅谷101》已覆蓋各大主流音頻平臺（渠道見文末），歡迎訂閱！

以下是這次對話內容的精選：

TPU v.s GPU架構對決

誰更省錢？誰更強？

泓君：很多人不清楚TPU跟英偉達的GPU，有什么樣的不一樣。我們可以先簡單給聽眾介紹一下。

Henry：首先TPU和GPU本身的架構是完全不一樣的。GPU大家可能了解更加多一些，因為最開始它是做游戲的顯卡，它是一個SIMT的架構（Single Instruction Multiple Threading），它是一個多線程單一指令的架構，可以理解成一個廚房里面同時安排著很多很多個大廚，他們每個人都有獨立的思考能力。所以你安排很多很多大廚的話，這樣并行計算能力就會非常非常強。

泓君：如果我們同樣用做菜來比喻TPU的話，你覺得它的流程跟GPU有什么不一樣？

Henry：TPU和GPU最大的區別就是，TPU是一個針對機器學習的加速器。我們知道，機器學習任何的算法，里面的核心就是矩陣計算，包括最開始的CNN（卷積神經網絡），到現在的Attention，到Transformer，到未來的架構。矩陣計算這個東西是非常Compute Bound（計算密集型）。TPU就是針對這個矩陣計算專門做了一個定制的加速器。用做飯來比喻，TPU是一個流水線，不用安排那么多的大廚，它會把每一個步驟都告訴你具體做什么，比如說第一個人會從冰箱里把菜給取出來給第二個人，第二個人繼續做加工傳到第三個人。你可以理解成是心臟的泵血，每泵一次，它就會把血液傳輸到你身體的各個角落。所以這樣的話，中間它會少很多的調度和調控，所以能保證每一個計算單元的使用率會更高一些。

泓君：在模型的訓練上，這兩種不同的架構各自的優勢跟缺點是什么？

Henry：我覺得現在預訓練，包括后面的推理，我們在慢慢地從Compute Bound（計算密集型）變成Memory Bound（訪存密集型），所以我們現在對內存的要求是非常高的。SIMT架構有一個缺陷，因為你需要獨立地去做這樣的計算任務，所以在一直等數據搬運過來的過程中，有時就會有一些idle period（空閑周期）。所以這個過程當中就會導致它的矩陣計算利用率沒有那么高，utilization rate（產能利用率）就會有下降。

我覺得TPU彌補了這個缺點，我們待會兒可以具體聊一下它軟硬件的協同效應。TPU會保證它是一個滿功率下的運行，它不需要等待數據搬運的過程，它要么利用當地的緩存，把一些提前搬運過來的數據重復去利用，要么把帶寬跑滿，這樣我們可以使內存利用率能達到一個峰值。

泓君：所以用一句話來做結論，你覺得TPU跟GPU它們在模型的訓練上誰更強，能優化多少？

Henry：我覺得從預訓練上來講的話，目前GPU和TPU最大的區別就是——當然GPU現在也開始往那個方向去發展——因為TPU一直做系統層面設計，它是一個大的計算集群，而不是單卡單芯片去做預訓練。GPU可能很長一段時間都是單張卡的性能非常好，但是它沒有一個網絡。TPU一直是主打TPU Pod，它是一個有幾千張卡的協同訓練的狀態。它里面牽扯到了很多通信，就是ICI，芯片間互聯，它芯片與芯片之間通信和網絡，我們叫做3D Torus，一個拓撲的網絡。它可以讓幾千張卡芯片在用戶的感覺當中是一張卡的芯片，它中間訓練效率是非常高的，這樣的話它的成本也可以打得下來。

圖片來源：Google

泓君：我看新聞報道說谷歌V7，就是你研發的這套Ironwood，它的芯片在物理參數上已經非常接近GB200了。所以它如果在真實的工作中，比如同樣是訓練一個Gemini的模型，同樣的參數量，用GPU跟用谷歌的TPU，誰更省錢？

Henry：我覺得這是很好的問題。我的理解是，將來如果說谷歌給其他大模型公司定制的話，我覺得谷歌的性價比（TCO，Total Cost of Ownership）是更高的。當你知道你的任務負載（Workload）是什么的時候，你就可以根據你的任務負載去做一些物理的芯片層面或軟件層面的定制。雖然說它可能有點“黑盒”的感覺，當你所有的已知條件都確定下來時，我覺得TPU在現實條件下，它的訓練效率還是TCO，都會比GPU更加強大。它的利用率更好的原因，是它的FLOPs（單位時間內做多少次浮點式運算），因為TPU里面主要的架構就是矩陣計算，所以它的軟件和硬件可以保證它每個時間、每個計算單元都有活在做。

我們的軟件相當于幫助硬件說，我不會讓你閑下來，每個時間點你都有工作，但是你具體做什么活，是我告訴你的，你不需要精準地去預測或怎么樣。硬件層面說，我們不會加很多的控制單元。這跟GPU很大的區別就是，我們不需要任何的預測，它預測的那一層面相當于都是在軟件層面去實現的。所以相當于你把硬件變得更蠢了一點，相當于是一個機械式的勞作，軟件那邊幫你把所有復雜難題都給處理掉。

所以Ironwood主要有兩大進步。一個進步就是它把它的峰值FLOPs數值上跟GPU更加接近了。另外一個點我覺得非常重要，就是它的內存帶寬也是有一個巨大的提升，它肯定是用了更大的HBM，保證了一定的帶寬。第二點就是這個HBM的帶寬它能被軟件充分地去利用起來。

TPU產能之困

HBM、封裝、良率

泓君：更高性能的HBM，從供應鏈的環節好找貨嗎？

Henry：非常難找。HBM有點壟斷的感覺，一共就三家公司壟斷這個生產，應該是SK hynix（海力士）、三星和Micron（美光科技）。英偉達一直是HBM最大客戶，TPU一直相當于是一個次要客戶。之前TPU一直沒有辦法獲得那么好的HBM，或者說那么大的訂單。

谷歌TPU V7之前一直有一個產能的問題，第一點原因是V7之前我們一直沒有一個對外的生態，更多是針對內部的部署使用，所以我們沒有辦法和Broadcom（博通）、TSMC（臺積電），或者剛才所說的那幾家HBM廠商去鎖定一個很大的訂單。

第二點，CoWoS屬于TSMC的核心產能。我們可以理解成，我們新一代的芯片都是跟以前完全不一樣，因為我們現在都做一個co-design，我們的HBM內存芯片和計算芯片是兩塊獨立的芯片，通過一個2.5D stacking的封裝把它封裝成一個集成芯片。這個TPU Google自己做不了，Broadcom也做不了，它只能依賴于TSMC,所以TSMC給你分配多少產能，你就能達成多少產能。

泓君：如果把現在產能的瓶頸總結一下，一塊是CoWoS跟TSMC，在封裝上的產能。還有一塊是HBM，高帶寬的內存供應，由三大壟斷巨頭去把持。

Henry：還有一點就是良率。良率意味著，當你TSMC把一個wafer die（晶圓晶粒）生產出來之后，它上面這一塊wafer上有多少是合格的芯片。因為TPU和GPU的制造理念是不太一樣的。TPU主打芯片與芯片之間的通信，這導致它中間的失敗率會比GPU還要更高一些。它需要保證整個系統里每張芯片性能大致是一樣的，如果有參差不齊的話，它整個系統跑起來的效率就不會有那么的高。但GPU可能就不存在太大這樣的問題。我們都知道GPU有自己閹割的版本，比如H100、A100，所以一旦良率不好的話，它可以往下降級。但TPU因為是定制的芯片，不是通用的芯片。所以一旦你良率不行的話，這款芯片相當于報廢了。

XLA軟件黑盒

如何“榨干”硬件性能

泓君：剛剛說到生產環節取決于你訂單的量。Anthropic其實要采購谷歌100萬顆TPU，也是一個很大的訂單。所以谷歌TPU現在看來已經在“蠶食”TPU的市場份額。

Henry：Anthropic這一個訂單確實是挺大，我覺得有很多個因素：第一，Anthropic和Google是一個相對內循環，因為Anthropic很多投資方也是Google的，它們是深度合作的關系。第二點，我覺得Anthropic工程師的技術能力非常強，所以他們能用TPU來部署他們自己家的模型。我們等會兒可以詳細聊一下為什么TPU的部署在一般第三方客戶上那么難。

泓君：所以Anthropic拿下這個訂單，我覺得也是有很多因素在里面。那我們就順著繼續講一下Anthropic。它是不是跟谷歌的整個軟件生態有關系？因為在TPU上要搭一層軟件，我聽過Anthropic的很多人最開始是在Google的，所以他們非常了解TPU上這一套軟件生態部署。

Henry：回答這個問題之前，我們可以先簡單聊一下XLA。XLA你可以理解成黑盒，也可以理解成是一個Google的秘密武器。我覺得XLA和CUDA最大的區別在于，XLA是一個靜態的編譯器。靜態編譯器指的就是，當你的任務負載是已知的或者給定的話，它可以在一個全局的TPU Pod，把它做一個系統級的全局的優化。

優化分很多層面，我知道的，他們會做很多內部的算子融合，比如說你一個kernel里面有很多計算，你還會把一些計算合并到一個計算單元、一個算子，這樣的話你能更好地去利用systolic array（脈動陣列）里面的矩陣計算的利用率。中間的結果你不用反復地存進內存再存出來，XLA會幫你自動做這樣的優化。它還會做很多的內存管理，怎么去更好地分布你的內存，它知道TPU喜歡怎么從內存里面把數給讀出來。這些東西都是跟硬件架構和一些具體的細節是相輔相成的。所以XLA會通過黑盒幫你去優化這樣的一件事情。但問題就是，這個事情你是沒辦法很好地debug和控制的。

泓君：開發者很難去用XLA這套系統，一個原因是編程語言他們不會對吧？它用的是什么編程語言？

Henry：XLA它是一個編譯器，它上層是PyTorch、JAX和TensorFlow。相當于你的開發者可以寫任何一樣的語言，然后它通過XLA可以幫你轉化成TPU的Assembly code（匯編代碼），就是TPU的指令。它中間是做一個翻譯加優化。所以它如果對應英偉達的話，對應的就是CUDA的整個生態體系。

泓君：我們知道在GPU去訓練模型的過程中，工程師經常會遇到bug，然后解決它需要在它軟件的編譯器上，比如說CUDA的生態上，去看看是哪個環節出了問題。現在如果是用谷歌的TPU出了問題，剛剛你也提到了XLA是一個黑盒，那是必須找谷歌的工程師來解決，還是他們自己就可以解決？

Henry：你可以理解成XLA是黑盒，但是它里面有很多的幫助你去debug的一些工具和功能。但它問題就是，你需要對硬件有一些了解才能更好地去分析它。它是可以debug的，但對工程師要求會更高一些。外部的開發者很難獨立去處理一個或修補一個bug，不像CUDA有一個很好的生態你可以去處理。

我們有很多軟件組專門去對接不同的外部客戶，有Apple、有Midjourney，然后Anthropic，我離職之前也聽說，他們很多組是非常忙的。

泓君：是的，我昨天聽說，用谷歌的TPU最大的團隊其實不是Anthropic，最大的團隊其實是蘋果。蘋果是因為龐若明之前在Google，他去蘋果的時候，把谷歌的一整套帶過去了，然后又直接用的TPU去訓練他們的大模型。

Henry：對，我覺得也牽扯到一個軟件棧的遷移。就是你要用TPU的話，必須要把原來的一套軟件棧全部遷移到JAX、XLA上。如果你不遷移的話，你當然可以去做，它能跑，但你就利用不到TPU那么好的性能和TCO。現在目前TPU相比GPU，它最大的優勢就是它成本控制得很好，相比起芯片，它更多是依賴于軟件。

定制芯片痛點

Transformer先發優勢能持續多久？

泓君：你覺得Google的Gemini模型，因為它現在應該是市場上最好的模型，它的訓練出來跟TPU的關系有多大？能占決定性因素嗎？還是算法是占決定性因素的一部分？

Henry：算法當然很重要，因為我覺得現在，特別是預訓練，它CapEx很大。然后它算法我覺得，DeepMind那邊有非常前沿的算法。TPU能幫你去做的一件事情是，當你有一個很好的算法之后，你提前跟TPU組溝通好，我是怎么樣的一個算法，我怎么樣的任務負載，我給你去定制這樣的一個加速器。這樣的話我能幫助你在一個更短的時間更快地迭代，去測試這樣一套算法。我覺得這是一個很重要的事情。如果說你的訓練效率很差的話，你需要花更長周期去驗證一套算法是否能work。但TPU如果能把你的時間打下來，之后迭代速度你就會更快一些。

泓君：你們定制這樣的一個芯片大概要多久流程？

Henry：我覺得這是任何芯片公司的一個痛點。它們很多的時候都是在預測未來市場的變化，包括預測未來模型的變化。之前知道的就是MoE（混合專家模型），也是很早就有這樣的一個想法。MoE很長一段時間在TPU和GPU上跑的效果都不是特別好，但是后來TPU和軟件一起增加了針對MoE的優化。

泓君：可以詳細介紹一下為什么之前MoE一直在TPU上跑不起來的原因？

Henry：因為它是一個2D torus。相當于每個TPU芯片只能跟它的鄰居、相鄰TPU芯片做通信。所以如果說你沒有一個All-to-All的通信的話，這樣中間就相當于你要找一個朋友，中間要經過很多個環節。這樣的話有很多的浪費，很多的擁堵。

后來在V4的時候，TPU推出了一個3D torus，它用了OCS（光交換機），相當于這是一個軟件可編程配置的交換機。你在一個TPU Pod節點，可以通過軟件來更改你想通信的那個TPU集群的路徑，這樣的話就相當于一下子把MoE的痛點給解決了。之后MoE就在TPU上跑起來，效率就會明顯比之前高很多。

近萬個TPU與ICI連接在一個Pod中圖片來源：Google Cloud

泓君：所以我理解這個迭代是以年來計算的。量產的節奏一般是多久？半年打得下來嗎？

Henry：打不下來，我覺得每家公司的理念都不一樣，TPU一直要做旗艦的訓練芯片或旗艦推理芯片，這對快速迭代要求會非常高，因為你每一代芯片都會塞很多樣的需求。當你設計完，我們會做驗證，然后再交給Broadcom去做通信上面的設計，然后在整個package level做驗證，最后交給TSMC。我覺得整個流程最快也要兩年到兩年半、三年。

泓君：你剛剛提到谷歌已經更新到V8了，這一款我理解它在設計上是兩年以前就做了。但是模型的更新，基本上每6個月就變化一次。也就是說，你要在兩年前去預測這個模型往哪個方向走。押對了嗎？

Henry：目前來講，V7應該是押對了。這也可以解釋一下為什么之前TPU的芯片和GPU在紙面參數上是有挺大的距離的。因為之前TPU主要的任務負載是內部的一些推薦和排序算法，它沒有想到GPT出來之后，有這么大的算力需求，是完全不一樣的任務負載。

泓君：開始把它所有的核心性能往大模型的預訓練上調是哪一代？

Henry：應該就是V6開始的。V6開始做了兩個版本，一個是專門做訓練，一個專門做推理。訓練和推理本質上它們用的是同一套架構，推理可以理解成是訓練芯片的一條子集，它可以有更小的運算單元，它可以有更小的內存，因為相比訓練，推理不需要做Back Propagation（反向傳播），所以它中間不需要存儲很多的副本。

泓君：差不多也是在兩三年以前開始調整這個方向的。其實GPT在2020年就有GPT-3放出來。谷歌那個時候它已經開始意識到這是一個next big thing，它有去做芯片上的調整或者GPU上的調整嗎？

Henry：對，因為Transformer也是Google提出來的，然后根據這套架構，芯片組很早就知道，如何去做這一套架構的優化，包括Attention kernel。

泓君：我覺得谷歌的TPU到現在它能在整個模型預訓練中性能表現非常的優秀，也是因為Transformer這套架構是谷歌發明的。然后從TPU的誕生開始，它就一直走的是這條路徑。所以我們其實也可以把TPU理解成一個針對于大模型預訓練或者推理的ASIC，這樣說是對的吧？然后你這個ASIC就一定要押對方向，它押到了Transformer。

Henry：對。我們相當于是一個先發的優勢。本質上ASIC和GPU，一個是通用性好，一個是通用性不好。一旦有個新的算法上的動態改變，你在TPU上就很難去實現這樣一件事情。即使你有先發優勢，但后面的競爭會越來越激烈。這樣的話，你的先發優勢可能也會慢慢被蠶食。

所以說GPU勝就勝在它——因為現在模型迭代周期非常短，都是以月來做單位。我覺得有一個階段就是GPU，因為它通用性好，所以GPU上去跑模型的迭代速度會比TPU更快一些。

泓君：那現在是哪個階段？TPU更快？

Henry：目前V7感覺跟GPU Blackwell已經是旗鼓相當了。但是我擔憂的一點就是，這一套架構它的可擴展性到底有多強，萬一將來有一個不同的范式，它怎么去跟上GPU的步伐。

一塊Ironwood板卡圖片來源：Google Cloud

泓君：如果出現了類似于不同于Transformer的新的架構，那TPU就不一定有GPU的表現好。

Henry：是。

泓君：RL（強化學習）對TPU的影響會大嗎？

Henry：肯定會是不一樣的任務負載，肯定是會有影響的。我覺得現在TPU的策略就是把芯片變得更加通用，往這樣一個方向去發展。相當于它矩陣單元可以處理各種任務負載的矩陣計算，它也有專門負責去處理一些稀疏矩陣計算的單元。它可以理解成把很多硬件上的一些計算和內存模塊化，來適應將來不同的范式。

泓君：所以從某種意義上來講，也是一個向通用性的妥協。

Henry：對，我覺得之前以往幾代芯片可能設計得沒有那么激進的原因也是有一部分的考量。如果一旦設計得非常激進，你可以在Gemini上模型效率提升30%到40%，但萬一有變化呢？萬一有變化，那回去的話就會非常的痛苦。所以我覺得這是一種基于現實的妥協。

供應鏈命門：博通為何關鍵？

泓君：我最近是看到一條新聞，說Google跟Meta也有一個這樣的TPU采購協議，然后谷歌向Meta提供TPU的托管服務。

Henry：我覺得它可能更多是依托于谷歌云，提供更多算力。軟件側的話，我離職之前也知道有很多組在做PyTorch和XLA的結合，但因為PyTorch算子實在太多了，如果不在硬件上原生地去支持這些算子的話，性能表現就會比較差一些。如果直接用谷歌云的話，你相當于是托管了，沒辦法做很多底層的控制，性能就會有浪費。

泓君：這個浪費大概會在多少的百分比？

Henry：這就是我剛才說到模型利用率。如果你結合得非常好的話，能幾乎滿狀態地達到一個峰值FLOPs或峰值內存帶寬。但是如果你用谷歌云來跑的話，你很有可能用到只有50%到60%的利用率，但是你還是要付同樣的錢。目前我知道，直接購買TPU機架的只有Anthropic，其他都還是谷歌云。

泓君：我注意到谷歌API接口的成本大概最開始只有Open AI跟Anthropic的十分之一。同時，Anthropic最近的Claude Opus 4.5，它的API接口大概是下降了67%。有媒體報道把這部分歸功于它是用谷歌的TPU訓練的。

Henry：推理成本上確實是這樣的。Google現在的推理芯片成本確實會比GPU要高不少，原因就是集群的推理，它的TCO就能打得下來。還有一個原因剛才沒有提到——GPU的集群它用的是NVLink、NVSwitch這樣的一種通信協議，這其實很燒錢，你可以理解成是一種基礎設施稅。你需要跟很多不同廠商去買這種交換機，然后部署在你的數據中心當中，這是一個很大的成本開支。Google因為它用了不一樣的拓撲架構，它用了芯片與芯片之間直接通信，它用的是銅，不用交換機，只有在某些節點上用一些光學交換機，但也比較少，實現了同樣的通信效果。所以它在成本支出上會比GPU要好很多。

泓君：所以在建數據中心的這一環，成本已經拉開了。英偉達的主要成本是交換機，谷歌的主要成本是什么？是液冷嗎？

Henry：液冷是一塊。其實跟英偉達也差不太多。主要成本也是它的一些SerDes（串行器/解串器），這種SerDes就相當于是把信號從一個芯片準確無誤地傳輸到另外一個芯片。因為相比GPU，TPU更多依賴于SerDes的穩定性，所以這一塊資本支出還是很高的。

TPU的液冷設備圖片來源：Google Cloud

泓君：谷歌跟Broadcom的合作會持續多久？是不是如果量大了，谷歌可能就自己做了？

Henry：Broadcom好處就是它可以幫最大的客戶去爭取最大的產能，就是CoWoS和TSMC。所以說一直以來，TPU都是跟Broadcom去做這樣一個合作，目前我不覺得會有很大的改變。但這樣導致一個不好的問題就是，Broadcom的議價權會越來越大。如果非常依賴Broadcom，沒有一個備選的話，你在成本上就很難控制得下來。

泓君：所以谷歌它能直接跟CoWoS這一塊來議價嗎？決定的核心要素是什么？

Henry：主要還是HBM。我理解Broadcom是一個中間的環節，它會把所有的東西全部幫你鋪設好，然后交給TSMC去量產。所以我覺得，第一你需要去拿到一個很好的HBM的產能，再通過Broadcom去跟TSMC爭取一個好的CoWoS。

泓君：我聽說現在整個HBM的產能被英偉達壟斷了。

Henry：基本上是壟斷了。因為剛才也提到，現在我們已經慢慢從計算密集型轉向內存密集型，特別是像現在的Attention kernel，核心就是一個你怎么樣去更快的從內存里把數據給搬運出來。未來幾年的方向可能就是HBM能決定你的上限。如果你買不到好的HBM的話，那你的訓練效率就會大打折扣。

泓君：所以博通的主要核心作用是在這一塊？

Henry：博通主要的核心作用是做很多的通信ICI（Inter chip interconnect）。我們TPU團隊主要設計它的前端。我們相當于是把一張圖紙給打印出來，然后Broadcom會把每個芯片之間物理上去連接起來，去布局這樣一個拓撲的網絡。你可以理解成臟活累活，也可以理解成這是一個非常吃經驗的，也是技術壁壘非常高的核心環節。

TPU十年進化史

泓君：如果我們用一句話來總結，你覺得現在谷歌的TPU可以挑戰英偉達的在GPU的壟斷地位嗎？或者說至少是我去阻撓一下英偉達在這個市場上絕對的定價權？

Henry：沒有絕對答案，但我的結論是，在某些限定的條件下，TPU是完全可以挑戰GPU的。限定條件就是大規模部署。因為TPU它主打就是走量。TPU其實不太擅長做一件事情就是，它沒辦法針對一個單用戶，比如說做Agent，它就不太適合，因為它延遲會比較高一些。它必須在一個非常大的吞吐量下，比如有很多用戶同時去調用這個接口，才能把成本分攤開來。如果在大規模部署、模型相對比較穩定，不需要很多的變動的情況下，它的整體的成本就會相比GPU有很大的優勢。

泓君：綜上我們所說的，我試著總結一下TPU跟GPU的優勢跟劣勢。

整體來看，現在TPU在性能上，包括在模型的訓練上，如果你用得好的話是可以把它跑滿的，它可能會達到GPU的性能甚至是比它跑得更好。在數據中心的部署上，它是更省成本的，這個是它的一些核心優勢。同時，用了它你的推理成本可以降低。

它的缺點就是，首先我們在軟件的生態上，XLA還是一個比較難入門的核心門檻，它沒有英偉達CUDA生態。另外一點，它在整個的起量上，包括對HBM供應鏈的控制上，還是比較弱的。還有一個核心的問題就是說，如果大家使用了TPU，但是你內部沒有特別懂的人，它還是一個黑盒，就是你沒有辦法用自己的工程師去把它調優，然后把它的性能跑滿。如果用谷歌云的話，可能只能跑到50%到60%的性能。

在這種情況下，它跟GPU誰的性能更好，現在其實也是一個很難說的話題。所以整體上我們看到是這樣的一個趨勢。TPU最大的核心問題就是說，未來如果整個模型在架構跟算法上有升級，它類似于一款專用的ASIC芯片，通用的GPU是更有優勢的。但是如果你們的算法賭對了，你們就是有核心優勢的。我的總結準確嗎？

Henry：非常精確。

泓君：其實我們前面聊了這么多的TPU，你要不要跟大家再簡單地回溯一下，谷歌是怎么樣去發明TPU的？它的歷史是什么？然后誰是中間的核心人物？

Henry：我們最開始TPU主要是針對內部CNN這個大模型的一個加速器。最開始第一代芯片只是一款推理芯片。最開始的初衷就是大家發現，我們內部有很多線上推薦系統，但它的推理都是用CPU來做推理。大家都知道CPU的并行效果是非常差的。那時候也沒法用GPU，因為那時的GPU還沒有加入矩陣計算單元。谷歌說為什么我們不自己開發一款只做矩陣計算的模型。所以這就是最開始的初衷。Jeff Dean，包括后來圖靈獎的獲得者David Patterson深度參與了第一代模型的架構。

第二代芯片，就是一個非常旗艦的做訓練的模型，包括我們后來知道的AlphaGo、PaLM、Bard、早期的Early Transformer，包括后來Transformer，都是用了這一套架構去做的訓練。但那時候有一個比較大的問題就是，先有了硬件，但是軟件還沒有跟上來，那個協同效應還沒有產生。中間我們也提出了系統級的TPU Pod，一個拓撲的網絡，這也是奠定了現在TPU能有出色性能的基礎。

在這期間我們又針對推薦和排序的算法加入了一個Sparse Core（稀疏式的計算單元），這也很好地解決谷歌內部的推薦的一些任務負載。

然后V5、V6的話就是開始進入大模型時代了，所以我們那時候針對Transformer做很多的優化，中間還推出了一個推理的版本，因為推理市場需求非常大。

泓君：TPU剛剛誕生的時候，還有一些特別好玩的故事。當時Jeff Dean是谷歌的首席科學家，2013年左右他是在一次內部的演示中，講深度學習網絡會怎么樣去在語音識別上有一個突破性的進展，那個時候大家就發現，我們需要的是GPU，而不是CPU。

后來他們就開始在內部去Demo這個事情。然后Jonathan Ross，現在已經是英偉達的首席軟件架構師了，因為英偉達收編了Groq，他當時內部演示的時候就放了兩頁PPT。第一頁是，好消息：這個GPU真的是工作了。第二頁就是，壞消息：我們付不起這個錢。如果所有的用戶他們給谷歌發三分鐘的語音的話，那么當時谷歌整個數據中心的成本會增加一倍，大概是數百億美元，是非常大的一個量。這個其實也是他們開始去研究TPU的一個起點。接下來的故事就是AlphaGo擊敗圍棋冠軍李世石的時候，谷歌已經在用TPU了，而且據說在他們的AI算法里面是放了四張TPU。

新星Groq

踩準每一次紅利的編譯器公司

泓君：剛剛提到了Jonathan Ross，我們要不要講一下Groq？因為英偉達也是把它收購了。然后它在推理芯片端，我記得它最開始出來的時候，它的整個性能表現，包括它說的那些方案，在業界還是讓很多人動心。

Henry：對，我覺得我當初也跟他們內部團隊人聊過。目前他們被英偉達收購，是踩準了每一個時代的紅利，踩準了每一個很好的時間點。第一個時間點就是推理，第二個時間點是ASIC，第三個時間點就是今年是Agent元年，有很多智能體的爆發。Groq最好的一個應用場景就是Agent，智能體。因為Agent智能體它對延遲的要求是非常高的，如果說你的延遲做得很差的話，整個幫你去做這個任務的鏈條就會被拉到無限長，對于單用戶來講是非常痛苦的一件事情。所以Groq能很好地去解決或者說解決這樣的一個問題。

Groq的芯片，因為Jonathan Ross最開始是TPU的編譯器團隊，是TPU compiler那邊的一個類似于創始人。相當于他是帶了一套非常成熟的TPU的編譯器XLA的經驗去創立了Groq。所以Groq你可以理解成它是一家編譯器的公司，而不是一家芯片公司。因為它的芯片更多是為它的軟件編譯器服務的。它的硬件可能比TPU更加單一，或者說沒那么的智能一些。編譯器在某種程度上決定了一切。它LPU里面每個時間點，每個計算單元里面去做哪些事情，它可以精準到每一個cycle，都是用編譯器去確定好的。一個確定性非常高的事情。

Groq LPU 圖片來源：Groq

泓君：你剛剛提到他們精準地踩到了每一個時代的紅利點。第一輪是推理，第二輪是ASIC，第三輪是Agent。這三個時間點對芯片的要求有什么不一樣嗎？

Henry：Groq最開始就主做推理，它不做訓練，它軟件和硬件的架構決定了它做不了訓練。第二個ASIC的話，相當于它的成本更加可控一些。

泓君：它是針對哪個方向的ASIC？

Henry：它是針對低延遲的ASIC，主要是做低延遲。

泓君：所以現在Agent，我可以理解，比如說現在我們用Agent覺得延遲很低了，它還是有硬件層面的提升的。

Henry：對。谷歌的TCO好的原因，就是有海量客戶同時去用這樣一個推理服務，它的吞吐量就會很高，但它不在乎尾部延遲。尾部延遲指的就是單用戶用的話，它可能會有時候會快，有時候會慢一點，相信大家也都會有這樣的體驗。但是Groq，你一旦去用的話，它就會非常非常快。它的原理第一是它的SRAM靜態隨機存取存儲器。第二，它是一個相當于你一個人占用了非常多的LPU資源，而不是跟很多人去共享。

泓君：它踩上的Agent紅利是什么？

Henry：適合Groq去服務的場景，第一個是Agent，第二個是實時語音，還有一些高頻的交易，這些場景對延遲要求會更高一些。我覺得它就是主打一個市場的差異化。現在主流的市場都是做這種大模型的推理和訓練，它可能就是針對一些小規模部署的計算集群做這樣的一個低延遲的性能優化。

泓君：你覺得未來在整個Agent的應用中，推理芯片它會是一個百花齊放的格局，還是說它依然是英偉達的GPU為主導的？

Henry：我覺得自從去年Deepseek出來之后，大家一下子發現如果你成本打下來之后，推理的需求是非常大的，會有很多不同層次的市場。當然Google和TPU肯定會占據最高層，就是最大規模那些部署的，包括云、包括那些大模型的推理。中間和下面的一層，我覺得會有更多的玩家，更多的參與者進來。

泓君：所以未來整個芯片市場在推理端也會分層，然后分應用場景。

Henry：對。最大量的需求還是這些大的巨頭。你沒辦法說我要做下一家英偉達，你基本上做不到，因為它護城河實在太深了。你要是做初創公司的話，只能做一些尾端的客戶。

很多人都在討論TPU和GPU之間區別、孰優孰劣，但我覺得未來肯定是兩者并存的。包括所有很多大廠都在自研自己家的芯片，不管是推理還是訓練。我覺得你不能說GPU將來會一統江山或TPU會一統江山，我覺得這個生態是一個非常健康的生態。有定制的環節，也有通用的環節，有通用的場景，也有定制的場景，也有垂類的場景。所以我覺得將來是百花齊放的一個格局。所以一旦產能、各方面供應鏈都解決問題之后，我覺得對用戶來講都是件好事情，一下子把成本降下來之后，你能做的事情就有無限的可能。

【音頻收聽渠道】

公眾號：硅谷101

收聽渠道：蘋果｜小宇宙｜喜馬拉雅｜蜻蜓FM｜網易云音樂｜QQ音樂｜荔枝播客｜嗶哩嗶哩

海外用戶：Apple Podcast｜Spotify｜TuneIn｜Amazon Music

聯系我們：podcast@sv101.net

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.