網易首頁 > 網易號 > 正文申請入駐

劈柴哥把谷歌AI 芯片「劈」成兩半，要硬剛英偉達了

2026-04-23 19:10:31　來源: AppSo

廣東舉報

分享至

強如谷歌，算力也不夠了。

在昨天拉斯維加斯的谷歌 Cloud Next 大會上， CEO 劈柴哥 (Sundar Pichai) 透露了令人震撼的數字：

Gemini API 上個季度每分鐘處理 100 億 token——僅僅過去一個季度，就漲了足足60%，現在每分鐘處理超過 160 億 token。

增量很大程度上來自 agent 使用場景。一個任務被拆成十幾步，每一步都是上下文讀取，都是 API 請求，都在輸入和輸出 token。如果說簡單的 chat 模式就是一來一回，那 agent 的到來讓一切都變了，變成了一臺「大電腦」帶著一群「小電腦」在給你干活。

推理成本曲線也顯著攀升了……

為了解決這個問題，谷歌開發出了新的一代 TPU（Tensor Processing Unit 張量計算單元）：

第 8 代 TPU 首次被拆成兩顆芯片，專門用來訓練的 8t，以及專門用來推理的 8i。

圖片來自 Pichai 個人推特

這是 TPU 項目十年來，第一次在產品定義上做出這種分野，也是谷歌在自研芯片上第一次，在規格上正面站到競爭對手英偉達 Rubin 的對面。

但首先我們要回答這個問題：

為什么要拆開？

TPU 過去有過分檔。2023 年 12 月的 v5p 是訓練旗艦，更早的 v5e 是推理性價比款，兩顆芯片同架構、不同裁剪。但是到了 2024 年的 Trillium（v6），和 2025 年 Ironwood（v7），TPU 又回到「一顆打天下」的產品先。

第 8 代直接把訓練和推理拆成兩顆獨立設計的 die，背后的判斷是：agent 時代的訓練和推理，已經長成了兩種截然不同工作負載。

訓練任務的算力負載，可以理解為「大洪水」：不經常來，但一來就是排山倒海的流量。一次前沿模型訓練持續數周，橫跨萬卡規模，對單芯片峰值和故障域規模很敏感。

推理的算力負載，雖然更加「細水長流」，但正如文章一開頭提到的，也因為 agent 的普及發生了巨變。

這里英偉達在 GTC 2026 大會上給過數據參考：從 ChatGPT 出現到 Claude Code 流行起來的兩年里，推理算力需求漲了一萬倍，token 需求自 2024 年 12 月以來也增長了 28 倍。當推理開始以這個量級增長，agent 之間的交互又把 MoE 架構的路由工作，和長思維鏈推向極致。

一顆芯片同時服務兩種負載就開始吃虧。

訓練芯片要的是單位面積里更多的算力密度，和更大的規模化。推理芯片的訴求完全不同：片上存儲要大到塞得下越來越大、越來越多的 KV cache，延遲要低到用戶可以接受。

正如 Pichai 在這次大會上演講里所說的：「問題已經從『能不能造一個 agent』，變成『怎么管好幾千個』。」

8t：一顆不追求單卡冠軍的訓練芯片

先看硬指標。8t 單顆芯片能跑出 12.6 PFLOPS 的 FP4 算力，配 216 GB HBM3e 顯存、6.5 TB/s 帶寬。這個水平在今天的 AI 芯片里并不算頂，換個口徑看甚至偏保守。NVIDIA 今年要上的 Rubin，單卡 FP4 算力大約 50 PFLOPS，顯存 288 GB、帶寬沖到 22 TB/s——單卡性能將近 8t 的四倍。

但是，谷歌在這里并沒有要跟英偉達拼單卡，而是把押注 TPU 8t 的規模化維度。簡而言之：TPU 8t 的單個「superpod」集群可以塞進 9600 枚 8t，且共享 2PB 內存，聚合算力高達 121 Exaflops。而英偉達的 Rubin NVL72 只有 72 顆 GPU，預計 2027 年底的 Ultra NVL576 機架只有 576 顆。

換句話說，在同一個「訓練作業可以平鋪多大」的維度上，谷歌領先 NVIDIA 超過一個數量級。

這件事對訓練的意義是什么？訓練一個前沿大模型要跑數周，每天都在重復同一件事：幾千上萬顆芯片一起算一步、然后把結果對齊，再算下一步。每次對齊都是一次「大家停下來等最慢的那個」。

而芯片越多、拓撲越平攤，整個集群就能越穩地往前推，少掉單卡峰值高不高反而沒那么重要。谷歌給出的對比數據也是這個方向：相比上一代 Ironwood，8t 整 pod 算力接近 3 倍，同樣花一美元能買到 2.7 倍的訓練性能，每瓦性能最多 2 倍。存儲這一端靠 TPUDirect 讓顯存直通硬盤，數據讀取比上代快 10 倍。整個集群 97% 以上的時間都能花在真正的有效訓練上，這在萬卡級別已經很夸張。

換個角度理解這條路線的分歧：NVIDIA 像在造超級跑車，每一代都追求單車速度極限；谷歌更像在修一條八車道高速，單輛車不一定快，但總吞吐量可以拉到對手難以企及的規模。

SemiAnalysis 此前對上一代 Ironwood 的判斷是，單芯片已經在顯存、帶寬、算力上追平 Blackwell，只落后大約一年。8t 沒打算在單卡這邊追平，它直接去搶一個 NVIDIA 當下還夠不到的維度。

8i：把 KV Cache 整個塞進芯片在推理芯片 8i 上，它的 288 GB HBM 顯存配 8.6 TB/s 帶寬，顯存比 8t 還多 72 GB、帶寬還高三成。它還配備了 384 MB 的片上 SRAM，是上一代 Ironwood 的 3 倍。

8i 的單卡 FP4 算力 10.1 PFLOPS，比 8t 略低，低在谷歌認為推理不需要那么多算力峰值。

SRAM 是芯片上最快、也最貴的那塊內存。過去這種「寸土寸金」的內存只有幾十 MB，主要拿來緩存中間結果。8i 把它做到 384 MB，目的就是把大模型推理時最關鍵的 KV cache 能夠整塊塞進芯片。

如果你不知道 KV cache 是什么，可以簡單將它理解為模型讀長上下文時累積下來的「臨時記憶」，過去它存在 HBM 顯存里，吞吐的時候都要讀取讀一遍，推理速度相當一部分卡在這個搬運上。

而塞進 SRAM 之后，讀寫距離從「幾米遠的倉庫」縮到「桌上的筆記本」，長上下文推理的效率直接上一個臺階。

再看 8i 真正的大招：它放棄了 3D Torus，也就是 TPU 從第二代用到現在的那個「每顆芯片只跟鄰居說話」的網絡拓撲。

3D Torus 擅長的是規律通信，適合訓練任務（所有芯片一起做同一件事）。然而推理的需求是反過來的：一個 MoE（混合專家網絡）模型的工作過程中，每次吞吐可能都要激活不同的專家網絡，讓任意兩顆芯片之間突然要通話。放在 3D Torus 上，這意味著消息要一跳一跳傳過去，跳數多的路徑，會拖慢整條推理鏈。

8i 換上的新拓撲叫做 Boardfly。簡單說，4 顆芯片組成一個小單元，8 塊板拼成一個組，36 個組再通過光開關連起來，按照 1024 枚芯片的最高集群數量來計算，兩顆最遠芯片之間的跳數可以從 3D Torus 的 16 跳壓到 Boardfly 的 7 跳，網絡直徑減少 56%，通信延遲最多降一半。

在同等成本下，8i 在低延遲、大 MoE 場景下，每美元推理性能比 Ironwood 提升 80%。用谷歌自己的話說，「客戶花同樣的錢，可以服務接近兩倍的流量」。

拿這套東西跟 NVIDIA 對比起來，畫面大概是這樣的：

NVIDIA 的推理旗艦是 NVL72 機架，72 顆 Blackwell/Rubin 芯片通過 NVLink 連接，它的思路是「每顆都很強，擠在一起更強」。8i 反過來：單卡算力克制，但一個 pod 集群直接內嵌上千顆芯片，再把跳數/對話延遲壓到極低。

對于當今 agent 時代的典型推理負載，也即「成千上萬個 agent 同時在后臺互相傳話」，8i 的設計聽上去比英偉達當前的方案更加合理。

畢竟，推理專用芯片真正要解決的，說是讓每個 token 變便宜。至于比上一代快多少，反而沒那么重要——至少谷歌是這么認為的。

TPU + NVIDIA = Virgo

谷歌還發布了一個全新的數據中心網絡結構技術 (fabric)，叫做 Virgo。

你可以把它理解為一條巨型數據中心的「高速公路」，專門跑在 AI 芯片之間。一張 Virgo 能掛 13.4 萬顆 8t，對分帶寬 47 Pbps。再加上谷歌自家的 Pathways 和 JAX 軟件層，多個 Virgo 可以拼成一個 100 萬顆 TPU 的單一訓練集群。

Anthropic 去年跟谷歌簽下的那份最多 100 萬顆 TPU、超過 1 GW 電力的大單，就是建立在這個數字之上。今年 4 月，Anthropic 又和谷歌、博通一起把這份合約擴到了 3.5 GW。

更有意思的是，同一套 fabric 也能掛英偉達的 Rubin 顯卡，最高支持 96 萬顆 GPU。也就是說，谷歌非常清楚大家對英偉達的算力還是有需求的。客戶在 Google Cloud 上照樣買得到 Rubin 實例，TPU 8t 和 8i 只是算力菜單上新加的兩道菜，而 Virgo 能夠同時給用戶提供「best of both worlds」。

知名分析師 Ben Thompson 今年寫過一篇分析，指出 TPU 的硬件和軟件棧都比英偉達更加「專用」，英偉達更加靈活。

2025 Q4，谷歌云營收 177 億美元，同比增長 48%；手里的待履行合同高達 2400 億美元，同比翻倍。管理層在財報會上直說 2026 年的算力還是不夠用。客戶要的算力已經溢出任何一家芯片廠商的產能，誰的卡都不嫌多。

這種時候，把所有能插電的算力都接進同一張網，比站隊更加實在。

TSMC 2nm 大規模量產的窗口在 2027 年底，谷歌說 8t 和 8i 會在「今年內」正式上線，但這個「今年內」大概率是小批量可以通，真正的大規模出貨要等到 2027。

至少對于谷歌最大客戶之一的 Anthropic 來說，目前的主力算力來源仍然是英偉達的 GPU，以及上一代 TPU。

TPU，你嘛時候能決戰英偉達呢？

英偉達的護城河仍然存在。CUDA 生態已經積攢了十幾年的人氣，幾乎所有開源模型、推理框架、依賴庫都繞不開它；而在 TPU 這邊，谷歌通過 JAX、Pathways、XLA 等技術，提供了替代方案，但也只是把路趟出來了。

要讓習慣于 CUDA 的開發者，以及他們背后的巨頭公司們轉投 TPU，仍然有很大的坎。

有趣的是，業界巨頭們已經開始對 TPU 提高興趣了：據 SemiAnalysis 的報告，OpenAI 在跟英偉達購置算力談條件的時候，提過 TPU 這檔子事；而英偉達為了讓 OpenAI 不從谷歌那邊采購 TPU 算力，硬生生讓出了 30% 左右的合同價格。

這么看，TPU 雖然暫時沒賺到 OpenAI 的錢，至少把對手的利潤率壓下去不少……

英偉達的思路還是「核彈」的思路：把單卡，把連通性 (networking) 做到極致。而谷歌在這些方面也已經后來趕上。但今時今日，最大的問題可能不是性能本身，而是 token 經濟學里面的更關鍵要素：電費、時延等等。

就連谷歌自己的高管也說：在今天的數據中心里，真正卡脖子的不只是芯片，還有電。

所以 TPU 什么時候能真刀真槍地決戰英偉達？恐怕今年還不行，明年也懸，但它已經在另一條戰場上開始扳動一些東西了。

真正被挑戰的，可能也不只是英偉達，還有過去幾年整個行業默認的真理：算力能解決所有問題。

文｜杜晨

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.