強如谷歌,算力也不夠了。
在昨天拉斯維加斯的谷歌 Cloud Next 大會上, CEO 劈柴哥 (Sundar Pichai) 透露了令人震撼的數字:
Gemini API 上個季度每分鐘處理 100 億 token——僅僅過去一個季度,就漲了足足60%,現在每分鐘處理超過 160 億 token。
![]()
增量很大程度上來自 agent 使用場景。一個任務被拆成十幾步,每一步都是上下文讀取,都是 API 請求,都在輸入和輸出 token。如果說簡單的 chat 模式就是一來一回,那 agent 的到來讓一切都變了,變成了一臺「大電腦」帶著一群「小電腦」在給你干活。
推理成本曲線也顯著攀升了……
為了解決這個問題,谷歌開發出了新的一代 TPU(Tensor Processing Unit 張量計算單元):
第 8 代 TPU 首次被拆成兩顆芯片,專門用來訓練的 8t,以及專門用來推理的 8i。
![]()
圖片來自 Pichai 個人推特
這是 TPU 項目十年來,第一次在產品定義上做出這種分野,也是谷歌在自研芯片上第一次,在規格上正面站到競爭對手英偉達 Rubin 的對面。
但首先我們要回答這個問題:
為什么要拆開?
TPU 過去有過分檔。2023 年 12 月的 v5p 是訓練旗艦,更早的 v5e 是推理性價比款,兩顆芯片同架構、不同裁剪。但是到了 2024 年的 Trillium(v6),和 2025 年 Ironwood(v7),TPU 又回到「一顆打天下」的產品先。
第 8 代直接把訓練和推理拆成兩顆獨立設計的 die,背后的判斷是:agent 時代的訓練和推理,已經長成了兩種截然不同工作負載。
訓練任務的算力負載,可以理解為「大洪水」:不經常來,但一來就是排山倒海的流量。一次前沿模型訓練持續數周,橫跨萬卡規模,對單芯片峰值和故障域規模很敏感。
推理的算力負載,雖然更加「細水長流」,但正如文章一開頭提到的,也因為 agent 的普及發生了巨變。
這里英偉達在 GTC 2026 大會上給過數據參考:從 ChatGPT 出現到 Claude Code 流行起來的兩年里,推理算力需求漲了一萬倍,token 需求自 2024 年 12 月以來也增長了 28 倍。當推理開始以這個量級增長,agent 之間的交互又把 MoE 架構的路由工作,和長思維鏈推向極致。
一顆芯片同時服務兩種負載就開始吃虧。
![]()
訓練芯片要的是單位面積里更多的算力密度,和更大的規模化。推理芯片的訴求完全不同:片上存儲要大到塞得下越來越大、越來越多的 KV cache,延遲要低到用戶可以接受。
正如 Pichai 在這次大會上演講里所說的:「問題已經從『能不能造一個 agent』,變成『怎么管好幾千個』。」
![]()
8t:一顆不追求單卡冠軍的訓練芯片
先看硬指標。8t 單顆芯片能跑出 12.6 PFLOPS 的 FP4 算力,配 216 GB HBM3e 顯存、6.5 TB/s 帶寬。這個水平在今天的 AI 芯片里并不算頂,換個口徑看甚至偏保守。NVIDIA 今年要上的 Rubin,單卡 FP4 算力大約 50 PFLOPS,顯存 288 GB、帶寬沖到 22 TB/s——單卡性能將近 8t 的四倍。
但是,谷歌在這里并沒有要跟英偉達拼單卡,而是把押注 TPU 8t 的規模化維度。簡而言之:TPU 8t 的單個「superpod」集群可以塞進 9600 枚 8t,且共享 2PB 內存,聚合算力高達 121 Exaflops。而英偉達的 Rubin NVL72 只有 72 顆 GPU,預計 2027 年底的 Ultra NVL576 機架只有 576 顆。
換句話說,在同一個「訓練作業可以平鋪多大」的維度上,谷歌領先 NVIDIA 超過一個數量級。
![]()
這件事對訓練的意義是什么?訓練一個前沿大模型要跑數周,每天都在重復同一件事:幾千上萬顆芯片一起算一步、然后把結果對齊,再算下一步。每次對齊都是一次「大家停下來等最慢的那個」。
而芯片越多、拓撲越平攤,整個集群就能越穩地往前推,少掉單卡峰值高不高反而沒那么重要。谷歌給出的對比數據也是這個方向:相比上一代 Ironwood,8t 整 pod 算力接近 3 倍,同樣花一美元能買到 2.7 倍的訓練性能,每瓦性能最多 2 倍。存儲這一端靠 TPUDirect 讓顯存直通硬盤,數據讀取比上代快 10 倍。整個集群 97% 以上的時間都能花在真正的有效訓練上,這在萬卡級別已經很夸張。
換個角度理解這條路線的分歧:NVIDIA 像在造超級跑車,每一代都追求單車速度極限;谷歌更像在修一條八車道高速,單輛車不一定快,但總吞吐量可以拉到對手難以企及的規模。
SemiAnalysis 此前對上一代 Ironwood 的判斷是,單芯片已經在顯存、帶寬、算力上追平 Blackwell,只落后大約一年。8t 沒打算在單卡這邊追平,它直接去搶一個 NVIDIA 當下還夠不到的維度。
8i:把 KV Cache 整個塞進芯片在推理芯片 8i 上,它的 288 GB HBM 顯存配 8.6 TB/s 帶寬,顯存比 8t 還多 72 GB、帶寬還高三成。它還配備了 384 MB 的片上 SRAM,是上一代 Ironwood 的 3 倍。
8i 的單卡 FP4 算力 10.1 PFLOPS,比 8t 略低,低在谷歌認為推理不需要那么多算力峰值。
![]()
SRAM 是芯片上最快、也最貴的那塊內存。過去這種「寸土寸金」的內存只有幾十 MB,主要拿來緩存中間結果。8i 把它做到 384 MB,目的就是把大模型推理時最關鍵的 KV cache 能夠整塊塞進芯片。
如果你不知道 KV cache 是什么,可以簡單將它理解為模型讀長上下文時累積下來的「臨時記憶」,過去它存在 HBM 顯存里,吞吐的時候都要讀取讀一遍,推理速度相當一部分卡在這個搬運上。
而塞進 SRAM 之后,讀寫距離從「幾米遠的倉庫」縮到「桌上的筆記本」,長上下文推理的效率直接上一個臺階。
再看 8i 真正的大招:它放棄了 3D Torus,也就是 TPU 從第二代用到現在的那個「每顆芯片只跟鄰居說話」的網絡拓撲。
3D Torus 擅長的是規律通信,適合訓練任務(所有芯片一起做同一件事)。然而推理的需求是反過來的:一個 MoE(混合專家網絡)模型的工作過程中,每次吞吐可能都要激活不同的專家網絡,讓任意兩顆芯片之間突然要通話。放在 3D Torus 上,這意味著消息要一跳一跳傳過去,跳數多的路徑,會拖慢整條推理鏈。
8i 換上的新拓撲叫做 Boardfly。簡單說,4 顆芯片組成一個小單元,8 塊板拼成一個組,36 個組再通過光開關連起來,按照 1024 枚芯片的最高集群數量來計算,兩顆最遠芯片之間的跳數可以從 3D Torus 的 16 跳壓到 Boardfly 的 7 跳,網絡直徑減少 56%,通信延遲最多降一半。
在同等成本下,8i 在低延遲、大 MoE 場景下,每美元推理性能比 Ironwood 提升 80%。用谷歌自己的話說,「客戶花同樣的錢,可以服務接近兩倍的流量」。
![]()
拿這套東西跟 NVIDIA 對比起來,畫面大概是這樣的:
NVIDIA 的推理旗艦是 NVL72 機架,72 顆 Blackwell/Rubin 芯片通過 NVLink 連接,它的思路是「每顆都很強,擠在一起更強」。8i 反過來:單卡算力克制,但一個 pod 集群直接內嵌上千顆芯片,再把跳數/對話延遲壓到極低。
對于當今 agent 時代的典型推理負載,也即「成千上萬個 agent 同時在后臺互相傳話」,8i 的設計聽上去比英偉達當前的方案更加合理。
畢竟,推理專用芯片真正要解決的,說是讓每個 token 變便宜。至于比上一代快多少,反而沒那么重要——至少谷歌是這么認為的。
TPU + NVIDIA = Virgo
谷歌還發布了一個全新的數據中心網絡結構技術 (fabric),叫做 Virgo。
你可以把它理解為一條巨型數據中心的「高速公路」,專門跑在 AI 芯片之間。一張 Virgo 能掛 13.4 萬顆 8t,對分帶寬 47 Pbps。再加上谷歌自家的 Pathways 和 JAX 軟件層,多個 Virgo 可以拼成一個 100 萬顆 TPU 的單一訓練集群。
Anthropic 去年跟谷歌簽下的那份最多 100 萬顆 TPU、超過 1 GW 電力的大單,就是建立在這個數字之上。今年 4 月,Anthropic 又和谷歌、博通 一起把這份合約擴到了 3.5 GW。
更有意思的是,同一套 fabric 也能掛英偉達的 Rubin 顯卡,最高支持 96 萬顆 GPU。也就是說,谷歌非常清楚大家對英偉達的算力還是有需求的。客戶在 Google Cloud 上照樣買得到 Rubin 實例,TPU 8t 和 8i 只是算力菜單上新加的兩道菜,而 Virgo 能夠同時給用戶提供「best of both worlds」。
![]()
知名分析師 Ben Thompson 今年寫過一篇分析,指出 TPU 的硬件和軟件棧都比英偉達更加「專用」,英偉達更加靈活。
2025 Q4,谷歌云營收 177 億美元,同比增長 48%;手里的待履行合同高達 2400 億美元,同比翻倍。管理層在財報會上直說 2026 年的算力還是不夠用。客戶要的算力已經溢出任何一家芯片廠商的產能,誰的卡都不嫌多。
這種時候,把所有能插電的算力都接進同一張網,比站隊更加實在。
TSMC 2nm 大規模量產的窗口在 2027 年底,谷歌說 8t 和 8i 會在「今年內」正式上線,但這個「今年內」大概率是小批量可以通,真正的大規模出貨要等到 2027。
至少對于谷歌最大客戶之一的 Anthropic 來說,目前的主力算力來源仍然是英偉達的 GPU,以及上一代 TPU。
TPU,你嘛時候能決戰英偉達呢?
英偉達的護城河仍然存在。CUDA 生態已經積攢了十幾年的人氣,幾乎所有開源模型、推理框架、依賴庫都繞不開它;而在 TPU 這邊,谷歌通過 JAX、Pathways、XLA 等技術,提供了替代方案,但也只是把路趟出來了。
要讓習慣于 CUDA 的開發者,以及他們背后的巨頭公司們轉投 TPU,仍然有很大的坎。
有趣的是,業界巨頭們已經開始對 TPU 提高興趣了:據 SemiAnalysis 的報告,OpenAI 在跟英偉達購置算力談條件的時候,提過 TPU 這檔子事;而英偉達為了讓 OpenAI 不從谷歌那邊采購 TPU 算力,硬生生讓出了 30% 左右的合同價格。
這么看,TPU 雖然暫時沒賺到 OpenAI 的錢,至少把對手的利潤率壓下去不少……
英偉達的思路還是「核彈」的思路:把單卡,把連通性 (networking) 做到極致。而谷歌在這些方面也已經后來趕上。但今時今日,最大的問題可能不是性能本身,而是 token 經濟學里面的更關鍵要素:電費、時延等等。
就連谷歌自己的高管也說:在今天的數據中心里,真正卡脖子的不只是芯片,還有電。
所以 TPU 什么時候能真刀真槍地決戰英偉達?恐怕今年還不行,明年也懸,但它已經在另一條戰場上開始扳動一些東西了。
真正被挑戰的,可能也不只是英偉達,還有過去幾年整個行業默認的真理:算力能解決所有問題。
![]()
文|杜晨
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.