機器之心編輯部
谷歌的 AI 芯片戰略路線迎來重大轉向!
在剛剛過去的 Google Cloud Next 2026 大會上,谷歌正式對外發布第八代張量處理器(TPU)。與以往不同的是,這次亮點之一在于,谷歌首次針對 AI 模型訓練與推理任務,分別推出 TPU 8t 與 TPU 8i 兩款獨立芯片產品。
其中,專注于 AI 模型訓練任務的 TPU 8t,在大規模、高計算需求的訓練工作負載中表現出色,設計上具備更大的計算吞吐量和更多的擴展帶寬。相較于去年 11 月發布的第七代 Ironwood TPU,性能提升 2.7 倍。
聚焦于推理 / 實時執行任務的 TPU 8i,設計時更多考慮了內存帶寬,以便處理最為延遲敏感的推理工作負載,因為智能體在大規模交互時即使是微小的效率問題也會被放大。
值得注意的是,與上一代相比,TPU 8i 單芯片集成了 384MB 的靜態隨機存取存儲器(SRAM),容量是其 3 倍,因此可以完全在硅片上容納更大的 KV 緩存,從而顯著減少長上下文解碼期間內核的空閑時間。性能提升 80% ,尤其是在大規模 MoE 模型的低延遲目標下。
谷歌高級副總裁兼 AI 基礎設施首席技術專家 Amin Vahdat 在官方博客中稱,在智能體時代,模型必須解決問題,執行多步工作流,并從自己的行為中不斷學習。這意味著對基礎設施提出了新的高要求,TPU 8t 和 TPU 8i 兩款芯片旨在應對最具挑戰性的 AI 工作負載,并適應不斷演化的大規模模型架構。
目前,這兩款新品還沒有正式對外,官方宣稱,將在今年晚些時候開始向谷歌云客戶提供。
芯片一經發布,谷歌 CEO 桑達爾?皮查伊(Sundar Pichai)也在 X 上發文宣傳自家新品:「TPU 8t,優化訓練;TPU 8i,優化推理。看起來真不錯!」
![]()
在帖文下,引來一眾網友熱議。
有網友認為,此次谷歌將TPU分為專門的訓練芯片和推理芯片,似乎是在承認當前AI算力基礎設施的瓶頸已經轉移,從FLOPs轉移到了內存帶寬和延遲上。
而考慮到推理任務的預期規模,如果工作負載有所差異,(為了優化性能和成本),針對每個任務定制硬件,從成本上看也是合理的選擇。
「這可能類似于電視中的視頻解碼芯片,與能夠進行視頻編碼的芯片相比,解碼芯片通常不會非常便宜或高效。」
![]()
大多數網友則認為,谷歌的這款新芯片一出,意味著 AI 芯片市場競爭將愈加激烈,尤其是對英偉達的「沖擊」。
一位網友調侃道,「谷歌正在發布新的 TPU。英偉達,你得做更多的工作了。」
![]()
誠然,從 2015 年開始,谷歌就在使用自研處理器來運行 AI 模型,并在 2018 年開始向谷歌云客戶出租芯片,試圖通過構建這種高度集成、針對特定任務優化的自有芯片生態,進一步減少對外部供應商,尤其英偉達的依賴,打造更具自主可控的 AI 基礎設施。
但不得不承認,谷歌的芯片并不能對英偉達構成全面威脅,或者說,至少在當前階段還不是。與微軟、亞馬遜之類的云服務巨頭一樣,谷歌使用這些芯片是為了補充其基礎設施中基于英偉達的系統,而不是徹底取代英偉達。
據了解,谷歌還承諾,其云服務將在今年晚些時候提供英偉達的最新芯片 ——Vera Rubin。
谷歌在官方博客中詳細介紹了兩款芯片的設計細節,下面來了解一下。
TPU 8t:訓練動力引擎
谷歌稱,TPU 8t 是為將前沿模型的開發周期從幾個月縮短到幾周而設計的。通過平衡最高計算吞吐量、共享內存和芯片間帶寬,同時保證最佳的功率效率和計算時間,谷歌打造了一個系統,使得每個超級節點的計算性能比上一代提高近 3 倍,從而加速創新,確保客戶繼續引領行業步伐。
- 大規模擴展:單個 TPU 8t 超級節點現在能夠擴展到 9600 個芯片和 2 個 PB 的共享高帶寬內存,內存帶寬是上一代的兩倍。這種架構提供 121 ExaFlops 的計算能力,支持最復雜的模型使用單一的大規模內存池;
- 最大化利用率:通過集成 10 倍更快的存儲訪問,并結合 TPUDirect 將數據直接加載到 TPU,TPU 8t 有助于確保端到端系統的最大利用;
- 近線性擴展:新 Virg 網絡與 JAX 和 Pathways 軟件結合,意味著 TPU 8t 可以提供高達百萬芯片的近線性擴展。
此外,除了原始性能,TPU 8t 還針對超過 97% 的「良好利用率」進行優化,這是衡量有效計算時間的指標,涵蓋了實時遙測、自動故障檢測和重定向等多項可靠性功能。
![]()
具體來看,相較于上一代 TPU,TPU 8t 的關鍵提升主要包括以下幾個方面:
- SparseCore 優勢:TPU 8t 的核心是 SparseCore,這是一種專門的加速器,旨在處理嵌入查找的非規律內存訪問模式。Matrix Multiply Unit(MXU)處理矩陣運算,而 SparseCore 則卸載了數據依賴的所有聚集操作,以及其他集體操作,防止了通常困擾通用芯片的零操作瓶頸。
- VPU/MXU 重疊與平衡擴展:TPU 8t 旨在最大化已提供的 FLOP 使用率,通過實現更平衡的向量處理單元(VPU)擴展,架構最小化了暴露的向量操作時間。這使得量化、softmax 和 layernorms 可以更好地與 MXU 中的矩陣乘法重疊,幫助芯片保持忙碌,而不是等待順序向量任務。
- 原生 FP4:TPU 8t 引入了原生的 4 位浮點數(FP4)以克服內存帶寬瓶頸,在保持大模型準確性的同時,提升了 MXU 的吞吐量,即使在較低精度量化下也能維持準確性。通過減少每個參數的位數,該平臺最小化了數據傳輸的能耗,并允許更大的模型層在本地硬件緩存中適配,從而實現峰值計算利用率。
![]()
TPU 8t ASIC 框圖
TPU 8i:推理引擎
谷歌認為,在智能體時代,用戶希望能夠提出問題、委派任務并獲得結果,而TPU 8i 正是被設計來處理許多專業智能體的復雜協作和迭代工作,智能體往往在復雜的工作流中「群集」起來,以提供解決方案和洞察力。
谷歌通過四項關鍵創新,重新設計了堆棧,以消除「等待室」效應:
- 突破「內存墻」:為了防止處理器閑置,TPU 8i 配備了 288 GB 高帶寬內存,并配有 384 MB 的片上 SRAM,比上一代多出 3 倍,確保模型的活躍工作集完全保存在芯片內;
- Axion 動力高效性:將每個服務器的物理 CPU 主機數量翻倍,采用了基于 Axion Arm 的定制 CPU。通過使用非統一內存體系結構(NUMA)進行隔離,優化了整個系統的性能;
- 擴展 MoE 模型:對于 MoE 模型,將互聯帶寬提高至 19.2Tb/s。新的 Boardfly 架構將最大網絡直徑縮短超過 50%,確保系統作為一個統一的低延遲單元運行;
![]()
TPU 8i 層次化的 Boardfly 拓撲結構,從四個完全連接的芯片構建起一個基礎單元,逐步發展為一個完全連接的八塊板組成的集群,最終將 36 個這樣的集群完全連接成一個 TPU 8i 超級節點。
- 消除延遲:新片上集體加速引擎(CAE)卸載全局操作,將片上延遲減少了最多 5 倍,最大限度地減少了延遲。每個集體操作的低延遲意味著等待時間更少,從而直接提高了吞吐量,滿足了同時運行數百萬個智能體所需的性能。
這些創新使得,在每美元的價位下,性能提升了 80%,也就是說,企業能夠以相同的成本為更多客戶提供服務。
![]()
TPU 8i ASIC 框圖
https://techcrunch.com/2026/04/22/google-cloud-next-new-tpu-ai-chips-compete-with-nvidia/
https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/
https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.