網易首頁 > 網易號 > 正文申請入駐

谷歌第八代TPU首推「訓推雙芯」：8t專攻訓練，8i「死磕」推理

2026-04-23 16:06:23　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

谷歌的 AI 芯片戰略路線迎來重大轉向！

在剛剛過去的 Google Cloud Next 2026 大會上，谷歌正式對外發布第八代張量處理器（TPU）。與以往不同的是，這次亮點之一在于，谷歌首次針對 AI 模型訓練與推理任務，分別推出 TPU 8t 與 TPU 8i 兩款獨立芯片產品。

其中，專注于 AI 模型訓練任務的 TPU 8t，在大規模、高計算需求的訓練工作負載中表現出色，設計上具備更大的計算吞吐量和更多的擴展帶寬。相較于去年 11 月發布的第七代 Ironwood TPU，性能提升 2.7 倍。

聚焦于推理 / 實時執行任務的 TPU 8i，設計時更多考慮了內存帶寬，以便處理最為延遲敏感的推理工作負載，因為智能體在大規模交互時即使是微小的效率問題也會被放大。

值得注意的是，與上一代相比，TPU 8i 單芯片集成了 384MB 的靜態隨機存取存儲器（SRAM），容量是其 3 倍，因此可以完全在硅片上容納更大的 KV 緩存，從而顯著減少長上下文解碼期間內核的空閑時間。性能提升 80% ，尤其是在大規模 MoE 模型的低延遲目標下。

谷歌高級副總裁兼 AI 基礎設施首席技術專家 Amin Vahdat 在官方博客中稱，在智能體時代，模型必須解決問題，執行多步工作流，并從自己的行為中不斷學習。這意味著對基礎設施提出了新的高要求，TPU 8t 和 TPU 8i 兩款芯片旨在應對最具挑戰性的 AI 工作負載，并適應不斷演化的大規模模型架構。

目前，這兩款新品還沒有正式對外，官方宣稱，將在今年晚些時候開始向谷歌云客戶提供。

芯片一經發布，谷歌 CEO 桑達爾?皮查伊（Sundar Pichai）也在 X 上發文宣傳自家新品：「TPU 8t，優化訓練；TPU 8i，優化推理。看起來真不錯！」

在帖文下，引來一眾網友熱議。

有網友認為，此次谷歌將TPU分為專門的訓練芯片和推理芯片，似乎是在承認當前AI算力基礎設施的瓶頸已經轉移，從FLOPs轉移到了內存帶寬和延遲上。

而考慮到推理任務的預期規模，如果工作負載有所差異，（為了優化性能和成本），針對每個任務定制硬件，從成本上看也是合理的選擇。

「這可能類似于電視中的視頻解碼芯片，與能夠進行視頻編碼的芯片相比，解碼芯片通常不會非常便宜或高效。」

大多數網友則認為，谷歌的這款新芯片一出，意味著 AI 芯片市場競爭將愈加激烈，尤其是對英偉達的「沖擊」。

一位網友調侃道，「谷歌正在發布新的 TPU。英偉達，你得做更多的工作了。」

誠然，從 2015 年開始，谷歌就在使用自研處理器來運行 AI 模型，并在 2018 年開始向谷歌云客戶出租芯片，試圖通過構建這種高度集成、針對特定任務優化的自有芯片生態，進一步減少對外部供應商，尤其英偉達的依賴，打造更具自主可控的 AI 基礎設施。

但不得不承認，谷歌的芯片并不能對英偉達構成全面威脅，或者說，至少在當前階段還不是。與微軟、亞馬遜之類的云服務巨頭一樣，谷歌使用這些芯片是為了補充其基礎設施中基于英偉達的系統，而不是徹底取代英偉達。

據了解，谷歌還承諾，其云服務將在今年晚些時候提供英偉達的最新芯片 ——Vera Rubin。

谷歌在官方博客中詳細介紹了兩款芯片的設計細節，下面來了解一下。

TPU 8t：訓練動力引擎

谷歌稱，TPU 8t 是為將前沿模型的開發周期從幾個月縮短到幾周而設計的。通過平衡最高計算吞吐量、共享內存和芯片間帶寬，同時保證最佳的功率效率和計算時間，谷歌打造了一個系統，使得每個超級節點的計算性能比上一代提高近 3 倍，從而加速創新，確保客戶繼續引領行業步伐。

大規模擴展：單個 TPU 8t 超級節點現在能夠擴展到 9600 個芯片和 2 個 PB 的共享高帶寬內存，內存帶寬是上一代的兩倍。這種架構提供 121 ExaFlops 的計算能力，支持最復雜的模型使用單一的大規模內存池；
最大化利用率：通過集成 10 倍更快的存儲訪問，并結合 TPUDirect 將數據直接加載到 TPU，TPU 8t 有助于確保端到端系統的最大利用；
近線性擴展：新 Virg 網絡與 JAX 和 Pathways 軟件結合，意味著 TPU 8t 可以提供高達百萬芯片的近線性擴展。

此外，除了原始性能，TPU 8t 還針對超過 97% 的「良好利用率」進行優化，這是衡量有效計算時間的指標，涵蓋了實時遙測、自動故障檢測和重定向等多項可靠性功能。

具體來看，相較于上一代 TPU，TPU 8t 的關鍵提升主要包括以下幾個方面：

SparseCore 優勢：TPU 8t 的核心是 SparseCore，這是一種專門的加速器，旨在處理嵌入查找的非規律內存訪問模式。Matrix Multiply Unit（MXU）處理矩陣運算，而 SparseCore 則卸載了數據依賴的所有聚集操作，以及其他集體操作，防止了通常困擾通用芯片的零操作瓶頸。
VPU/MXU 重疊與平衡擴展：TPU 8t 旨在最大化已提供的 FLOP 使用率，通過實現更平衡的向量處理單元（VPU）擴展，架構最小化了暴露的向量操作時間。這使得量化、softmax 和 layernorms 可以更好地與 MXU 中的矩陣乘法重疊，幫助芯片保持忙碌，而不是等待順序向量任務。
原生 FP4：TPU 8t 引入了原生的 4 位浮點數（FP4）以克服內存帶寬瓶頸，在保持大模型準確性的同時，提升了 MXU 的吞吐量，即使在較低精度量化下也能維持準確性。通過減少每個參數的位數，該平臺最小化了數據傳輸的能耗，并允許更大的模型層在本地硬件緩存中適配，從而實現峰值計算利用率。

TPU 8t ASIC 框圖

TPU 8i：推理引擎

谷歌認為，在智能體時代，用戶希望能夠提出問題、委派任務并獲得結果，而TPU 8i 正是被設計來處理許多專業智能體的復雜協作和迭代工作，智能體往往在復雜的工作流中「群集」起來，以提供解決方案和洞察力。

谷歌通過四項關鍵創新，重新設計了堆棧，以消除「等待室」效應：

突破「內存墻」：為了防止處理器閑置，TPU 8i 配備了 288 GB 高帶寬內存，并配有 384 MB 的片上 SRAM，比上一代多出 3 倍，確保模型的活躍工作集完全保存在芯片內；
Axion 動力高效性：將每個服務器的物理 CPU 主機數量翻倍，采用了基于 Axion Arm 的定制 CPU。通過使用非統一內存體系結構（NUMA）進行隔離，優化了整個系統的性能；
擴展 MoE 模型：對于 MoE 模型，將互聯帶寬提高至 19.2Tb/s。新的 Boardfly 架構將最大網絡直徑縮短超過 50%，確保系統作為一個統一的低延遲單元運行；

TPU 8i 層次化的 Boardfly 拓撲結構，從四個完全連接的芯片構建起一個基礎單元，逐步發展為一個完全連接的八塊板組成的集群，最終將 36 個這樣的集群完全連接成一個 TPU 8i 超級節點。

消除延遲：新片上集體加速引擎（CAE）卸載全局操作，將片上延遲減少了最多 5 倍，最大限度地減少了延遲。每個集體操作的低延遲意味著等待時間更少，從而直接提高了吞吐量，滿足了同時運行數百萬個智能體所需的性能。

這些創新使得，在每美元的價位下，性能提升了 80%，也就是說，企業能夠以相同的成本為更多客戶提供服務。

TPU 8i ASIC 框圖

https://techcrunch.com/2026/04/22/google-cloud-next-new-tpu-ai-chips-compete-with-nvidia/

https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/

https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.