今天,谷歌在 Cloud Next '26 峰會上發布了其第八代 TPU 架構(TPU 8t 與 TPU 8i),TPU 8t 主攻訓練,TPU 8i 主攻推理,將在 2026 年晚些時候上市。第八代 TPU 采用申請制,Google Cloud 用戶如需使用,需要在官網提交登記需求。原生 PyTorch 對于 TPU 的支持等軟件棧功能,目前也處于 Preview 階段。眼下,谷歌是在小范圍內開放給特定合作伙伴和早期客戶進行測試,旨在管理早期算力資源的分配。
TPU 8t 憑借 SparseCore 核心與 Virgo 網絡拓撲,將大規模預訓練效能推向極致,以 2.7 倍的單位成本算力改寫了模型訓練版圖。
TPU 8i 專為實時推理與復雜決策而生,其通過 CAE 加速引擎與新型 Boardfly 拓撲結構,在一定程度上擊碎了長上下文推理的延遲瓶頸,讓 AI 從單一的下一個詞預測進化到場景模擬和深度邏輯推理,AI 回應將變得更及時、更連貫。在谷歌自研 Arm Axion 架構 CPU 的算力支持下,這套架構還實現了兩倍的能效飛躍。
第八代 TPU 將開放給所有谷歌云客戶使用。TPU 8t 和 TPU 8i 支持主流的 AI 框架比如 PyTorch 和 JAX。開發者不需要學習新的編程語言,使用自己熟悉的工具就能直接調用 TPU 算力。谷歌還提供了開源的參考模型代碼,讓用戶可以快速上手。
![]()
(來源:谷歌)
我們可能都遇到過 AI 反應很慢的情況,要轉好幾圈才給出答案,很多時候問題不在于網速,其實是處理請求的芯片距離太遠。我們的聲音數據要跑到遠處的數據中心,在那里排隊、計算、再傳回來,一來一回時間就過去了,此次第八代 TPU 正是為解決這個問題而來。
當前,AI 訓練和 AI 推理對于芯片的要求越來越不一樣。訓練需要極致的算力,這要求芯片之間能夠高效地協同工作。推理則需要極低的延遲,這要求芯片能夠快速處理多個請求,并且還得盡可能地省電。于是,第八代 TPU 分成了 TPU 8t 和 TPU 8i。
TPU 8t:專為大規模 AI 訓練設計
TPU 8t 主要負責訓練,它被設計得可以成千上萬個連在一起工作。谷歌用一個名為 3D Torus 的網絡把其連接起來,組成了一個超級計算集群。一個單獨的超級計算單元里就裝了 9600 顆 TPU 8t 芯片,一起共享高達 2PB 的內存,總共能夠提供高達 121 ExaFlops 的算力。
![]()
圖 | TPU 8t ASIC 框圖(來源:谷歌)
TPU 8t 還用到了 SparseCore 這一技術。現在的很多大模型用的是混合專家技術,每次計算只激活一小部分參數,混合專家技術雖然能效高,但是會產生大量不規則的內存訪問,這讓普通芯片招架不來。
而谷歌此次使用的 SparseCore 技術專門負責處理這種任務,比如它可以讓負責核心數學運算的矩陣乘法單元專心做自己擅長的事情,通過這樣互相配合的方式,芯片就不會閑置,始終保持滿負荷運轉的狀態。
TPU 8t 還改進了數據傳輸方式,用上了谷歌自研的 Virgo 網絡,把芯片之間的通信帶寬翻了一倍,把連接到外部數據中心的帶寬提升了四倍。TPU 的 Direct Storage 技術允許芯片直接從高速存儲里讀取數據,從而能夠繞開 CPU 這個“中間人”。
這樣一來,喂給芯片的數據流就不會斷,訓練速度能提升十倍。在能耗上,TPU 8t 相比上一代的每瓦性能提升了兩倍。訓練超大模型時,它的性價比提升了 2.7 倍。對于需要訓練幾百甚至上千億參數模型的團隊來說,這意味著能夠節約大量的時間和電費。
![]()
圖 | TPU 8t 機架級與 Virgo 光纖通道的連接(來源:谷歌)
TPU 8i:能快速響應需求和處理長上下文推理
相比之下,TPU 8i 主打一個反應極快,它專門為那些復雜的、需要多步推理的問題而生。當你和 AI 聊一個很長的上下文,比如討論一個復雜的心理問題,那么 AI 需要記住之前所有的對話內容。
上述對話記憶被存放在一個叫 KV Cache 的地方,而 TPU 8i 配備了 288GB 的高帶寬內存和 384MB 的超大片上 SRAM,后者比上一代多了三倍,因此它可以把整個對話的上下文都裝進芯片內部,不用頻繁地去外面拿數據,處理速度自然也就變快了。
![]()
圖 | TPU 8i ASIC 框圖(來源:谷歌)
TPU 8i 的另一項關鍵創新是集體通信加速引擎。當大模型進行推理的時候,尤其是在處理混合專家模型時,芯片之間需要頻繁地同步數據和匯總結果,這個過程叫做集體通信。要是做得不好,芯片的大部分時間都在干等。
TPU 8i 的 CAE 專門負責加速這個環節,把延遲降低了五倍。它還把芯片之間的互聯帶寬翻了一番,達到了 19.2 Tb/s。
與此同時,谷歌還為 TPU 8i 設計了一種名為 Boardfly 的全新網絡連接方式。傳統的 3D Torus 網絡在連接大量芯片時,數據包在芯片之間傳輸時需要經過很多跳。Boardfly 通過借鑒 Dragonfly 拓撲的思想,利用增加長距離直連鏈路的方式,把由 1024 顆芯片組成的系統里的最遠的兩個芯片之間的通信距離從 16 跳減少至 7 跳,降低了 56%,讓任何兩顆芯片之間都能更快地交換信息,助力更好地處理復雜的推理任務。
這些改進讓 TPU 8i 在推理任務上的性價比比上一代提升了 80%。對于一家企業用戶來說,將能用同樣的成本服務將近兩倍的客戶。谷歌還為 TPU 8i 搭配了自研的 Axion ARM 架構 CPU,并做了針對性優化,讓系統運行得更順暢。
![]()
圖 | TPU 8i 分層式 Boardfly 拓撲結構(來源:谷歌)
眾所周知,谷歌這套 TPU 體系已經運行了很多年,谷歌的 Gemini 正是跑在 TPU 之上。如前所述,他們這次將第八代 TPU 開放給了所有云客戶,旨在為全球開發者構建一座通往更高 AI 想象力的算力基石。總的來說,在智能體時代這種芯片設計上的精細化分工,將有利于打造一個隨叫隨到、反應靈敏的 AI 應用。
參考資料:
https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/
https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive/
https://www.bloomberg.com/news/articles/2026-04-22/google-cloud-releases-new-tpu-chip-lineup-in-bid-to-speed-up-ai
https://x.com/patrickmoorhead/status/2046928498292412771
排版:胡巍巍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.