網易首頁 > 網易號 > 正文申請入駐

AI算力變局：TPU正成為“另一個選項”

2026-06-17 21:41:09　來源: 經濟觀察報

北京舉報

分享至

記者葉心冉

TPU獲得的關注度肉眼可見地在攀升。

過去一個月，圍繞谷歌TPU的消息接連不斷。4月底，谷歌發布了第八代TPU，首次將訓練和推理拆分為兩款獨立的芯片；緊接著，市場上相繼傳出谷歌向英特爾下達大規模采購訂單、谷歌擬與三星開發新一代TPU的消息。不過，谷歌方面對此均未作出公開回應。

但可以預見的一個趨勢是，隨著谷歌TPU的大幅入局，過去幾年作為AI算力代名詞的GPU，不再是唯一的選擇。當算力需求從訓練轉向推理時代，TPU的優勢開始凸顯，從過去的“配角”愈加有站上主舞臺之勢。

GPU和TPU是兩種不同的芯片品類。GPU誕生已有二十多年，全稱是Graphics Processing Unit（圖形處理器），技術相對成熟，代表公司有英偉達、AMD。TPU則是谷歌從2015年起專門為AI設計的新品類，它的全稱是Tensor Processing Unit（張量處理器），專攻深度學習所需的矩陣運算。

集群計算需求增長

TPU為何在此時成為焦點？先要看市場需求正在發生什么變化。

國家數據局發布的《全國數據資源調查報告（2025年）》顯示，2025年，中國AI推理數據量首次超過訓練數據量。

TrendForce集邦咨詢的數據預測，北美五大云服務商2026年AI訓練算力預計增長56%，而推理算力將暴增122%，后者增速是前者的兩倍以上。IDC預測，到2029年中國市場推理算力占比將接近八成。

推理正逐漸成為算力需求的主場，而這也在為TPU創造機會。

首先，模型越來越大，單顆芯片無法支撐，必須依靠多顆芯片的集群協同完成推理任務，而TPU在集群效率上有先天優勢。

“智能體正在逐步替代人類的部分工作，其本質是用寫程序的能力控制電腦。只有當模型足夠大時，才能完成程序員能做的事。如今的模型參數從億級已達到萬億級別，單顆芯片無法承載完整推理任務，必須依靠幾十甚至上百顆芯片互聯集群協同運算。”中昊芯英創始人及CEO楊龔軼凡說。

中昊芯英是一家聚焦TPU芯片技術研發的企業，楊龔軼凡表示，GPU架構是以單卡通用算力和軟件生態見長，而TPU則是在大規模集群的通信與協同效率上有優勢。

一位前谷歌TPU工程師在一檔視頻節目中介紹，GPU單機內部依靠NVLink、板載NVSwitch實現多卡互聯，跨機架大規模集群還需額外采購交換機、光模塊搭建高速網絡，配套硬件是一筆大額基建開支；而TPU機柜內芯片可直接互通，僅在跨機柜擴展時使用自研光電路交換機，無需大批量采購商用高速交換設備，在同等集群通信性能下，整體部署硬件成本更低。

其次，推理階段對性價比的敏感度遠高于訓練。當Token消耗呈指數級暴增，單位算力成本也成為了更受重視的指標。從架構上看，TPU是專用芯片，剔除了GPU的圖形渲染、通用計算等功能，聚焦于深度學習矩陣運算。楊龔軼凡指出，谷歌TPU在發布時，對比同等生產工藝的GPU，有3到5倍的性能提升。

細分場景里的選擇

什么場景下GPU更合適，什么場景下TPU更優？

這需要回到芯片設計的原點。

楊龔軼凡說，GPU最早是為了在電腦屏幕上顯示逼真的3D游戲畫面而設計的。它要把三維物體從各個角度算成二維畫面，還要算光線、顏色，讓畫面足夠真實。這就導致GPU里面塞了上萬個計算核心，像一個大工廠里有一萬名工人同時干活。優點是并發能力強，處理圖像和矩陣運算非常快。但缺點是，一旦某個工人算錯了，你根本沒法在一萬名工人里快速找到是誰出了問題。

而AI深度學習的計算模式完全不同。深度學習模型是一層一層往下計算的，每一層內部可以高并發，但層與層之間有先后順序。這種模式不需要GPU那么復雜的調試和通用能力。于是，TPU這類專門為AI設計的芯片應運而生，只聚焦深度學習最常用的運算。

這就好比，從之前要同時調度一萬個工人，變成只需要調度一千個按固定流水線工作的工人，控制邏輯簡單得多。

基于這種架構差異，楊龔軼凡預測，未來AI芯片市場將形成“442”格局：40%是極致性價比的純ASIC（專用集成電路）芯片，只能跑固定一兩個模型的推理，性價比極致；40%是可編程的DSA（領域專用架構）芯片，比如TPU，支持深度學習網絡的算法，芯片利用率不如ASIC，但比GPU強很多；20%是通用GPU，留給還在快速變化的新算法和研究場景。

不過，這并不意味著TPU對GPU是替代關系，而是要看具體場景的適配。

在楊龔軼凡看來，20%的GPU市場會長期存在。原因在于，AI領域的新算法、新方向還在不斷涌現，研究人員需要一個通用、靈活的平臺來快速驗證想法。CUDA生態（英偉達圍繞GPU硬件打造的一系列軟件和工具鏈）經過20年打磨，成熟度高，當新的計算場景出現時，GPU仍然是首選。

而TPU的優勢在于性價比和生態建設成本。楊龔軼凡舉例解釋，TPU的設計思路是讓開發者“只管開車，不用修車”。它的硬件指令專為AI計算優化，同時適配PyTorch這類主流框架。PyTorch就像一個AI“樂高工具箱”，開發者用熟悉的“積木”搭模型，剩下的交給TPU編譯器自動優化，不用為了遷就硬件去學一套新編程語言。

相比之下，CUDA更像一套“修車工具”，開發者必須懂“發動機原理”才能玩得轉，這套工具是行業積累了十多年的成果。TPU則是依托現有成熟AI框架，大幅降低了軟件適配門檻，這也是其性價比優勢的重要來源。

當下，AI Agents逐步進化為全球社會生產力的核心基座，帶動Token消耗量指數級攀升和“Token經濟”時代的來臨。當Token消耗呈指數級增長，芯片的利用率、性價比成為更加重要的比拼項，TPU迎來新的機會，開始成為AI芯片賽道上除GPU之外的“另一個選項”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.