![]()
記者 葉心冉
TPU獲得的關注度肉眼可見地在攀升。
過去一個月,圍繞谷歌TPU的消息接連不斷。4月底,谷歌發布了第八代TPU,首次將訓練和推理拆分為兩款獨立的芯片;緊接著,市場上相繼傳出谷歌向英特爾下達大規模采購訂單、谷歌擬與三星開發新一代TPU的消息。不過,谷歌方面對此均未作出公開回應。
但可以預見的一個趨勢是,隨著谷歌TPU的大幅入局,過去幾年作為AI算力代名詞的GPU,不再是唯一的選擇。當算力需求從訓練轉向推理時代,TPU的優勢開始凸顯,從過去的“配角”愈加有站上主舞臺之勢。
GPU和TPU是兩種不同的芯片品類。GPU誕生已有二十多年,全稱是Graphics Processing Unit(圖形處理器),技術相對成熟,代表公司有英偉達、AMD。TPU則是谷歌從2015年起專門為AI設計的新品類,它的全稱是Tensor Processing Unit(張量處理器),專攻深度學習所需的矩陣運算。
集群計算需求增長
TPU為何在此時成為焦點?先要看市場需求正在發生什么變化。
國家數據局發布的《全國數據資源調查報告(2025年)》顯示,2025年,中國AI推理數據量首次超過訓練數據量。
TrendForce集邦咨詢的數據預測,北美五大云服務商2026年AI訓練算力預計增長56%,而推理算力將暴增122%,后者增速是前者的兩倍以上。IDC預測,到2029年中國市場推理算力占比將接近八成。
推理正逐漸成為算力需求的主場,而這也在為TPU創造機會。
首先,模型越來越大,單顆芯片無法支撐,必須依靠多顆芯片的集群協同完成推理任務,而TPU在集群效率上有先天優勢。
“智能體正在逐步替代人類的部分工作,其本質是用寫程序的能力控制電腦。只有當模型足夠大時,才能完成程序員能做的事。如今的模型參數從億級已達到萬億級別,單顆芯片無法承載完整推理任務,必須依靠幾十甚至上百顆芯片互聯集群協同運算。”中昊芯英創始人及CEO楊龔軼凡說。
中昊芯英是一家聚焦TPU芯片技術研發的企業,楊龔軼凡表示,GPU架構是以單卡通用算力和軟件生態見長,而TPU則是在大規模集群的通信與協同效率上有優勢。
一位前谷歌TPU工程師在一檔視頻節目中介紹,GPU單機內部依靠NVLink、板載NVSwitch實現多卡互聯,跨機架大規模集群還需額外采購交換機、光模塊搭建高速網絡,配套硬件是一筆大額基建開支;而TPU機柜內芯片可直接互通,僅在跨機柜擴展時使用自研光電路交換機,無需大批量采購商用高速交換設備,在同等集群通信性能下,整體部署硬件成本更低。
其次,推理階段對性價比的敏感度遠高于訓練。當Token消耗呈指數級暴增,單位算力成本也成為了更受重視的指標。從架構上看,TPU是專用芯片,剔除了GPU的圖形渲染、通用計算等功能,聚焦于深度學習矩陣運算。楊龔軼凡指出,谷歌TPU在發布時,對比同等生產工藝的GPU,有3到5倍的性能提升。
細分場景里的選擇
什么場景下GPU更合適,什么場景下TPU更優?
這需要回到芯片設計的原點。
楊龔軼凡說,GPU最早是為了在電腦屏幕上顯示逼真的3D游戲畫面而設計的。它要把三維物體從各個角度算成二維畫面,還要算光線、顏色,讓畫面足夠真實。這就導致GPU里面塞了上萬個計算核心,像一個大工廠里有一萬名工人同時干活。優點是并發能力強,處理圖像和矩陣運算非常快。但缺點是,一旦某個工人算錯了,你根本沒法在一萬名工人里快速找到是誰出了問題。
而AI深度學習的計算模式完全不同。深度學習模型是一層一層往下計算的,每一層內部可以高并發,但層與層之間有先后順序。這種模式不需要GPU那么復雜的調試和通用能力。于是,TPU這類專門為AI設計的芯片應運而生,只聚焦深度學習最常用的運算。
這就好比,從之前要同時調度一萬個工人,變成只需要調度一千個按固定流水線工作的工人,控制邏輯簡單得多。
基于這種架構差異,楊龔軼凡預測,未來AI芯片市場將形成“442”格局:40%是極致性價比的純ASIC(專用集成電路)芯片,只能跑固定一兩個模型的推理,性價比極致;40%是可編程的DSA(領域專用架構)芯片,比如TPU,支持深度學習網絡的算法,芯片利用率不如ASIC,但比GPU強很多;20%是通用GPU,留給還在快速變化的新算法和研究場景。
不過,這并不意味著TPU對GPU是替代關系,而是要看具體場景的適配。
在楊龔軼凡看來,20%的GPU市場會長期存在。原因在于,AI領域的新算法、新方向還在不斷涌現,研究人員需要一個通用、靈活的平臺來快速驗證想法。CUDA生態(英偉達圍繞GPU硬件打造的一系列軟件和工具鏈)經過20年打磨,成熟度高,當新的計算場景出現時,GPU仍然是首選。
而TPU的優勢在于性價比和生態建設成本。楊龔軼凡舉例解釋,TPU的設計思路是讓開發者“只管開車,不用修車”。它的硬件指令專為AI計算優化,同時適配PyTorch這類主流框架。PyTorch就像一個AI“樂高工具箱”,開發者用熟悉的“積木”搭模型,剩下的交給TPU編譯器自動優化,不用為了遷就硬件去學一套新編程語言。
相比之下,CUDA更像一套“修車工具”,開發者必須懂“發動機原理”才能玩得轉,這套工具是行業積累了十多年的成果。TPU則是依托現有成熟AI框架,大幅降低了軟件適配門檻,這也是其性價比優勢的重要來源。
當下,AI Agents逐步進化為全球社會生產力的核心基座,帶動Token消耗量指數級攀升和“Token經濟”時代的來臨。當Token消耗呈指數級增長,芯片的利用率、性價比成為更加重要的比拼項,TPU迎來新的機會,開始成為AI芯片賽道上除GPU之外的“另一個選項”。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.