作者 | 硅基象限 張思
過去十年,AI算力的敘事幾乎被一家公司定義——NVIDIA(英偉達)。
從A100到H100,再到H200,GPU像一條不斷擴展的算力工業流水線,把深度學習從實驗室推向大模型時代。
但一個被長期忽視的問題是:GPU最初并不是為AI而生,是為圖形渲染而生。
這意味著它從一開始就是"通用并行計算架構",而不是"AI原生架構"。
于是,一個更底層的趨勢開始出現:
當AI計算規模指數級增長時,GPU的邊際效率開始下降。
產業開始向另一個方向轉型,重新設計計算范式,一種依靠專用計算芯片設計邏輯(ASIC)的算力芯片——NPU誕生了!
美國時間4月22日,在Google Cloud Next活動上,谷歌推出兩款第八代NPU芯片,TPU8t、TPU8i分別用于AI訓練和AI推理。TPU8t每瓦性能上比前代產品提升124%,TPU8i提升117% ,TPU8i的每美元性能提升80%。業內評論,"其如果對外出售,或將取代英偉達"。
云服務廠搞芯片,并非是谷歌的獨特路線。
全球云服務市場的"老大"亞馬遜,在2018年發布首款用于推理的 NPU—Inferentia1,并在2023年推出了第二代Inferentia2,并在去年底發布用于訓練的NPU,Trainium3;排名第二的微軟云也在2023年發布了首款云端NPU(Maia 100),并在今年初發布了Maia 200。
國內亦如此。阿里在2019年發布首款NPU(含光800),專注云端推理和視覺計算;2018 年開始百度發布基于ASIC邏輯的自研AI芯片昆侖1,并已迭代至昆侖芯3代。
2026年,算力芯片的大客戶,字節跳動也將對NPU下手。外媒透露字節跳動已開始與三星洽談自研NPU芯片,代號SeedChip,專為AI推理任務設計,預計2026年3月底前交付首批樣品。
2026年的趨勢是芯片不再是一整塊,谷歌、字節、阿里們想在英偉達的平臺上,"拼"入自己的專用模塊。
云廠商自研NPU,或將改變AI成本結構、能耗曲線,甚至商業模式。
什么是 NPU?
谷歌TPU、阿里含光800等本質是一種NPU形態。
NPU(Neural Processing Unit)芯片,英文直接翻譯過來就是神經網絡處理芯片。
要理解NPU和GPU的差別,可以先從它們的底層邏輯開始,NPU廣義上屬于專用處理芯片(ASIC),而GPU屬于通用處理芯片。
芯片按設計邏輯可以被分為三類,通用計算芯片、FPGA(可重構硬件)和ASIC (專用處理芯片)。
第一是通用計算芯片,諸如CPU和GPU,一條指令驅動成百上千線程并行執行,非常擅長處理大規模并行計算,通常不改變硬件,而是通過軟件(CUDA)改變"任務調度"。這就是為什么大家都說英偉達其實是一家軟件公司,GPU核心特征是高度可編程、適配所有計算任務、架構復雜(需要很多緩存)。但代價是通用性越強,效率越低。
第二類是 ASIC(專用定制芯片),它是為了某一個特定任務(比如識別圖像、處理語音)而專門定制的,數據流固定、能效極高,是一種"把算法固化進硅片"的設計方法。缺點是一旦電路壓印在硅片上,功能就無法更改,不夠靈活。ASIC的本質是把AI計算從"軟件問題"變成"物理問題",但它也意味著靈活性最低、更新周期長。
第三類是FPGA(可重構硬件),其可以通過"重新布線" 改變芯片硬件布局和改變軟件代碼,來改變芯片功能,像一套"樂高積木",它介于通用和專用之間,常用于算法迭代快的原型開發或邊緣計算。
GPU功能強大,可以并行做很多事,要是把這些能力都用上,可以無比強大,但是單價更高,也更費電,而 NPU只做一件事或一類事,功能單一,但是單價低也更省電。
不賣芯片,只做更具性價比的云
云服務商并不賣芯片,而是想要提供更具性價比的算力。
在2015年,谷歌就開始研究NPU,當時,谷歌發現一個問題:其數據中心中,神經網絡推理需求暴漲,但GPU效率不足。
于是,谷歌內部啟動了TPU項目。2015年第一代僅用于數據推理的TPU誕生,2018年對外開放Google Cloud TPU,2020–2024年開始進入"訓練+推理一體化"階段。
2026年,隨著TPU 8發布,谷歌首次明確分成兩條路線:用于訓練的TPU 8t和用于推理的TPU 8i,這背后反映的是一個更大的趨勢:AI算力的重心,正在從訓練轉向推理。
行業機構預計,到2030年,75%-80%的AI算力將用于推理。這意味著GPT訓練一次,推理運行數億次。因此,誰能把 1 分錢的推理成本壓到 0.1 分,誰就是未來的算力王者。
谷歌的兩款芯片分別由兩個合作方設計,TPU8t由博通設計, TPU8i由聯發科設計,兩顆都或將基于臺積電2nm工藝,預計2027年底量產。TPU 8最核心變化在于試圖解決"內存墻"問題,通過更高帶寬HBM、更密集的片間互聯。
![]()
據悉,此次TPU8對比上一代Ironwood產品,TPU 8i 推理芯片HBM容量從216GB增到288GB,帶寬從6528提到8601GB/s,片上 SRAM提升三倍達384M。集群規模從數萬顆擴到13.4萬顆,最多可連100萬顆。
NPU并不是谷歌獨角戲,亞馬遜、微軟等都有NPU產品,而國內華為昇騰(Ascend)、寒武紀、地平線等也有類似產品發布。
以前云廠商買英偉達的"全家桶",現在他們想買英偉達的"地基",自己蓋"房子"。
掌握算力時代主動權
TPU 8系列發布背后,是一個非常清晰的戰略:去英偉達化。
如果TPU成功,AI算力將從"GPU壟斷"變成"多架構競爭"。
但取代"英偉達",卻并不容易。
最重要的問題是生態,英偉達的CUDA仍然是行業標準,CUDA 有 400 萬開發者。另一方面,TPU功能太過單一,GPU可以用于AI訓練和推理、圖形處理和渲染,但是TPU的功能單一。
業內人士普遍認為,NPU的意義不是"替代GPU",而是重新定義AI算力結構。未來可能出現,GPU作為通用算力底座、TPU/NPU作為AI專用加速層。
英偉達也看到了這個趨勢,在2025年底,英偉達斥資 200 億美元對 Groq 進行收購,Groq研發的 LPU (Language Processing Unit) ,在運行大模型(LLM)時,其速度是傳統 GPU 的 10 倍以上。
這就像是過去十年,大多手機廠商的競爭。當手機里最重要的Soc芯片已經被高通、聯發科壟斷,具備強大的護城河,自研Soc芯片需要付出很大的成本且面臨高風險。
那么,想要有獨特優勢、在市場上更具競爭力,大多數手機企業不會選擇自研Soc芯片,而是針對Soc芯片的局部功能做優化。
此前,三星、vivo、OPPO等手機廠商都選擇自研用于提升拍照能力的NPU芯片,實現差異化,比如vivo藍圖影像芯片、OPPO馬里亞納 MariSilicon芯片。
云廠商的算力競爭也接近白熱化,越來越多用于訓練和推理的NPU將會出現,并不斷提升能力。
未來真正的算力產業分水嶺將是:誰能把AI推理成本壓到極致,誰就掌握下一代算力時代主動權。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.