網易首頁 > 網易號 > 正文申請入駐

統治 AI 十年的英偉達，要被谷歌NPU 掀桌子了？

2026-04-24 12:50:22　來源: 藍鯨新聞

上海舉報

分享至

作者 | 硅基象限張思

過去十年，AI算力的敘事幾乎被一家公司定義——NVIDIA（英偉達）。

從A100到H100，再到H200，GPU像一條不斷擴展的算力工業流水線，把深度學習從實驗室推向大模型時代。

但一個被長期忽視的問題是：GPU最初并不是為AI而生，是為圖形渲染而生。

這意味著它從一開始就是"通用并行計算架構"，而不是"AI原生架構"。

于是，一個更底層的趨勢開始出現：

當AI計算規模指數級增長時，GPU的邊際效率開始下降。

產業開始向另一個方向轉型，重新設計計算范式，一種依靠專用計算芯片設計邏輯（ASIC）的算力芯片——NPU誕生了！

美國時間4月22日，在Google Cloud Next活動上，谷歌推出兩款第八代NPU芯片，TPU8t、TPU8i分別用于AI訓練和AI推理。TPU8t每瓦性能上比前代產品提升124%，TPU8i提升117% ，TPU8i的每美元性能提升80%。業內評論，"其如果對外出售，或將取代英偉達"。

云服務廠搞芯片，并非是谷歌的獨特路線。

全球云服務市場的"老大"亞馬遜，在2018年發布首款用于推理的 NPU—Inferentia1，并在2023年推出了第二代Inferentia2，并在去年底發布用于訓練的NPU，Trainium3；排名第二的微軟云也在2023年發布了首款云端NPU（Maia 100），并在今年初發布了Maia 200。

國內亦如此。阿里在2019年發布首款NPU（含光800），專注云端推理和視覺計算；2018 年開始百度發布基于ASIC邏輯的自研AI芯片昆侖1，并已迭代至昆侖芯3代。

2026年，算力芯片的大客戶，字節跳動也將對NPU下手。外媒透露字節跳動已開始與三星洽談自研NPU芯片，代號SeedChip，專為AI推理任務設計，預計2026年3月底前交付首批樣品。

2026年的趨勢是芯片不再是一整塊，谷歌、字節、阿里們想在英偉達的平臺上，"拼"入自己的專用模塊。

云廠商自研NPU，或將改變AI成本結構、能耗曲線，甚至商業模式。

什么是 NPU？

谷歌TPU、阿里含光800等本質是一種NPU形態。

NPU（Neural Processing Unit）芯片，英文直接翻譯過來就是神經網絡處理芯片。

要理解NPU和GPU的差別，可以先從它們的底層邏輯開始，NPU廣義上屬于專用處理芯片（ASIC），而GPU屬于通用處理芯片。

芯片按設計邏輯可以被分為三類，通用計算芯片、FPGA（可重構硬件）和ASIC （專用處理芯片）。

第一是通用計算芯片，諸如CPU和GPU，一條指令驅動成百上千線程并行執行，非常擅長處理大規模并行計算，通常不改變硬件，而是通過軟件（CUDA）改變"任務調度"。這就是為什么大家都說英偉達其實是一家軟件公司，GPU核心特征是高度可編程、適配所有計算任務、架構復雜（需要很多緩存）。但代價是通用性越強，效率越低。

第二類是 ASIC（專用定制芯片），它是為了某一個特定任務（比如識別圖像、處理語音）而專門定制的，數據流固定、能效極高，是一種"把算法固化進硅片"的設計方法。缺點是一旦電路壓印在硅片上，功能就無法更改，不夠靈活。ASIC的本質是把AI計算從"軟件問題"變成"物理問題"，但它也意味著靈活性最低、更新周期長。

第三類是FPGA（可重構硬件），其可以通過"重新布線" 改變芯片硬件布局和改變軟件代碼，來改變芯片功能，像一套"樂高積木"，它介于通用和專用之間，常用于算法迭代快的原型開發或邊緣計算。

GPU功能強大，可以并行做很多事，要是把這些能力都用上，可以無比強大，但是單價更高，也更費電，而 NPU只做一件事或一類事，功能單一，但是單價低也更省電。

不賣芯片，只做更具性價比的云

云服務商并不賣芯片，而是想要提供更具性價比的算力。

在2015年，谷歌就開始研究NPU，當時，谷歌發現一個問題：其數據中心中，神經網絡推理需求暴漲，但GPU效率不足。

于是，谷歌內部啟動了TPU項目。2015年第一代僅用于數據推理的TPU誕生，2018年對外開放Google Cloud TPU，2020–2024年開始進入"訓練+推理一體化"階段。

2026年，隨著TPU 8發布，谷歌首次明確分成兩條路線：用于訓練的TPU 8t和用于推理的TPU 8i，這背后反映的是一個更大的趨勢：AI算力的重心，正在從訓練轉向推理。

行業機構預計，到2030年，75%-80%的AI算力將用于推理。這意味著GPT訓練一次，推理運行數億次。因此，誰能把 1 分錢的推理成本壓到 0.1 分，誰就是未來的算力王者。

谷歌的兩款芯片分別由兩個合作方設計，TPU8t由博通設計， TPU8i由聯發科設計，兩顆都或將基于臺積電2nm工藝，預計2027年底量產。TPU 8最核心變化在于試圖解決"內存墻"問題，通過更高帶寬HBM、更密集的片間互聯。

據悉，此次TPU8對比上一代Ironwood產品，TPU 8i 推理芯片HBM容量從216GB增到288GB，帶寬從6528提到8601GB/s，片上 SRAM提升三倍達384M。集群規模從數萬顆擴到13.4萬顆，最多可連100萬顆。

NPU并不是谷歌獨角戲，亞馬遜、微軟等都有NPU產品，而國內華為昇騰（Ascend）、寒武紀、地平線等也有類似產品發布。

以前云廠商買英偉達的"全家桶"，現在他們想買英偉達的"地基"，自己蓋"房子"。

掌握算力時代主動權

TPU 8系列發布背后，是一個非常清晰的戰略：去英偉達化。

如果TPU成功，AI算力將從"GPU壟斷"變成"多架構競爭"。

但取代"英偉達"，卻并不容易。

最重要的問題是生態，英偉達的CUDA仍然是行業標準，CUDA 有 400 萬開發者。另一方面，TPU功能太過單一，GPU可以用于AI訓練和推理、圖形處理和渲染，但是TPU的功能單一。

業內人士普遍認為，NPU的意義不是"替代GPU"，而是重新定義AI算力結構。未來可能出現，GPU作為通用算力底座、TPU/NPU作為AI專用加速層。

英偉達也看到了這個趨勢，在2025年底，英偉達斥資 200 億美元對 Groq 進行收購，Groq研發的 LPU (Language Processing Unit) ，在運行大模型（LLM）時，其速度是傳統 GPU 的 10 倍以上。

這就像是過去十年，大多手機廠商的競爭。當手機里最重要的Soc芯片已經被高通、聯發科壟斷，具備強大的護城河，自研Soc芯片需要付出很大的成本且面臨高風險。

那么，想要有獨特優勢、在市場上更具競爭力，大多數手機企業不會選擇自研Soc芯片，而是針對Soc芯片的局部功能做優化。

此前，三星、vivo、OPPO等手機廠商都選擇自研用于提升拍照能力的NPU芯片，實現差異化，比如vivo藍圖影像芯片、OPPO馬里亞納 MariSilicon芯片。

云廠商的算力競爭也接近白熱化，越來越多用于訓練和推理的NPU將會出現，并不斷提升能力。

未來真正的算力產業分水嶺將是：誰能把AI推理成本壓到極致，誰就掌握下一代算力時代主動權。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.