網易首頁 > 網易號 > 正文申請入駐

Rubin縮水背后，英偉達的CUDA神話正在松動

2026-06-30 11:05:38　來源: 華爾街見聞官方

上海舉報

分享至

兩條看似無關的新聞，在6月最后一周先后落地。

6月25日，OpenAI發布首款自研AI推理芯片Jalape?o，與博通聯手僅用9個月完成從設計到流片——這家全球最大的GPU買家，開始自己造芯片了。

6月30日，半導體研究機構SemiAnalysis在社交平臺公開宣布：英偉達原版4芯片Rubin Ultra已在GTC 2026發布僅三個月后遭取消，新版性能縮水近半。"這一切發生的背景是，"該機構補充道，"英偉達的市場份額正在被侵蝕。"

而早在去年，媒體爆出Anthropic的年化營收已逼近70億美元，旗下Claude Code在推出兩個月內創造了5億美元年化收入。而驅動這一切的算力底座，已經不再只有英偉達——谷歌TPU承擔訓練、亞馬遜Trainium負責推理、英偉達GPU退居為"研究探索"的第三選項。

三條新聞，指向同一個問題：CUDA護城河——英偉達最堅固也最被神話的競爭壁壘——正在出現裂痕。

87%到75%，英偉達的"不可替代"正在瓦解

先看一組數字。

據Silicon Analysts基于英偉達/AMD財報及臺積電產能分配數據的估算，英偉達在AI加速器市場（按收入計）的份額軌跡如下：

可以看到，英偉達的收入仍在增長——從150億到1500億，四年十倍。但份額從87%高峰滑向75%，意味著增量市場中有越來越大的一塊被切走了。

切走這塊蛋糕的，不是某一個對手，而是來自四面八方的競爭：谷歌TPU、亞馬遜Trainium、微軟Maia、Meta MTIA、博通定制的XPU——還有剛加入的OpenAI。

博通CEO陳福陽在2026財年一季報電話會上透露了一個此前未公開的數字：博通AI半導體收入已達到84億年化運行率，同比增長10684億年化運行率，同比增長106400-500億的年度軌跡沖刺。這家公司已經簽下了六個超大規模客戶為其定制AI芯片，OpenAI是第六個。

換句話說，全球最大的幾家云計算公司和AI公司，不約而同地選擇了同一個方向：自己造芯片。

Anthropic的選擇

如果說市場份額數據是冰冷的統計，那Anthropic的案例就是一個活生生的"去英偉達化"教科書。

Anthropic是目前全球增長最快的AI公司之一。年化營收逼近70億美元（2025年同期僅約10億），服務超過30萬家企業客戶，大客戶數量同比增長近7倍。Claude Code在推出兩個月內創造了5億美元年化收入，Anthropic稱其為"史上增長最快的產品"。

而驅動這一切的算力底座，是一種被Anthropic CFO Krishna Rao稱為"獨特計算策略"的三平臺架構：

注意最后一列。英偉達GPU排第三，不是并列，不是"備選"，是三個選項里規模最小的那個。

這不是一個缺錢的小公司在用廉價替代品湊合。這是全球第二大AI公司，在生產環境中，用非英偉達芯片驅動其增長最快的產品。

SemiAnalysis在6月30日的帖子中特別點出了這一點："Claude Code的推理工作有相當大一部分運行在Trainium上，Claude的訓練在TPU上完成。就在一年前，TPU和Trainium能增長到這種規模，同時CUDA護城河被緩慢侵蝕，還是難以想象的事。"

Anthropic為什么要這樣做？不是因為TPU和Trainium比H100更強——在絕對性能上它們可能仍有差距。而是因為特定場景下，專有芯片的性價比遠超通用GPU。訓練用TPU，因為谷歌給了幾百億美元的合同和百萬顆芯片的供應承諾。推理用Trainium，因為AWS是其主要云服務商、已投資80億美元，Project Rainier超算集群完全跑在Trainium 2上，沒有GPU溢價。

亞馬遜在Trainium上賭得很大。據其2026年一季報披露，Trainium產品線已獲得超過2250億美元的收入承諾，客戶包括OpenAI和Anthropic。AWS的AI收入運行率已超過150億美元，Bedrock推理服務大部分跑在Trainium上。

這里的關鍵詞不是"性能"，是"成本"。推理是每天都在燒錢的事。ChatGPT每次回答問題、API每次返回代碼，背后都是GPU在跑電。Anthropic用Trainium替代GPU做推理，不是為了跑得更快，是為了每花一美元算更多次。

三道侵蝕切口：CUDA護城河從哪里裂開

CUDA之所以被視為英偉達最堅固的護城河，是因為它構建了一個"硬件-軟件-開發者"的封閉生態：

20年積累，400萬+開發者
所有主流ML框架優先為CUDA優化
cuDNN、TensorRT、NCCL等優化庫形成深度綁定
切換成本以年計，以億美元衡量

但2026年的AI芯片競爭，不再是"做一個比H100快10%的GPU"——那是正面進攻，無人能贏。侵蝕來自三個側面：

侵蝕路徑一：自研ASIC——不打全戰場，只切最肥的推理蛋糕

這是最致命的路徑。它的邏輯不是"我能做得比英偉達好"，而是"我不需要GPU的所有功能，我只需要推理"。

一塊英偉達H100要做的事：圖形渲染、科學計算、AI訓練、AI推理、視頻編解碼……一塊Jalape?o只做一件事：運行OpenAI自己的模型進行推理。前者是瑞士軍刀，后者是一把專砍一種木頭的斧頭——在特定任務上，斧頭比軍刀好用得多，也便宜得多。

OpenAI Jalape?o的定位極其精準：不和英偉達比全能，只在推理——這個每天消耗數十億次API調用、每年燃燒數億美元成本的場景——做到極致。OpenAI官方目標是降低30-50%的推理成本。在每天燒掉數百萬美元推理費用的體量下，這意味著每年節省數億美元的純利潤。

而且OpenAI不是第一家。微軟Maia 200（2026年1月發布）、谷歌TPU Ironwood（第七代，首款專為推理設計）、亞馬遜Trainium 3——四大云廠商全部亮出了自研推理芯片。再加上Meta MTIA和蘋果的定制芯片，全球前七大科技公司中，只有一家還在"只買不造"——而它也在路上了。

侵蝕路徑二：AMD——從"存在"到"可信替代"

AMD的AI GPU收入從2022年的不到10億美元飆升至2026年預計的150億美元以上，四年超過15倍增長。

這背后的關鍵轉折點是MI400系列。基于CDNA5架構、432GB HBM4內存、19.6 TB/s帶寬，預計2026年下半年量產。S&P Global預測MI400單系列將貢獻72億美元收入，占AMD數據中心業務的25%。

更重要的是客戶端的信號。Meta已與AMD簽署了高達6吉瓦的采購承諾——這不僅是AMD歷史上最大的AI芯片訂單，也是一個明確的信號：超大規模客戶在做多供應商布局。

AMD的局限同樣明顯：臺積電CoWoS產能分配僅約11%，而英偉達占據60%以上。產能天花板決定了AMD短期內無法對英偉達形成數量級沖擊。但"可信的第二供應商"這個定位本身，就已經拆掉了"非英偉達不可"的敘事墻角。

侵蝕路徑三：軟件層解耦——Triton、JAX和"CUDA-Free"的未來

這是最容易被忽略、但長期最危險的一條路徑。

CUDA的綁定依賴于一個簡單事實：AI研究員寫代碼用PyTorch，PyTorch底層跑在CUDA上。但如果PyTorch底層不再依賴CUDA呢？

這正在發生。 PyTorch團隊已經驗證了使用Triton編譯器可以實現"CUDA-Free"推理——在H100和A100上運行Llama 3模型，Triton內核生成的token吞吐量可與CUDA媲美。2026年2月，Triton推出了新的多后端支持，允許同一套代碼編譯到不同硬件上——AMD GPU、英特爾GPU、甚至各種ASIC。

谷歌的JAX框架走得更遠。它從一開始就設計為硬件無關——同樣的代碼可以在TPU、GPU甚至CPU上運行。Anthropic選擇TPU進行訓練，很大程度上就是因為JAX讓它們可以在不重寫模型代碼的前提下遷移算力平臺。

軟件層的解耦意味著什么？意味著新一代AI研究員可能在從未寫過一行CUDA代碼的情況下，訓練出最先進的模型。當開發者不再被鎖定在CUDA生態中，"必須買英偉達"的硬邏輯就變成了"可以買英偉達"的軟選擇。

Rubin Ultra取消：物理極限的分水嶺

回到開篇的新聞。英偉達4芯片Rubin Ultra在發布三個月后遭取消，被SemiAnalysis視為"制造執行層面的問題正在讓更多市場份額流失"。

技術原因并不復雜。原版Rubin Ultra計劃將4顆計算芯片+16個HBM4E內存模塊集成在單一封裝內，采用臺積電CoWoS-L工藝。但據Global Semi Research，4芯片配置下出現了封裝基板翹曲——基板向多個方向彎曲，導致計算芯片無法與基板完全接觸。信號傳輸失效，芯片根本無法工作。

臺積電的備選方案CoPoS（面板級封裝）要到2028年底才能量產。英偉達等不起——所以新版Rubin Ultra回退到2芯片設計，性能縮水近半。

這件事的象征意義大于實際業務影響。

英偉達仍然會賣掉它能生產的每一塊Rubin Ultra。但"從4芯片回退到2芯片"暴露了一個更深層的問題：英偉達的產品迭代速度，正在撞上物理極限的墻。更大的芯片→更復雜的封裝→更高的缺陷率→要么延遲、要么縮水。這是一條不能無限延伸的曲線。

而與此同時，競爭對手們正在用另一種方式繞過這面墻：不做更大的芯片，做更專用的芯片。

定價權的裂縫

英偉達的護城河真正不可撼動的部分，不是CUDA軟件生態，是制造端。臺積電60%的CoWoS先進封裝產能握在它手里。這是物理壁壘，不是軟件壁壘。競爭對手可以寫出更好的框架、設計出更高效的ASIC——但在出貨量上追趕英偉達，首先要過臺積電產能這一關。

但問題也就在這里：制造壁壘依賴的是一家第三方晶圓廠。它不是英偉達自己能控制的資產。

而英偉達88%的毛利率——H100成本3320美元、售價28000美元——建立在一個前提上：客戶無法離開它。如果這個前提從"無法離開"變成"性價比最優的選擇"，那定價權就不再是絕對的了。

Anthropic證明了另一條路：不追求最好的芯片，追求最適合的芯片。訓練用TPU而不是GPU，不是因為TPU更快，而是因為谷歌給了足夠多的芯片和足夠好的價格。推理用Trainium而不是GPU，不是因為Trainium更強，而是因為AWS是戰略股東，Project Rainier繞開了通用GPU的溢價。

當全球第二大AI公司把GPU降級為三大算力平臺中最小的一塊時，"必須買英偉達"這件事就不再是鐵律了。

英偉達仍然是最好的。頭部AI公司沒有一個徹底離開了它——Anthropic保留了一部分GPU用于"前沿研究探索"，OpenAI的Jalape?o只做推理不做訓練，Meta的MTIA只覆蓋推薦系統和內容審核。

但從"只有英偉達"到"英偉達最貴，先用便宜的"，這中間的差距就是定價權的流失。

市場已經開始為這個可能性重新定價。今年以來，SemiAnalysis的每一次看空報告都引發相關板塊劇烈震動：6月初SOCAMM削減消息導致美光單日跌13%，6月10日CPO延遲爭議迫使英偉達高管出面辟謠，6月30日Rubin Ultra取消再度點燃討論。

這些波動的背后，是市場在艱難回答一個以前不需要回答的問題：如果CUDA不是不可替代的，英偉達值多少錢。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.