作者 | 李建忠
出品丨AI 科技大本營(ID:rgznai100)
期間,奇點智能研究院院長、2026 奇點智能技術大會(SITS)發(fā)起人李建忠在硅谷采訪了英偉達 CUDA 奠基者、被稱為“CUDA 之父”的 Ian Buck。作為英偉達超大規(guī)模與高性能計算副總裁,Ian Buck 不僅深度參與了 CUDA 的創(chuàng)建,也長期處于 NVIDIA 平臺演進的核心位置,見證并推動了這家公司從一家 GPU 廠商走向全球 AI 生態(tài)平臺領跑者的全過程。
![]()
這場對話圍繞 CUDA 20 年的演進邏輯、AI 工廠、異構計算、開發(fā)者生態(tài)、軟硬件協同設計,以及下一代基礎設施的開放性與競爭格局,Ian Buck 在這場訪談中系統回應了外界最關心的一系列問題。這場采訪最大的看點,不只是 Ian Buck 對 英偉達AI工廠最新的技術與產品的闡述,而在于他把英偉達如何從 CUDA 開始、把芯片、系統、軟件和開發(fā)者不斷擰成一個統一生態(tài)平臺的底層邏輯。
外界往往把英偉達的優(yōu)勢理解為芯片領先,但從 CUDA、GPU、LPU、CPU,到 NVLink、交換機、軟件棧和開發(fā)者生態(tài),英偉達最大的護城河,早已不是單點產品,而是一整套圍繞訓練、推理與 AI 工廠組織起來的生態(tài)級平臺的能力。
問題:您是否可以談談此次GTC大會新發(fā)布的技術和產品、以及令您印象最深刻的部分?
IanBuck:我最大的感受是, AI 基礎設施正在進入一個全新的階段。黃仁勛在主題演講里已經展示了這一點:NVIDIA 現在同時推進七款芯片和五種機架架構,目標是服務AI工廠,以前所未有的規(guī)模完成訓練與推理,把下一代智能體 AI推向市場。
我最關注的是,LPU 被正式納入整個體系。NVIDIA Groq 3 LPU 可以被理解為 Vera Rubin 的增強組件。LPU 基于 SRAM,能夠依靠極快的 SRAM 完成浮點計算。但它的限制也非常明確,一旦把它用于擁有超長上下文、面向實時推理的超大模型,問題就會暴露出來。僅靠 LPU 去運行一個萬億參數模型,需要幾十個機架。這樣的方案也許可以帶來極高的 Token 速率,但在成本和基礎設施效率上都無法支撐真正的大規(guī)模部署。
我們的解決辦法不是讓 LPU單獨承擔任務,而是讓它和Vera Rubin 配合工作。現在,隨著新的Groq 工程師加入 NVIDIA,我們正在把 GPU 和 LPU 的優(yōu)勢整合到同一個系統里。原本需要幾十個 LPU 機架完成的工作,現在兩個機架就可以覆蓋。所有 Token 的注意力計算可以交給 GPU,模型每一層的專家部分的矩陣計算則交給 LPU。這正是讓下一代模型落地所面臨的挑戰(zhàn)之一。
當然,AI 市場的大部分需求——聊天機器人、圖像生成、視頻處理、推薦系統——仍然會主要運行在 Vera Rubin 上。LPU 并不會為這些場景帶來額外收益,Rubin 本身已經是非常成熟的 AI 平臺。LPU真正發(fā)揮作用的,是下一代智能體所需要的工作負載:萬億參數模型、幾十萬 Token 級上下文,以及每秒千 Token 級別的服務速度。到了這個級別,Vera Rubin 與 LPU 的組合才變得關鍵。
我今天也帶來了 Vera 模塊。這就是 Vera CPU,和你們現在看到的系統里使用的是同一顆 CPU。在 AI 智能體時代,我們需要的是一種新的 CPU:既要有極強的單核性能,也要有很多核、且讓每個核都能滿性能運行。只有這樣,它才能承擔工具調用、代碼編譯、瀏覽器渲染和 SQL 查詢等任務,讓 GPU 去調度 CPU,在訓練和推理時共同交付完整的 AI 體驗。NVIDIA 會把 Vera 作為獨立 CPU 推向市場,而且只提供這一種 SKU。它本身就是參考架構,合作伙伴可以在此基礎上繼續(xù)構建自己的系統。我很樂意聊這些產品,以及讓這一切得以運轉的軟件系統。
問題:今年是CUDA誕生20周年。2006年您帶領團隊發(fā)布CUDA時,您是否預料到它20年后會發(fā)展到今天這個規(guī)模?CUDA取得成功的密碼是什么?
Ian Buck:CUDA 走到今天,確實是一段非常特別的歷程。今年 11 月,距離我們第一次發(fā)布CUDA 正好滿 20 年。我 2004 年加入 NVIDIA,就是為了做這件事。第一個版本花了兩年時間才真正完成。更早的時候,我在斯坦福做博士研究,方向就是如何把 GPU——當時還只是圖形處理器——用于通用計算。那篇博士論文的核心,其實就是一個問題:什么樣的編程模型才是對的?怎樣才能讓程序員不再用兩線程、兩核心、四核心的方式思考,而是真正進入 1 萬線程級別的并行思維?
人類并不天然適合這樣思考。我們的思維方式更接近線性。但 GPU 架構所展示的,是一種完全不同的計算方式。它并不是用來解決所有問題,而是專門用來加速那些真正具備萬級、十萬級,乃至百萬級并行潛力的部分。真正的難點,不只是硬件本身,而是怎么讓程序員形成這種思維,并把它清楚地表達出來。
CUDA之所以能夠成功,一個決定性的原因是:我們沒有試圖重新發(fā)明一門全新的編程語言。那當然是可以做的,而且從學術角度看也很自然。但當我們真正和客戶、和那些有實際計算問題的人交流時,得到的反饋很明確:他們需要的不是一套新的語言體系,而是一種能提高開發(fā)效率的工具。所謂開發(fā)者生產力,本質上就是能利用現有技術,而不是為了使用它被迫重學一整套新的語言和概念。
所以 CUDA 最關鍵的一點,其實是 C語言。它建立在 C 語言之上。我們的思路是盡量少改 C語言,只在真正有價值的地方做擴展,讓程序在最需要性能的部分跑上 1 萬個核心。最初的構想就是這樣。后來,CUDA 擴展到C++ 、Python, Java、和 Fortran,但一個真正可行的編程模型仍然是它最核心的東西。
另一件同樣關鍵的事,是始終確保兼容性。一旦開發(fā)者進入 CUDA 體系,從 GeForce 8800 到今天的 Vera Rubin,只要他們運行在支持CUDA的GPU上,那么之后的每一代硬件都會讓它變得更快。這就是我所說的一種新的“摩爾定律”。變快的不只是硅片和晶體管,而是整個技術棧。CUDA 的每一層都在持續(xù)變快,開發(fā)者的代碼也會沿著同一條指數曲線變快。即使CUDA 1.0 時代寫下的代碼,今天放到 Vera Rubin 上,性能也會得到百萬倍的提升。
當然,隨著時間推移,我們不斷加入新的能力、新的特性、新的技術和新的庫,但最初對開發(fā)者的承諾從未改變:給他們一個容易理解、容易使用的編程環(huán)境,而不是逼他們接受一門陌生的新語言;只在真正能創(chuàng)造價值的地方做擴展;同時始終把向后兼容和向前兼容放在心上。你在 GTC 現場就能直觀地看到這種承諾如何兌現:Volta 比上一代更快,Ampere 更快,Hopper 更快,Blackwell 更快,Rubin 還會繼續(xù)更快。
最后也非常重要的是,今天的 CUDA不只是一個編程平臺,而是一個龐大的庫和生態(tài)平臺。我們現在已經有超過 1000 個 CUDA-X 庫和模型。其中有做電子結構理論的模型,比如 cuEST;有用于 SQL 查詢的cuDF;有用于向量搜索的 cuVS;也有像 cuEquivariance 這樣幫助 AI 模型預測蛋白質結構的工具。我們還有面向量子計算的庫,比如 cuTensor 和 cuStateVec,用于量子比特糾錯、量子系統模擬。我們使用量子重新定義了計算機科學,讓計算機科學家今天就可以借助 GPU 去模擬未來生產級量子計算機的行為。這些庫非常多,而且并不都是 NVIDIA 自己開發(fā)的。事實上,其中很多都來自開發(fā)者社區(qū)本身。
對我來說,這里面一直有件很簡單、但也很讓人謙卑的事:最開始,我做的不過是在 C 語言里加了幾個關鍵字。我的老板支持我這么做,也支持我組建團隊把它做出來。黃仁勛當年做出的一個非常偉大的決定是:從我們2006年談到的第一代 GPU開始,要把 CUDA放進每一塊 GPU。這個決定花費了公司數十億美元。我們前 10 年都沒從這件事上賺到錢,但他從來沒有放棄。
問題:今天NVIDIA似乎在加速計算領域占據主導地位。從長期看,未來可能出現什么新的力量,對CUDA構成真正的挑戰(zhàn),甚至成為替代品?
Ian Buck:我不喜歡“主導地位”這個詞,這從來不是我們的目標,也不是重點。我們的重點始終是幫助開發(fā)者。這些芯片和機架本身不會自動做事,它們只是等待開發(fā)者來決定如何使用。
如果在 GTC 現場走一圈,會看到很多不同類型的開發(fā)者。有些開發(fā)者希望對圖形處理器進行底層編程,從頭開始編寫 CUDA 代碼;有人想模擬一種新型合金的分子結構,以預測其性能,所以他們會直接調用某個程序庫、某款軟件,或者某個 ISV 的產品;還有些人只是想跑一個預訓練 AI 模型,例如做一個 chatbot,去理解等離子體物理學領域過去 50 年的論文。
我們的目標,是給開發(fā)者打造一個平臺,幫助他們提升工作效率,實現能力升級。從而解決科研問題、將服務推向市場,或者在某個垂直領域做出被全球用戶使用的軟件。至于最佳切入點到底是什么——是從一個 CUDA 庫開始,還是從 GitHub 或開源生態(tài)里的庫開始,還是深入直接操作 CUDA 底層——這是一個開放平臺,由開發(fā)者自己決定。我明天也可以做一個新操作系統,區(qū)別于Linux 或 iOS,再為它辦一場發(fā)布會。但如果沒有開發(fā)者,它就不是一個平臺。平臺從來都是由開發(fā)者定義的。
開發(fā)者并不需要非用 CUDA 不可。他們在我們的平臺上可以選擇自己想用的方式。只要開發(fā)者有機會做事情,我們就會保持開放,讓他們去編程、去編譯、去鏈接、去做推理、去做訓練。我們歡迎各種不同的計算形態(tài)。開發(fā)者也不需要鎖定在整套方案上。你可以只買 Vera,可以只用 Vera Rubin,也可以不買完整 NVL72,只用一張 PCIe 卡,都可以。你也可以讓智能體的工作負載運行在別家的 CPU 上,替代 Vera Rubin,也沒問題。
實際上,我們甚至把NVLink 也開放出來了。通過NVLink Fusion,其他 CPU 可以把 NVLink 集成進去,直接和 NVIDIA 的GPU 通信。我們也把 NVLink 向其他 XPU 開放,它們可以接入 NVLink 的 IP 和芯片,利用 NVLink 交換機的能力。整個技術棧的每一層,我們都在盡量開放。只要有人能在其中某一層創(chuàng)造價值,不管是面向自己的業(yè)務、自己的軟件,還是要解決的問題,我們都歡迎。我們打造的是開放平臺,而非強迫開發(fā)者全盤接受我們的一整套方案。開發(fā)者需要選擇權,也需要開放性,而我們愿意把整套技術棧打開,讓他們去優(yōu)化、去探索。
我們沒有發(fā)明AI。至少在GPU這個語境里,AI更像是被“發(fā)現”的。大家都知道,加拿大的一位研究生 Alex Krizhevsky,在自己的游戲 PC 上,用買來的 GeForce GPU 下載了 CUDA 這個免費軟件,然后做出了第一個基于 GPU 的 AI 神經網絡,也就是AlexNet。這才是這件事真正重要的地方。至于下一步會發(fā)生什么,我并不知道。但我相信,開發(fā)者會找到答案。我們其實只是陪著他們一起往前走,幫助他們去探索下一代編程范式、下一代模型,下一代智能體世界到底會變成什么樣子。
問題:NVIDIA內部是如何保持軟件研發(fā)和硬件研發(fā)的協同?軟件架構師是從硬件設計的第一天就參與其中,還是要等到硬件設計全部完成后才開始軟件設計?這中間會否有部門墻帶來的隔閡?
Ian Buck:這是一個非常棒的問題。我可以談一個關鍵的內部機制:我們并不公開 GPU 的指令集。大家都熟悉 X86 指令集、ARM 指令集,但 NVIDIA GPU 從沒有對外公開我們的官方指令集。我們在軟件棧對外支持的是 CUDA-X,而不是把最底層的硬件接口直接開放出去。
指令集是軟件和硬件之間最底層的接口。正因為如此,我們才能把很多優(yōu)化從最底層一路往上做:從芯片、內核,GPU 指令(我們的確存在一套指令集,只是我們不會將其公開),一直延伸到 CUDA、編譯器、運行時庫、操作系統優(yōu)化、線性代數庫,以及整個軟件棧。
每一次平臺迭代,從 Hopper到 Blackwell,再到 Rubin,我們更新的都不只是芯片,而是整套技術棧。我們架構團隊不只是做 GPU 本身——門電路、晶體管、核心、計算引擎——同時還有一個規(guī)模巨大的內核與軟件團隊,直接嵌在架構團隊里。當他們交付 Rubin 時,交付的不只是芯片,還有全部內核、全部優(yōu)化,以及和我的框架團隊一起打磨好的整套軟件能力。
我的團隊里還有很多人專門負責 PyTorch、Dynamo、SGLang、vLLM、JAX、NeMo。這些都是我們長期投入工程師和資源的生態(tài)軟件項目。所以每一代架構真正交付出來的,其實是芯片、各類內核庫、底層接口、調優(yōu)后的 NCCL 和 NVSwitch,以及成千上萬個內核的總和。這才是所謂架構協同設計的真正含義。
我最近沒去看具體數字,但我想 NVIDIA 現在的軟件工程師肯定比硬件工程師多得多,原因就在這里。外界經常把我們看成一家無晶圓廠的半導體硬件公司,但實際上,我們內部有一個規(guī)模極其龐大的軟件團隊。
我們讓成千上萬的軟件和內核工程師,與設計芯片的團隊一起,被組織在同一個體系里,向同一個 VP 匯報。這樣做最大的好處是:芯片交付以后,他們的工作并不會停止。Blackwell 出貨之后,這些軟件團隊和同樣在做 Rubin 的硬件團隊,仍然在做我剛才提到的那些 DeepSeek 優(yōu)化。他們繼續(xù)和 OpenAI、Anthropic、Microsoft 以及整個行業(yè)合作,不斷把 Blackwell 的內核性能再往上推。
更重要的是,他們在這個過程中積累的經驗,又會反過來讓 Rubin 變得更好。這種并非簡單 “甩手掌柜式” 的交付模式,意味著他們也是實際支撐現有模型運行團隊的一員。除了對各類內核進行優(yōu)化之外,他們還能確保 Rubin 在硬件層面也能實現更進一步的優(yōu)化提升。
問題:AI正在改變軟件開發(fā),這會為CUDA及其開發(fā)者帶來什么樣的改變?
Ian Buck:AI 編碼在加速 CUDA 的使用,而且速度比很多人想得更快。就拿 NVIDIA 內部來說,我們每天都在生成大量 CUDA 內核,這些內核代碼被用于運行 GPT-OS、DeepSeek 這樣的模型。現在,一部分 CUDA 內核已經開始由 AI Coding 工具生成。雖然仍有一些內核代碼需要工程師手工打磨。這樣帶來的結果,是性能更高、優(yōu)化更好,而這背后涉及了大量的軟件與調優(yōu)工作。
我剛才提到的 CUDA-X 的上千個庫,現在也不再只是由開發(fā)者手工編寫,AI Agent 也深度參與其中。CUDA 和 CUDA-X 的采用速度之所以加快,原因就在這里:這些 Agent 已經能夠理解這些庫各自的能力,并主動調用它們。
我團隊有一些做 HPC 的研究人員,他們正在朝 Gordon Bell Prize (全球高性能計算領域的最高榮譽)這類頂級目標推進。現在,他們已經在用 Python、NVIDIA Warp、Claude 和 ChatGPT 生成 CUDA 代碼。生產力的提升非常明顯,因為Agent 現在可以訪問大量不同的庫,并把這些庫用在具體的領域問題上。無論是直接生成 CUDA 代碼,還是基于某個 CUDA-X 庫去開發(fā),Agentic Coding 都在整體上提升開發(fā)效率,也在推動加速計算更快普及。
問題:統一架構對CUDA非常重要,但Groq目前還有一點不同,它還沒有被CUDA支持。未來它會被納入CUDA,還是保持獨立?
Ian Buck:我們的方向一直很明確:所有平臺最終都應該是可編程的。GPU 要可編程,CPU 要可編程,BlueField DPU 要可編程,ConnectX 也可以編程,Spectrum-X 也一樣。里面有很多與擁塞控制相關的算法和機制,本身就具備很強的可編程性。如何把這些硬件開放給開發(fā)者,以及如何用開發(fā)者熟悉的方式完成這件事,是整個體系里非常重要的一部分。
現在,LPU 和 Groq 已經有一套非常強的編譯器,能夠對 Groq 芯片內部的計算單元進行調度和編程。這里真正關鍵的是“調度”。當系統以每秒 1000 個 Token 的速度運行時,所有任務都必須被精確安排。每一份數據、每一次計算,都必須在剛剛好的納秒到位,以便銜接下一個操作。這對這類處理器是否能真正運轉,至關重要。
這和 CPU、GPU 的工作方式都不一樣。在 GPU 中,我們采用的是針對延遲優(yōu)化的核心。GPU 有大量任務需要處理,且流水線非常豐富,憑借極高的并行度,硬件可以讓所有任務持續(xù)流暢地執(zhí)行與計算。而 LPU 架構的一個核心特點,也是它與 GPU 形成互補的原因,在于它是一種具有精確時序的調度型架構,能夠把專家模型里前饋網絡(FFNs)的那部分計算精確執(zhí)行出來。
我們的確打算把這一套編程環(huán)境開放出來,但第一代還做不到。因為當前的重點仍然是支持由前沿 AI 實驗室打造的標桿模型,我們會直接和這些團隊合作。但“開放 LPU 的編程環(huán)境”本身,是明確的目標。至于未來是通過 CUDA 的方式,還是通過更通用的方式來實現,這件事還要往后看。
不過有一點非常明確:LPX 和 LPU 的能力不可能單獨發(fā)揮出來。過去我們追求極快解碼時,就已經遇到過這個問題。你當然可以把足夠多的芯片堆在一起,組成十幾柜 LPX、成千上萬個 LPU 去跑一個萬億參數的模型,但問題是內存容量根本不夠。這些是 SRAM,容量只有 500 MB。如果再給它接上 HBM,它原本的優(yōu)勢也會隨之消失。所以你一定需要另外的GPU和它協同,才能把效率做出來。原本需要幾十個機架才能完成的萬億參數模型,現在我們只需要兩個機架:一個 Vera Rubin 機架,一個 LPX 機架。
而這件事遠不只是兩種芯片簡單拼在一起。它們之間還需要互連,需要交換機,需要 Spectrum 芯片。當我們解碼每一個 Token 時,我們需要 NVLink 芯片把 GPU 連接起來,Spectrum 芯片本身還要與 ConnectX 相連。換句話說,LPX 上的解碼不是某一顆芯片單獨完成的事,而是七款芯片協同工作后,才能把這些模型真正推向市場,并同時實現性能與效率。
問題:很多競爭對手都在押注推理,因為他們認為這一領域存在巨大機遇。現在你們有了Groq,在推理方面表現非常出色。你怎么看和TPU、Cerebras這類公司的競爭?
Ian Buck:推理從來不可能靠某一個招式取勝。它要求所有芯片協同工作,才能實現出色的性能與極高的吞吐。缺少任何一項,都不可能真正實現規(guī)模化。高性能讓大模型能夠快速思考,出色的 Token 速率讓模型賦予我們真正的智能,實現能力與價值的躍升。但只有性能還不夠,你還需要具備強大的吞吐量。如果一個數據中心只能為一個模型處理一次查詢,這根本形成不了市場,成本太高。你必須擁有足夠的吞吐量。
而這正是七款芯片協同工作的意義所在:LPU、GPU、CPU、NVLink、Spectrum、ConnectX、BlueField 共同組成一個系統。這樣,我們才能用兩個機架完成傳統需要一整排機柜才能完成的工作,把每 Token 成本與整體吞吐量打到一個理想區(qū)間,讓我們能夠真正將其推向市場,并以經濟高效的方式大規(guī)模服務新一代智能體模型。至于其他工作負載,正如黃仁勛在主題演講里說的,跑在 Blackwell 上很好,跑在 Vera 上也一樣很好,這一點我們非常確定。
從這個角度看,為了實現高性能和高吞吐,只有七款芯片協同工作,才能把推動 AI前沿技術發(fā)展,去支撐那些更大的模型。當然,每個人都在提出好的想法。每一塊都在創(chuàng)新,軟件、模型、架構、機柜設計…..最早在數據中心上液冷的不是我們,而是 Google。其液冷系統設計精妙,色彩豐富。整個 AI 領域都是這樣,創(chuàng)新到處都在發(fā)生。AI 像一股漲潮的海水,把所有船都一起抬了起來。
有很多很棒的想法。我們要如何汲取其中的精華 —— 無論是軟件設計、AI模型、內核優(yōu)化、壓縮算法、數值格式、系統工程、芯片架構,還是封裝工藝—— 并將其推向市場?NVIDIA 在做的,就是把這些最好的想法吸收進來,推向市場,從而實現更高的性能、每瓦特性能,以及更有優(yōu)勢的 Token 成本,就像我們在 InferenceMax 基準測試里展示的那樣。然后,我們再把它規(guī)模化,讓整個世界都能從這些創(chuàng)新中獲益。
創(chuàng)新一直都在發(fā)生。NVIDIA 還有一個獨特之處——也是我老板給我們的一個“殊榮”——就是我們每年都要做一個新的平臺。這有時候也令人心力交瘁。一年前我們還沒有 LPX 機架,也沒有 Vera 機架。AI 的演進速度就是這么快。只要你認真去看,那些好想法其實一直都在那里。正因為我們每年都在創(chuàng)新、每年都在推出新平臺,所以你們每年也都有理由回到 GTC。
問題:從架構角度看,把三種不同芯片整合到一起,最大的挑戰(zhàn)是什么?尤其Groq這樣的技術來自外部。
Ian Buck:答案首先還是制造和供應鏈。NVIDIA 這些芯片——Groq 芯片、NVLink 芯片、Spectrum 芯片、BlueField 芯片、CPU、GPU 的制造,里面涉及 CoWoS 封裝,要把內存封裝到 GPU 上,同時還涉及整個系統級工程:如何把所有器件最終集成為一個機架。
![]()
現在,我們已經把第一批工程樣機交到了客戶手里。在離這里不遠的地方,NVIDIA 內部也已經有多臺 Vera Rubin 機架在運行,它們已經能跑 PyTorch。展廳里還有 Runway 的一個非常精彩的演示,可以直接看到 Vera Rubin 的實際效果。AI 工廠真正推向市場,背后依賴的是全球供應鏈與全球制造能力的協同。
問題:所以你們構建了GB200,實際上是把一個超級計算機真正做到了規(guī)模化,對嗎?
Ian Buck:可以這么理解。我們做的,其實就是把超級計算機真正推到了大規(guī)模。自從當年在佛羅里達州坦帕的 Supercomputing 2006(SC06)大會上發(fā)布 CUDA 以來,我一直在做超級計算機。它們有點像一級方程式賽車:你造出一輛車,需要無數工程師圍著它工作,保證它能跑;跑完一圈以后,還要把它拆開檢查每一個部分。那只是一輛車。
但我們今天做的,是把那套工程方法擴展到數百萬輛“車”,擴展到以吉瓦計的數據中心規(guī)模。現在,我們每個月出貨的數據中心 GPU,總功耗加起來大概就是幾個吉瓦。這背后需要巨大的系統工程能力、全球制造流程,以及完整的零部件生態(tài)。這中間包括液體鏈接用的 QD 連接器、NVLink 連接器、冷板制造、熱管、電容器、穩(wěn)壓器、漏液檢測器——所有這些東西都要齊備。
更重要的是,所有零部件最終都必須真正拼成系統。薩蒂亞(微軟 CEO)前段時間發(fā)過他們機架的照片,我這里也有很多客戶機架的照片。有大量工程師負責搭建這些機架。我們通常會先在中國臺灣完成這一過程,那里不只是芯片制造的重要地點,也是整個計算機制造工程能力最密集的地方。然后我們再把它推廣到全球各地。Dell 在馬薩諸塞州和愛爾蘭設有制造工廠,今天很多用來訓練標桿模型的機架,也有在墨西哥、得克薩斯州或圣何塞等地生產出來的。歸根到底,這是整個生態(tài)系統共同完成的事。
問題:在整條供應鏈都參與進來的情況下,把這些東西整合起來的關鍵挑戰(zhàn),是不是系統工程?
Ian Buck:是的,好消息是 NVIDIA 在 Grace Blackwell 上已經完成過這一過程。借助 NVL72,我們已經把整個系統擴展到那個規(guī)模。有了這一層基礎之后,現在我們就能在此基礎上繼續(xù)加速,因為供應鏈、工程經驗和制造體系都已經建立起來了。
當我們去構建 LPX 機架和 Vera Rubin 機架時,你會發(fā)現它們外觀上很像。原因不是巧合,而是我們復用了同一套供應鏈體系、制造流程、認證周期、測試流程、運輸方式,和數據中心標準。這些機架的供電要求一致,液冷要求一致,其排布、散熱和水溫維持同一標準。這使得客戶能夠自由組合搭配,或將所有機架整合為一套完整的系統生態(tài)。
問題:讓這一切真正運轉起來的核心,是整個生態(tài)系統都在持續(xù)投入?
Ian Buck:答案很大一部分確實是:供應鏈、可制造性,以及整個生態(tài)系統都在持續(xù)投入,并且把這些能力推向市場。但在那之前,還有大量更基礎的工作要做。我們得先把第一臺做出來,確保整個軟件棧能跑、互連能跑、所有芯片能一起工作。
讓我倍感興奮的是,Vera Rubin 現在已經能跑 PyTorch,能生成漂亮的圖像,也能運行大語言模型。我們的 Bring-up 實驗室里也有多款大語言模型跑在 LPU 上,目前我們正在搭建對應的機架。Vera 也已經點亮和運行。我自己在上面跑過 287 個不同的基準測試,從 HPC 應用到計算 π 的位數,都已經跑通。現在剩下的,就是把規(guī)模繼續(xù)拉起來,優(yōu)化調整生產線,并確保良率達到優(yōu)異水平,以便在今年晚些時候將其交付至各大數據中心。
問題:隨著制程進入亞納米,硅基材料的物理極限越來越明顯。NVIDIA現在如何看待下一代半導體材料,比如TMD?
Ian Buck:如果你問我現在最興奮什么,我的答案其實是 CPO(共封裝光學,Co-Packaged Optics)。黃仁勛在 GTC 演講中舉起過那塊 Spectrum-6 CPO 模塊。能夠把這樣的東西真正做出來,背后的技術和硅工藝都非常驚人。我們全程運用光學物理原理,并將其直接部署在信號生成的位置附近。這會顯著增加帶寬,大幅提升功耗效率,同時增強了系統的可靠性,讓所有服務器實現互聯協作、統一運行。今天,我們已經在 NVL72 上做到了這一點。
當初我們敢把密度推到這么高,是因為我們知道,只要有 NVLink 提供的帶寬、連接能力和信號速度,就有可能在一個機架里做出一顆“巨型 GPU”:其背后配備的是 5000 根銅纜和 9 臺 NVLink交換機。為了讓 72 顆 GPU 真正像一個系統那樣工作,NVLink 與 CPO 的結合使這一切成為可能。
我不知道你們是否注意到,黃仁勛在演講里也提到了:在最終的新一代產品里,我們會把 CPO 融入 NVLink,把 NVLink 的擴展規(guī)模提升到 1152 顆 GPU。這聽起來很瘋狂。如果想做到這一點,唯一的辦法就是在維持如此大規(guī)模信號與連接的同時,避免功耗激增、成本失控,并且讓整個系統能夠協同如一。其中涉及的物理原理十分精妙,相關技術也堪稱驚艷,但研發(fā)難度極大。搭載 CPO 技術的 Spectrum-6 交換機將與 Vera Rubin 同步推向市場。它可以把光信號傳到幾公里之外,同時保持大規(guī)模數據中心所需要的穩(wěn)定性和可靠性。嚴格說,這并不是對“新材料”問題的直接回答,但如果你問我最期待什么,我的答案就是這個。
問題:隨著NVIDIA發(fā)布新的CPU和LPU,AI架構正在變得越來越異構。你是否認為,隨著AI工作負載越來越專業(yè)化,基礎設施異構化已經成為必然趨勢?英偉達GPU向來以通用性著稱。你們將如何應對全新挑戰(zhàn)?GPU是否仍是該領域的“最優(yōu)解”?
Ian Buck:這是一個很棒的問題:到底要把系統做得多專用,還是要提供一個可編程平臺去承載持續(xù)創(chuàng)新?我們始終在兩者之間找平衡。
我們完全可以將 GPT-OS 進行流片,把它做成一款芯片級模型。如果走到極端,把整個模型直接做成硅片,我相信某些效率一定會更高。但問題也同樣明顯:模型和它的實現方式會被永久固化在那塊硅片里。這樣一來,繼續(xù)優(yōu)化模型、優(yōu)化軟件、探索應用場景的空間就會消失。即便是 GPT-OS,也仍然有可能變得更快、更好、更聰明、更可擴展。
我們可以看 DeepSeek R1,它是一年多前發(fā)布的,我記得很清楚——對我們的股價來說,那一天也確實很有意思。但從發(fā)布以后,它一直在變得更快。為什么?因為整個世界都拿起自己的 GPU,去研究怎么把混合專家網絡(MoE)模型跑得更快、更高效,怎么把 Token 成本壓低,怎么像 InferenceMax 基準測試里那樣繼續(xù)提高每瓦特性能。這背后有非常大的價值。而這之所以可能,一個根本原因就在于:這些芯片是開放的。它們可以被重新配置、編程、編譯、鏈接、推理、訓練。我們歡迎開發(fā)者去探索各種不同的計算模式。
【活動分享】"48 小時,與 50+ 位大廠技術決策者,共探 AI 落地真路徑。"奇點智能技術大會是由深耕多年的「全球機器學習技術大會」重磅升級而來。2026 奇點智能技術大會將于 4 月 17-18 日在上海環(huán)球港凱悅酒店正式召開,大會聚焦大模型技術演進、智能體系統工程、OpenClaw 生態(tài)實踐及 AI 行業(yè)落地等十二大專題板塊,特邀來自BAT、京東、微軟、小紅書等頭部企業(yè)的 50+ 位技術決策者分享實戰(zhàn)案例。旨在幫助技術管理者與一線 AI 落地人員規(guī)避選型風險、降低試錯成本、獲取可復用的工程方法論,真正實現 AI 技術的規(guī)模化落地與商業(yè)價值轉化。這不僅是一場技術的盛宴,更是決策者把握 2026 AI 拐點的戰(zhàn)略機會。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.