![]()
新智元報道
![]()
【新智元導讀】跑分跑了這么多年,新基準偏說FLOPS量不動智能體了,英偉達GB300一上來,就把上代甩開20倍。
同樣一兆瓦電,英偉達最新的GB300 NVL72能同時扛住61400個智能體,上一代H200只扛得住大約2600個。
這中間,差了整整20倍。
![]()
英偉達公布的AA-AgentPerf成績:在每秒20與60個token兩檔服務標準下,GB300 NVL72每兆瓦的并發智能體數,都約為H200的20倍。
6月12日,英偉達剛放出這組數字的時候,外界第一反應是又一次性能炫技。
但真正變了的,并非這代芯片有多猛,而是丈量算力的那把尺子。
它就是獨立評測機構Artificial Analysis發布的新基準:AA-AgentPerf。
Artificial Analysis在官方博客中將它稱為業界第一個專門為「AI智能體(AI agent)」設計的推理基準。
![]()
它的主指標也和以往不同:并非每秒多少token,而是「每兆瓦并發智能體數(Agents per Megawatt)」。
通俗點說,就是每給系統供1兆瓦的電力,它能同時「養活」多少個智能體。
FLOPS量了這么多年,每秒吐多少token也用得好好的,為什么還要推出AA-AgentPerf這個新基準?
舊尺子
量不動智能體了
要回答這個問題,得先弄明白智能體跑起來時到底是個什么負載。
Artificial Analysis的判斷很明確,2026年最主流的AI負載,和那些老基準當年設計時瞄準的東西,早就不是一回事了:老基準量的是定長的合成請求,還順手關掉了生產環境里真會開的那些優化。
英偉達官方也打了一個貼切的比方:
一次普通的對話,是百米沖刺,模型接一個問題,吐一段回答,結束;但一個智能體干活,更像跑接力。
它把一個目標拆成幾十上百個步驟,讀文件、寫代碼、跑命令、看結果,再決定下一步,一棒接一棒,直到任務真正做完。
這一路下來,幾十次甚至上百次的大模型調用串在一起,每一次都把越滾越長的上下文遞給下一棒,還夾雜著編譯、查庫、跑搜索這些工具調用。
復雜度并非簡單相加,而是層層相乘。
![]()
英偉達用「接力」比喻智能體負載。一個目標被拆成幾十上百步,大模型調用與工具調用一棒接一棒,串成不斷變長的長鏈。
問題恰恰就出在這里。
市面上現有的推理基準測試,量的都是單次調用,一個請求進去多久回來、一臺機器能同時接多少個請求。
它們原本就不是為智能體設計的。鏈式調用、工具等待、上下文膨脹,這些東西對系統的壓榨方式,和單次請求完全是兩回事。
僅是長會話就藏著老基準的測試盲區:同一段長長的前綴,會一輪一輪重復出現,誰能把它緩存住、不必每次重算,誰就省下大筆算力。
再加上工具結果動不動把上下文撐爆、輸出卻常常只有幾百個token,調度器和顯存層級扛不扛得住這種忽長忽短的節奏,直接決定一套系統是順暢運轉還是當場崩掉。
這恰恰是固定長度的合成測試無法觸及的地方。
對于真金白銀買卡、建數據中心的人來說,他們真正關心的是這套系統到底能同時養活多少個干活的智能體,每一度電、每一塊GPU又換來多少有用產出。
這些問題老基準測試答不上來。
第一個為智能體造的尺子
AA-AgentPerf的做法和老基準不一樣,不喂那種長度固定的合成提示詞,而是回放真實的編程智能體軌跡。
![]()
AA-AgentPerf回放的智能體軌跡示意。從一個請求出發,LLM調用與工具調用交替推進,直到任務真正完成。
這些軌跡,是讓智能體去解真實代碼倉庫里的問題攢出來的,覆蓋12種以上編程語言,一段會話最長能跑到200輪,上下文輕松沖破10萬token。
輸入長度從5千到13萬token不等,平均約2.7萬。真正把長度撐起來的,并非提示詞本身,而是一輪輪累積的工具輸出和對話歷史。
更關鍵的,是它怎么算成績。
它不去拼極致的并發數。并發一旦堆太高,每個智能體都慢得像爬,并發數再大,也只是中看不中用。
AA-AgentPerf反過來做:先鎖死一個服務標準,每個智能體的輸出速度、首字延遲(TTFT)都得達標,再看系統守住這條線,最多能扛住多少個智能體。
這套約束有個名字,叫服務等級目標(SLO)。
這套標準還分了幾檔,從每秒20個token的夠用檔,到每秒180個token的飛快檔,每一檔單獨測一遍最大并發,對應市面上真實存在的幾種服務水平。
![]()
服務等級目標(SLO)如何卡住最大并發。綠點是達標區,一旦并發堆高、速度跌破門檻,對應的并發上限就是這套系統的成績。
它還做了一件別的基準不太敢做的事,把廠商在生產里真會開的優化全都放開。
KV cache復用、推測解碼、把預填充和解碼拆開部署,這些以前常被基準一刀切關掉的招數,這次全部允許。
理由很簡單:關掉這些優化測出來的,量了也沒意義。
與此同時,它還盯著輸出質量,不讓某個優化靠犧牲回答質量去換并發數。這樣一來,每多一項軟硬件進步帶來的提升,都能被它如實測量出來。
最后落到一個核心指標:每兆瓦并發智能體數。在一個電力越來越緊、能耗就是成本的世界里,這個指標,才是買家真正關心的那一個:從tokens每秒,到agents每兆瓦。
每兆瓦領先20倍
每塊GPU領先40倍
在一個代表當下最強一類的前沿混合專家(MoE)模型測試里,GB300 NVL72每兆瓦能撐起61400個并發智能體,平均每塊GPU扛起57.5個。
對照組H200,每兆瓦大約2600個,每塊GPU只有1.4個。二者之間每兆瓦差出約20倍,每塊GPU差出約40倍。
這兩個數的含金量也不一樣。
每兆瓦衡量的是同樣一度電能買到多少智能體產能,是一筆能效賬;而每GPU衡量的則是單塊卡的服務密度,是一筆硬件賬。
根據這兩個數,就能直接換算自己手里那點電力預算,到底能跑起多大規模的智能體應用。
榜單上不止英偉達的GB300,還有AMD的MI355X。從單卡、整機到整機架,都擺出來同臺競技。
第一批結果里跑出了兩條很明顯的規律。
規律1:機架級系統天然更便宜,它能更充分地把推理拆開、攤到更多卡上,無論純算力還是每兆瓦能效,都把單節點甩在身后;
規律2:從Hopper到Blackwell這一代的跨越,把系統能扛的并發數直接頂上了一個新臺階,并非小修小補。
從單卡到機架
系統級的勝利
從H200到GB300,這看起來像單卡性能的飛躍,事實上是一場系統級的勝利。
更為關鍵的是GB300 NVL72把72塊GPU用NVLink連成了一個機架級的整體。
對這種龐大的混合專家模型來說,這才是要害:模型能整個攤開,專家分到一整片GPU上并行執行,而并非全擠在單卡里干耗。
CUDA核心在底下做了進一步優化,把跨專家之間的通信和計算重疊起來,讓協調各路專家的那點開銷被算力悄悄吞掉,而并非堆在時延上。
TensorRT-LLM則負責在并發會話不斷往上漲的時候,把效率守住,比如把輸入的處理和輸出的生成拆成兩件事,各自單獨優化。
說白了,這個測試成績,是硬件、互聯和軟件棧共同作用的結果。
![]()
GB300 NVL72機架。72塊GPU經NVLink連成單一高帶寬整體,這才是6萬個智能體能協同運轉的硬件底座。
把72塊卡焊成一個高帶寬的整體,每塊GPU都能飛快地共享參數、KV cache和中間結果,這才是6萬個智能體能協同跑起來的底氣。
幾條不能略過的邊界
這里有幾點需要注意,不能把基準測試等同于生產現實。
第一,6萬這個數,并非一臺機器同時跑6萬個獨立的大模型。
它是基準定義下的并發會話模擬,每個智能體走的是一條預先錄好的軌跡,連工具調用都并非真去執行,而是用一段固定的CPU耗時去模擬。
這么設計,是為了讓最終結果只反映算力本身的差異,但它和真實生產環境里能交付的服務能力,并不能直接畫等號。
第二,基準成績并非生產服務協議。
Artificial Analysis自己也說,這是一份還在快速變動的前沿快照,各家系統都還有沒榨干的余量,成績會隨著軟件優化一路向上爬升。
第三,AA-AgentPerf目前還是單一機構提出的標準。
它會不會像MLPerf那樣,最終長成全行業公認的標尺,現在下結論還尚早。
參考資料:
https://artificialanalysis.ai/articles/aa-agentperf
https://developer.nvidia.com/blog/nvidia-achieves-leading-agentic-coding-performance-on-first-agentic-ai-benchmark/
編輯:元宇
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.