網易首頁 > 網易號 > 正文申請入駐

百億真實數據，首個面向AI Infra的運維智能體評測基準正式開源

2026-06-29 20:48:56　來源: 機器之心Pro

河北舉報

分享至

機器之心發布

隨著全球智能體加速落地，算力需求呈指數級爆發，以 GPU 為核心的 AI 基礎設施正變得愈發關鍵。據摩根士丹利報告預測，2028 年全球 AI 基礎設施累計總投資將達 2.9 萬億美元。然而，根據行業通用成本結構測，其中由運維人力、故障損失與集群閑置構成的成本占比可高達 15%~20%，全行業潛在的可優化空間超過 4350 億美元。

作為全球領先的 AI 基礎設施服務商，無問芯穹早在去年 10 月便率先啟動研發并成功部署早期版本的運維智能體。實踐表明，相比傳統人工運維，智能體顯著提升了整體運維效率：工單平均處理時長縮短 50%，關鍵故障處理效率提升約 6 倍；運維人員得以從重復性的排查工作中解放，人效提升 5 倍以上，綜合運維成本下降約 30%，為大規模 GPU 訓練與推理業務提供了更加穩定、高效的基礎設施保障。

但究竟什么樣的運維智能體才是 “好用” 的智能體？

AI 集群運維是一個極具挑戰性的場景，涉及復雜的系統知識、工具調用以及長鏈路推理，是對智能體能力的綜合考驗。過去對模型的評估看重語言能力，而當 AI 進入基礎設施領域后，“能否解決實際問題” 已成為核心評判標準 —— 它最終會影響到每一度電、每一張 GPU 卡的產出效率。

基于此，中國信息通信研究院（簡稱 “中國信通院”）推出了首個面向 AI Infra 運維的智能體評測基準 ——AISHPerf - 智算運維智能體評測基準，而無問芯穹作為重點技術支持單位參與了基準建設，基于積累的近百億條真實運維數據，為智能體在智算運維場景的落地定義了問題并提供了一個可參考的基線。

和傳統 Benchmark 不同，AISHPerf - 智算運維智能體評測基準并不關注模型 “說得多好”，而是關注它 “能不能把事情做成”。

我們希望通過這套基準測試開源，與行業共同探索智能體在 AI 原生基礎設施運維領域的能力邊界，推動 “AI for Infra” 與 “Infra for AI” 的雙向賦能與協同進化。

開源地址：https://gitee.com/aishperf-caict/aishperf_openness
配套故障模擬器：https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos
運維數據集：https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl
評測框架：https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval

不再紙上談兵，讓運維智能體真正解決現實中多樣化的生產問題

2025 年 4 月 7 日，無問芯穹某客戶反饋訓練任務出現無規律的劇烈性能波動，我們的基礎設施團隊第一時間介入，先后排查了網絡鏈路、存儲性能、節點硬件狀態等所有常規維度，均未發現異常。為了定位這個 “幽靈故障”，團隊前后投入 7 名資深研發運維人員，連續奮戰 15 天，從用戶訓練框架的模型切分策略，一路向下排查到網絡協議、存儲參數配置，最終才在一個極其隱蔽的邊緣場景中發現：問題根源與存儲系統的預期緩沖機制設計存在偏差。

這場持續半個月的故障，累計消耗 105 人天的研發運維人力，256 臺服務器全程處于閑置空轉狀態。

若排查周期再進一步拉長、故障持續發酵，將直接導致大規模資源空轉、客戶訓練進度停滯，甚至會造成災難性的業務停擺與資產損失。而像這樣隱蔽、復雜、跨技術棧的故障，在基礎設施服務商的日常中并不罕見。

正是基于無數次這樣苦澀的實戰教訓，我們想將碎片化運維經驗結構化、標準化，為運維智能體明確核心問題邊界，并提供一套可執行的評測基準。

本次基準全程由領域專家主導評測，邀請了多位資深運維專家對數據進行精細標注與嚴格篩選，確保每一條問題都具備真實生產價值與高質量評測意義。

（一）真實生產場景的數據積淀

AISHPerf - 智算運維智能體評測基準源自無問芯穹自成立以來積累的百億條真實運維，篩選后獲得十萬條場景真實、鏈路完整、信息完備的有效數據，經過嚴格的三階段數據工程處理，最終抽象合成為 103 條高質量、高保真的評測用例。

我們收集了 2024 年至 2026 年 1 月的全部用戶工單及其關聯的 IM 話題與文檔附件，以及所有線上集群的監控告警數據。通過過濾低質內容、去重、脫敏等嚴格的數據清洗流程，剔除了客戶需求、未查明原因、與平臺邏輯強耦合等不適合作為通用評測的內容，最終保留了無重復、高質量、信息安全的問題樣本。每條用例都包含真實的問題現象、完整的排查鏈路和明確的故障根因，確保評測結果能夠真實反映智能體在生產環境中的實際表現。

（二）多樣化的跨層棧問題覆蓋

AI 原生基礎設施平臺的運維復雜度遠超傳統 IT 基礎設施，故障可能發生在從裸金屬硬件到上層訓推框架的任何一層。

因此，該基準打通了從底層硬件故障到用戶側軟件 Bug 的全鏈路問題，囊括多種表現形式、故障根因和修復方案，不僅全面涵蓋網絡、GPU、宿主機、云原生平臺等傳統運維領域，更首創性地納入了 AI 原生領域的大模型訓練、推理關鍵問題。同時問題覆蓋天數、壁仞、沐曦、摩爾、昇騰 5 種國產芯片，真正實現了多維度、多層次、多樣化的問題場景全觸達。

我們按照技術棧層級將問題劃分為宿主機、高性能設備、容器平臺、訓推腳本、安全與運營商五大類，涵蓋44種問題現象和22個細分故障領域，基本覆蓋了真實運維場景中可能遇到的所有情況。此外，所有問題共分為3種難度級別，平均人工處理耗時為1.5小時，充分保障了問題的復雜性與挑戰性。

（三）開放式的故障探索與處置

傳統的模型評測往往更像是筆試，側重考察知識記憶與標準答案復述。而AISHPerf - 智算運維智能體評測基準是一場實操考核，聚焦于考驗智能體貼近生產環境的端到端問題解決能力。

該基準不明確指出故障根因，只提供真實的集群環境和有限的問題現象描述，要求智能體自主探索、自主排查、自主修復。這對智能體提出了極高要求：必須理解從物理設備到上層軟件實現的多層復雜技術棧，能夠正確與真實環境交互，高效處理長上下文信息，并在復雜場景中完成多跳推理與決策。

例如，針對 “訓練任務卡死” 這一常見問題，評測系統會注入特定故障，并啟動一個開發機容器，其中包含隱藏了源代碼的訓練腳本。智能體只會收到一段描述訓練任務卡死的客戶反饋和復現方式，必須自行復現問題、排查可能的原因、驗證假設并最終修復故障。這種開放式的評測方式，能夠真正檢驗智能體的自主決策能力和問題解決能力，而不僅僅是知識記憶能力。

配套利器：GPU 集群故障模擬工程

在大規模 GPU 集群的運維實踐中，如何在不破壞生產環境的前提下驗證系統的故障恢復能力，一直是行業普遍面臨的棘手挑戰。物理硬件故障注入成本極高、速度慢且不可重復，而脫離真實集群，用純軟件模擬又存在真實度不足的問題。

為了解決這一難題，AISHPerf - 智算運維智能體評測基準配套提供了 AIops-Chaos—— 一個專為 GPU 集群設計的混沌工程項目。其核心思路是通過軟件層精準模擬各類硬件故障場景，包括 GPU 掉卡、顯存錯誤、NVLink 故障、網絡分區等典型異常，同時結合真實的業務負載構造高保真的測試環境。這種 “軟件模擬 + 真實集群” 的模式，既避免了物理損壞帶來的高昂代價，又確保了故障注入的可控性與可重復性。

在工程實現上，AIops-Chaos 針對 GPU 與 RDMA 等智算集群的故障場景，采用了創新的技術方案：

GPU 故障模擬：通過劫持 nvml 庫，實現了支持注入多種 GPU 故障的 nvidia-smi，包括溫度異常、掉卡、頻率異常、風扇故障等
RDMA 故障模擬：端側故障直接操作物理機；對交換機故障，采用 rdma hostmesh 作為可觀測方案，通過構造故障指標來模擬

AIops-Chaos 展現出了高效、低成本、快速的優勢。僅需一臺 GPU + 多軌 RoCE NIC 服務器，即可支持構造多機任務故障現象，并實現分鐘級的故障編排與自動化恢復驗證。

科學量化：一個多維度評估體系

（一）評估指標

AISHPerf - 智算運維智能體評測基準采用多維度綜合評估體系，評估的指標以結果為導向，分為主指標與輔助指標。不僅關注智能體解決問題的正確率，還全面考量時延、Token 消耗、工具調用效率等關鍵指標。

1.1 主指標：綜合得分

主指標為綜合得分，用于衡量智能體在整個運維任務集上的總體解決能力。

要獲得更高的分數，必須做對中等和困難題目。

1.2 輔助指標：平均耗時、平均 Token 消耗與工具調用次數

輔助指標由平均耗時與平均 Token 消耗構成，用于評估智能體解決實際問題的時效性與成本。

我們用平均耗時用于衡量智能體在完成任務時的時延表現，單位為秒 / 任務。時延定義為從開始調用智能體到智能體返回最終結論的耗時。
我們用平均 Token 消耗衡量智能體完成任務的資源成本，單位為Token / 任務
如果智能體不調用工具，直接猜答案，即使答案正確，也會判為錯，用來確保智能體是實際與環境交互后推理出答案。

（二）評估框架

當前社區的評測工具普遍存在三大痛點：缺乏對各類智能體應用的統一接口支持、僅關注最終答案而缺少對中間過程的細粒度評測、不包含環境定義與構造流程。

為了解決這些問題，我們開發了AIops-Eval—— 一個端到端的智能體評測工具鏈。它包含五個核心子模塊：

User 模塊：負責與智能體交互，支持數據集驅動的固定輸入和 LLM 驅動的真實用戶模擬
Agent 模塊：待評測對象，原生支持本地 LLM 和基于 langgraph 構建的本地智能體，并預留了遠程智能體接口
Env 模塊：為智能體提供交互環境，負責每輪測例前后的環境構造與清理
Evaluator 模塊：對智能體的完整軌跡進行評測，支持自定義規則評測和 LLM-as-a-judge 評測
Tracing 模塊：基于開源的 langfuse 實現，完整采集智能體的執行軌跡

實測驗證

我們對基于 ReAct loop 的簡單智能體進行了全面測試。測試使用了多款不同大小的國內外主流模型，同時為了公平測試模型自身的長程多跳推理能力，智能體只使用 shell 工具，且無法連接互聯網進行搜索。下圖展示了不同模型的總得分與時延，以及模型與人類的對比：

從圖中可以看出：

所有模型的總得分均在 50 分以下但達到了數量級的時效性提高
成功率相比人類運維專家仍有差距

下面的圖展示了不同難度分類下各模型的表現：

不同難度的正確率

不同難度 tool call 時間占比

不同難度 token 消耗

中等與困難難度上，所有模型的正確率均小于 50%，意味著即使是旗艦模型，也難以穩定、出色的解決復雜運維問題。
面對困難問題，tool call 時間占比顯著增加，但正確率下降，意味著模型無法精準有效的采集信息。
不同難度問題的 Token 消耗沒有數量級差別，意味著在運維領域，面對簡單問題，智能體無法像人類一樣快速做出精確判斷。

下面的圖展示了模型對不同技術棧的任務的表現：

不同技術棧任務的正確率

不同技術棧 token 消耗

模型更善于處理單純的代碼類 bug，而在硬件故障上，模型的正確率普遍低，Token 消耗更高，意味著模型對于硬件故障的置信度不夠高，傾向于反復思考和確認，這代表智能體與運維專家的技能可能存在正交性。

基于上述對大量測試軌跡的分析，我們總結出智能體在解決運維問題時的幾種典型失敗模式：

1.處理任務的穩定性不足：模型可能生成不符合工具調用解析規則的 Token，導致智能體執行異常終止；也可能違反輸出格式要求或執行禁止的危險操作，導致任務無法得分。

2.推理鏈的質量差：模型可能治標不治本的臨時方案來達到表面上的修復效果；可能輸出看似合理但經不起推敲的推理過程；可能只輸出寬泛的排障思路，不經過考證就直接給出結論。

3.決策與執行不夠安全：模型可能執行危險的工具調用，執行過程卡死，導致整個物理環境崩潰，甚至需要運維人員人工介入才可恢復。

實踐思考與未來展望

過去一年 AI 的發展態勢有目共睹，從大模型到智能體，從訓練到推理，行業正在形成一個共同的認知：技術發展的瓶頸早已不再局限于模型層，底層算力基礎設施同樣是決定產業上限的關鍵要素。AI 系統本質上已經演變成一座 “Token 工廠”：模型是生產邏輯，數據是原材料，而 GPU 集群則是生產設備，工廠的最終產出是一個個 Token。但當我們將視角下沉到更底層，就會發現一個更現實的問題：“Token 工廠” 遠沒有想象中那么高效。

AISHPerf - 智算運維智能體評測基準正是基于我們長期在 AI 基礎設施領域建設與實踐的經驗，針對 Token 工廠全棧提效的階段性思考與探索成果。AI 正在重塑基礎設施，基礎設施也在反過來決定 AI 的效率上限。在這兩者不斷交織的過程中，我們希望此次的工作能夠成為一個小的起點，讓 “系統自己解決問題” 這件事，變得更可衡量，也更可實現。

此次開源只是一個開始，未來仍有大量工作可深入挖掘。

我們將持續合成更豐富、高質量的數據，覆蓋更多技術棧與領域，更全面地捕捉智能體的運維能力演進趨勢；并同步完善 AIops-chaos 混沌工程，實現更豐富、真實、魯棒的故障注入，為智能體搭建更完善可信的故障模擬環境，提升數據集豐富度與評測結果可靠性。

同時，我們將在評測框架上做更開放的支持。目前我們測試的 Baseline Agent 基于 ReAct 范式構建。后續將逐步擴展評測框架的適配能力，讓不同類型的智能體都可以無縫接入，而不是被限制在某一種范式下進行對比。

立足當下國產芯片大力發展、國產 GPU 集群建設日益蓬勃的產業背景，面向國產 GPU 集群的運維工作愈發關鍵，新問題與挑戰也將隨之增加。我們將不斷在評測集中拓展面向國產芯片集群運維的特定場景及問題，填補國產智算運維評測領域的空白，從而有效助力國產芯片集群運維能力的智能化升級。

我們將持續深化與中國信息通信研究院、清華大學等產學研機構的技術協同，同時也期待著每一位社區開發者的加入共建，共同推動運維智能體技術穩步發展并成為整個行業共享的能力。

如果說目前完成的工作是在回答 “什么是一個好用的運維智能體”，那么接下來，我們更想與行業一起探索的是 ——在真實世界中，這件事情還能走多遠。我們期待 AISHPerf - 智算運維智能體評測基準可以不止于一款 “評測工具”，而是逐步演進為 AI 集群運維智能體能力的公共基線。不同團隊可以在同一套標準下驗證能力、對齊認知，甚至推動一些最佳實踐的沉淀。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.