无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

讓AI自己修服務器?先過了這場“火線測試”再說

0
分享至


智東西
作者 陳駿達
編輯 漠影

隨著大模型能力持續提升,智能體正從聊天、寫作等輔助場景走向軟件開發、網絡管理和基礎設施運維等生產環節。尤其在AI基礎設施領域,面對龐大的GPU集群和復雜架構,越來越多企業開始嘗試讓智能體承擔故障排查、告警分析和資源管理等工作,以提升運維效率并降低人力成本。

然而,運維場景對智能體構成了空前挑戰。AI算力集群運維橫跨GPU硬件、網絡通信、分布式存儲、容器編排、訓練框架等多個技術棧,問題現象往往模糊、不完整甚至相互矛盾,智能體需要在開放環境中主動探索、反復驗證,自行界定問題并尋求解決路徑。

要提升智能體在此類復雜場景的綜合能力,一套與之匹配的評測基準不可或缺。但當前行業恰恰缺乏對這種多步推理、開放決策過程的系統化評估能力,導致運維智能體研發長期“無標可依”,進展評估與方向校準均缺乏牽引。

正是在這樣的背景下,中國信息通信研究院開源了全球首個面向AI Infra運維場景的智能體評測基準——AISHPerf-智算運維智能體評測基準,國內頭部AI原生基礎設施企業無問芯穹重點參與技術建設。


這套基準源自百億條真實運維數據,不再只關注“會不會回答問題”,而是聚焦智能體“能不能解決問題”,為運維智能體能力評估提供了一套貼近真實生產環境的參考標準。

一、百億條運維數據,煉出103道“考題”

任何評測體系的價值,最終都建立在數據質量之上。對于運維智能體而言尤其如此。因為真實世界中的故障往往具有高度隨機性和復雜性,許多問題并不存在標準答案,甚至需要跨越多個技術棧進行聯合分析。如果評測數據脫離真實生產環境,即使得到再高的測試分數,也很難證明智能體具備實際應用價值。

無問芯穹之所以能夠重點參與這一評測基準的技術建設,與其在AI基礎設施領域的長期實踐密切相關。根據披露的信息,其早在2025年便已將運維智能體應用到實際訓練推理業務中,并取得明顯成效。工單平均處理時長縮短50%,關鍵故障處理效率提升約6倍,運維人效提升超過5倍,綜合運維成本下降約30%。然而在實踐過程中,他們也發現行業缺少一套能夠客觀衡量運維智能體能力的標準體系,這成為推動AISHPerf-智算運維智能體評測基準誕生的重要原因。

這一需求背后有著非常現實的行業背景。隨著AI基礎設施規模不斷擴大,許多故障已經超出了傳統監控系統和規則引擎的處理能力。運維工程師不僅需要理解硬件設備狀態,還需要掌握網絡通信、分布式系統、容器平臺以及訓練框架等多層知識體系。智能體如果要進入這樣的場景,需要擁有相同的能力集合,并且要能真正將知識運用到實際問題解決中去。

為了構建高質量評測集,研究團隊從無問芯穹成立以來積累的百億條真實運維數據中進行篩選。他們收集了2024年至2026年初全部用戶工單、即時通信記錄、運維文檔以及線上集群監控告警數據,并通過多輪數據清洗剔除低質量內容。整個過程不僅包含去重和嚴格脫敏,還排除了與特定業務強綁定、無法泛化的問題案例,確保最終保留下來的樣本既真實可信,又具備普適評測價值。

經過嚴格篩選后,團隊從10萬條有效數據中進一步抽象整理,最終形成103個高保真評測用例。每一個案例都對應真實發生過的生產故障,包含完整的問題現象、排查路徑以及最終根因,確保評測結果能夠真實反映智能體在生產環境中的實際表現。


值得注意的是,AISHPerf-智算運維智能體評測基準覆蓋的問題范圍極其廣泛,按照技術棧層級將問題劃分為宿主機、高性能設備、容器平臺、訓推腳本、安全與運營商五大類,涵蓋44種問題現象和22個細分故障領域,基本覆蓋了真實運維場景中可能遇到的所有情況。

此外,所有問題共分為3種難度級別,平均人工處理耗時為1.5小時,充分保障了問題的復雜性與挑戰性。

對于智能體而言,這意味著它不僅需要理解單點故障,還要具備跨系統關聯分析能力,而這恰恰是現實運維工作中最具挑戰性的部分。

更有意義的是,該基準首次將國產算力平臺納入評測體系。天數智芯、壁仞科技、沐曦、摩爾線程以及昇騰等國產芯片相關問題均被覆蓋其中。

隨著國產GPU集群規模快速增長,越來越多企業開始部署異構算力環境,不同芯片架構帶來的兼容性和運維挑戰也隨之增加。將國產算力場景納入統一評測體系,不僅能夠提升基準的現實價值,也為未來國產智算生態建設提供了重要參考。

二、不考筆試考實操:故障模擬注入,智能體自主排障

如果說高質量數據決定了評測內容,那么評測方式則決定了測試結果是否具有參考意義。

當前大多數模型Benchmark本質上仍屬于“筆試”模式。模型面對一道題目,通過知識記憶和推理給出答案即可獲得分數。然而運維工作并非如此。現實中的故障往往沒有明確線索,工程師需要不斷收集信息、驗證假設并逐步縮小排查范圍,最終找到真正原因。因此,對一個真正優秀的運維智能體而言,考察重點不應該是知道多少知識,而是能否把問題解決掉。

AISHPerf-智算運維智能體評測基準最大的創新之一,正是在于將評測從知識問答轉變為真實實操。測試開始后,系統不會直接告訴智能體故障原因,而只會提供有限的問題描述以及真實運行環境。智能體需要自行調用工具、查看日志、執行命令、分析狀態,并在不斷探索過程中完成問題定位和修復。這種開放式測試模式更加接近真實生產環境,也對智能體提出了更高要求。


例如在“訓練任務卡死”場景中,評測系統會提前向環境中注入故障,同時提供一個包含訓練腳本的開發容器。智能體只能獲得來自用戶的一段問題反饋,之后需要獨立完成問題復現、原因分析和故障修復的全過程。整個過程對知識儲備、決策能力、工具使用能力以及長鏈路推理能力進行了全面的考察。

為了支撐這種實操評測,無問芯穹同時建設了配套工具AIops-Chaos。這是一套面向GPU集群的故障模擬工程,專門用于構造真實而可控的異常環境。在傳統運維測試中,直接制造硬件故障往往成本極高,而且存在設備損壞風險;而純軟件模擬又難以還原真實場景。AIops-Chaos則嘗試在兩者之間找到平衡。

通過軟件層面對GPU和RDMA等智算集群環境進行精準模擬,該系統能夠構造掉卡、顯存異常、NVLink故障以及網絡分區等多種典型問題,同時結合真實業務負載形成高保真測試環境。相比物理故障注入方式,這種方案既避免了設備損壞風險,又能夠實現快速重復測試,大幅降低驗證成本。

與此同時,團隊還推出了端到端評測工具鏈AIops-Eval。與現有評測框架相比,其最大的特點是能夠追蹤智能體整個決策過程。系統通過User、Agent、Env、Evaluator以及Tracing五大模塊,對智能體行為進行全流程記錄和分析,從而實現細粒度評測。


這種評測方式的重要性在于,運維智能體的價值既體現在最終能否解決問題,也體現在解決問題的路徑是否合理。如果智能體單純靠猜測來找到問題根因,其工程價值顯然遠低于真正與環境交互得到根因的智能體。因此,對過程進行評估成為衡量智能體實際能力的重要組成部分。

三、實測成績單出爐,三大失敗模式揭示智能體的“強項”與“死穴”

為了盡可能客觀衡量智能體能力,AISHPerf-智算運維智能體評測基準設計了一套結果導向的多維評估體系。

其中最核心指標是綜合得分。系統根據簡單、中等和困難三種難度的問題分別統計成功率,并按照不同權重計算總成績。這樣的設計避免了模型通過大量完成簡單任務獲得虛高分數,而是鼓勵其真正解決復雜問題。此外,評測還同時記錄平均耗時、Token消耗以及工具調用次數,從準確率、效率和成本多個維度進行綜合評價。

值得注意的是,評測明確規定智能體必須與環境發生真實交互。如果模型沒有調用工具而直接猜測答案,即使結果正確也不會得分。這一規則有效避免了投機行為,使評測結果更加真實可信。

在測試中,研究團隊選取了包括Claude Sonnet在內的多個國內外主流模型進行驗證,為了突出模型自身能力,測試環境僅開放Shell工具,同時禁止聯網搜索,所有問題都必須依靠自主分析完成。

測試結果顯示,雖然所有模型都展現出明顯高于人類運維工程師的處理速度,但總體得分仍然不高,全部低于50分。這意味著即使當前最先進的大模型,在復雜運維場景中依然遠未達到成熟可用階段。


進一步分析發現,隨著任務難度增加,各模型正確率迅速下降。在中等和困難問題上,大多數模型成功率不足50%。與此同時,工具調用時間占比持續增加,但最終正確率卻沒有同步提升。這表明模型雖然愿意收集更多信息,卻缺乏有效篩選和利用信息的能力,導致排查效率下降。

從技術棧維度來看,不同模型也呈現出明顯能力差異。整體而言,模型更擅長處理代碼邏輯和軟件層問題,而在GPU硬件、網絡設備等基礎設施故障上表現相對較弱。


面對硬件問題時,模型往往消耗更多Token進行分析,卻依然難以準確定位根因,反映出其技能與人類運維工程師存在差異。


這些差異恰恰證明了評測體系本身具備良好區分度。AISHPerf-智算運維智能體評測基準能夠清晰拉開不同模型之間的能力差距,說明其確實捕捉到了運維場景中的關鍵能力指標。

通過大量測試軌跡分析,研究團隊總結出當前運維智能體最典型的三類失敗模式。

第一類是穩定性不足,包括工具調用格式錯誤、執行流程異常終止以及違反規則等問題。

第二類是推理鏈質量不足,表現為只解決表面現象而未找到真正根因,或者在缺乏證據情況下直接下結論。

第三類則是安全性問題,一些模型可能執行危險命令,甚至導致環境崩潰,需要人工介入恢復。

這些失敗模式對于行業具有重要參考意義,為大模型在基礎設施場景后續的能力優化提供了明確依據。

結語:給運維Agent建立一把統一標尺

當AI進入大規模落地階段后,提升GPU利用率、縮短故障恢復時間以及降低運維成本,正在成為更加迫切的課題。運維智能體被寄予厚望,但其能力邊界究竟在哪里,同樣需要被客觀衡量。

AISHPerf-智算運維智能體評測基準的價值,正在于為行業提供了這樣一把統一標尺。它不僅首次將真實生產環境引入智能體評測體系,也讓“智能體是否真正解決問題”成為核心評價標準。

隨著未來更多模型、Agent框架和國產算力生態加入這一體系,這套Benchmark有望逐步演變為AI基礎設施領域的重要公共基線,為整個行業探索“AI for Infra”的未來提供持續參考。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
賭王千金何超蓮上海被偶遇,個子小小卻比例超好,身材也太頂了吧

賭王千金何超蓮上海被偶遇,個子小小卻比例超好,身材也太頂了吧

木子愛娛樂大號
2026-06-29 17:26:11
美股全線走高,芯片股V型反轉,西部數據漲超11%,谷歌首秀道指破52000點,黃金跳水,國際油價反彈

美股全線走高,芯片股V型反轉,西部數據漲超11%,谷歌首秀道指破52000點,黃金跳水,國際油價反彈

第一財經資訊
2026-06-30 07:20:21
“你這面相很難找到工作!”本科女孩印堂發黑,驗證了老話沒說錯

“你這面相很難找到工作!”本科女孩印堂發黑,驗證了老話沒說錯

熙熙說教
2026-06-29 19:26:42
Shams:灰熊將莫蘭特交易至開拓者,換回格蘭特和克里斯-穆雷

Shams:灰熊將莫蘭特交易至開拓者,換回格蘭特和克里斯-穆雷

懂球帝
2026-06-30 04:46:05
吉馬良斯:日本隊整場都處于防守狀態,但他們確實進步了很多

吉馬良斯:日本隊整場都處于防守狀態,但他們確實進步了很多

懂球帝
2026-06-30 04:25:07
阿爾茲海默癥的“禍根”被揪出,若有這2個吃飯習慣,要趁早改掉

阿爾茲海默癥的“禍根”被揪出,若有這2個吃飯習慣,要趁早改掉

醫學科普匯
2026-06-29 21:30:04
熱聞|補時絕殺接連上演!巴西逆轉日本晉級16強,安切洛蒂盡顯世界級臨場調整水準

熱聞|補時絕殺接連上演!巴西逆轉日本晉級16強,安切洛蒂盡顯世界級臨場調整水準

齊魯壹點
2026-06-30 06:54:19
追夢拒絕執行2770萬選項!勇士目標組四巨頭:交易濃眉+追逐老詹

追夢拒絕執行2770萬選項!勇士目標組四巨頭:交易濃眉+追逐老詹

羅說NBA
2026-06-29 22:15:06
2026年三伏天要來了!2個壞消息,1個好消息,3個要注意,別大意

2026年三伏天要來了!2個壞消息,1個好消息,3個要注意,別大意

阿龍美食記
2026-06-28 16:52:24
庫明加成為自由球員!老鷹拒絕執行2430萬選項 國王騎士有意簽他

庫明加成為自由球員!老鷹拒絕執行2430萬選項 國王騎士有意簽他

羅說NBA
2026-06-30 05:30:56
普京:烏克蘭就俄烏戰事提出兩條新建議

普京:烏克蘭就俄烏戰事提出兩條新建議

新華社
2026-06-29 13:45:04
4個月浮虧近5億,“杭州股神”章建平割肉

4個月浮虧近5億,“杭州股神”章建平割肉

深圳晚報
2026-06-29 23:07:54
世界杯|這份榜單上兩人對陣德國時進球,04一代“60大新星”混得如何

世界杯|這份榜單上兩人對陣德國時進球,04一代“60大新星”混得如何

上觀新聞
2026-06-30 07:33:41
巴西逆轉絕殺日本:漫畫般結局,只換了主角

巴西逆轉絕殺日本:漫畫般結局,只換了主角

張佳瑋寫字的地方
2026-06-30 03:33:10
日本1-2遭絕殺出局!森保一賽后發言有點可怕,還有自己的打算

日本1-2遭絕殺出局!森保一賽后發言有點可怕,還有自己的打算

陌識
2026-06-30 05:56:44
遭絕殺出局!日本眾將崩潰倒地+掩面痛哭,連續3屆先破門卻被逆轉

遭絕殺出局!日本眾將崩潰倒地+掩面痛哭,連續3屆先破門卻被逆轉

我愛英超
2026-06-30 03:48:04
韓紅基金會被扒多次對外投資,幾個億善款閑置,網友要求公開說明

韓紅基金會被扒多次對外投資,幾個億善款閑置,網友要求公開說明

萌神木木
2026-06-29 18:33:42
陳震:韓紅誤會走個面意思了,在北京這是抱怨的意思

陳震:韓紅誤會走個面意思了,在北京這是抱怨的意思

映射生活的身影
2026-06-29 17:04:11
名帥有能!巴西隊2比1絕殺逆轉日本隊晉級,勝利屬于意大利教練安切洛蒂

名帥有能!巴西隊2比1絕殺逆轉日本隊晉級,勝利屬于意大利教練安切洛蒂

上觀新聞
2026-06-30 03:28:50
上半場封神 下半場崩盤!安帥1招擊潰日本鐵桶陣,巴西贏在教練!

上半場封神 下半場崩盤!安帥1招擊潰日本鐵桶陣,巴西贏在教練!

看透足球專欄
2026-06-30 03:57:30
2026-06-30 08:48:49
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
12146文章數 117113關注度
往期回顧 全部

科技要聞

DeepSeek V4正式版要來 高峰期API價格翻倍

頭條要聞

牛彈琴:韓國對男足恥辱出局激烈反應 全世界震驚不已

頭條要聞

牛彈琴:韓國對男足恥辱出局激烈反應 全世界震驚不已

體育要聞

日本眾將掩面痛哭 連續3屆先破門卻被逆轉

娛樂要聞

跟風電影《給阿公的牛肉丸》開機

財經要聞

中歐貿易投資磋商機制聯合聲明

汽車要聞

全新寶馬iX3長軸版將于成都車展預售 四季度交付

態度原創

健康
藝術
本地
手機
公開課

狂吃“糯嘰嘰”小心腸梗阻!

藝術要聞

16幅 冉茂芹小幅風景油畫寫生

本地新聞

貴州小城的新目標:舉辦“村超”世界杯!

手機要聞

蘋果印度供應商塔塔電子被黑,iPhone 18 Pro機密文件現身暗網

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版