![]()
新智元報道
![]()
【新智元導讀】6月22日Claude全家桶集體宕機,只是冰山一角。當最強大模型被丟進真實機房直面「幽靈故障」,AISHPerf-智算運維智能體評測基準給出殘酷答案:全軍覆沒,無一過50分。這道鴻溝,第一次被量化。
6月22日,全球AI圈突然集體「斷電」。
Claude的「全家桶」——claude.ai、Console、API、Code、Cowork——在短短幾個小時內大面積宕機。
![]()
開發者終端刷滿紅色報錯,企業協作流水線瞬間斷流,社交媒體上炸了鍋:有人曬出滿屏502截圖配文「被AI炒了魷魚」,有人感慨「2026年最體面的摸魚理由——模型宕機了」。
而這,還算快的。笑歸笑,背后的現實卻一點也不好笑。
當AI從聊天玩具變成驅動千億美金算力投資的「生產設備」時,基礎設施的穩定性,已經成了決定整個產業生死存亡的隱形天花板。
而更殘酷的測試結果剛剛出爐——
AISHPerf-智算運維智能體評測基準,由中國信息通信研究院(信通院)推出,無問芯穹參與重點技術建設,把包括Claude-4-sonnet在內的國內外主流大模型扔進真實GPU集群環境,讓它們處理真正的生產級故障。
結果,全軍覆沒,綜合得分全部低于50分。中等和困難難度正確率普遍不到一半。
![]()
測試對象包括Claude-4-sonnet和主流開源模型等,均做匿名化處理
測試對象包括Claude-4-sonnet和主流開源模型等,均做匿名化處理
這不是語言游戲的失敗,這是「說」與「做」之間,一道真實而殘酷的鴻溝。
萬億市場,智能體到底能不能穩穩接住?
想象一下這樣的場景:凌晨三點,訓練任務突然出現無規律劇烈性能波動。
運維團隊緊急兜底排查,卻遇上最詭異的情況:網絡鏈路正常、存儲性能正常、節點硬件也正常。
為了定位根因,運維人員只能全鏈路逐層溯源排查,從模型切分策略、任務調度邏輯,一路深挖到底層網絡協議、內核參數、存儲配置規則……
可能要耗費巨大的人力物力和時間,最終才會在一些極為隱蔽的邊緣場景中,發現問題。
最致命的是,這類故障的排查周期,往往長達十天半個月。
而在這漫長的排障期間,大量服務器在持續空轉,海量算力資源白白損耗,AI訓練業務全程停滯。
像這樣的「幽靈故障」,在任何大規模GPU集群里都不是個例。
它們隱蔽、跨層棧、難以復現,卻直接吞噬真金白銀。
摩根士丹利預測,2028年全球AI基礎設施累計投資將達2.9萬億美元。
其中,運維人力、故障損失與集群閑置構成的成本占比高達15%-20%,全行業潛在可優化空間超過4350億美元。
![]()
無問芯穹早在2025年10月就已率先探索和應用早期版本的運維智能體。
真實生產環境里的數據最有說服力:工單平均處理時長縮短 50%,關鍵故障處理效率提升約6倍,運維人員人效提升5倍以上,綜合運維成本下降約30%。
這些數字背后,是無數個被解放出來的凌晨三點,和無數度沒有被白白燒掉的電。
但問題來了——究竟什么樣的運維智能體,才配得上「好用」這個詞?
全球首個真實機房的「開卷實操考」
過去對大模型的評估,更像一場語言知識競賽。模型背得越多、說得越漂亮,分數就越高。
可當AI真正走進基礎設施領域,「能否解決實際問題」成了唯一標準。
因為,它最終會影響到每一度電、每一張GPU卡的產出效率。
AISHPerf-智算運維智能體評測基準,徹底顛覆了這種「紙上談兵」。
它源自無問芯穹積累的近百億條真實運維數據。
經過嚴格過濾、去重、脫敏三階段精細標注,最終提煉出高質量、高保真評測用例。
每一條都包含真實的問題現象和明確的故障根因。
![]()
更重要的是,這套基準不給根因,需要AI自行探索。
它只告訴你:「訓練任務卡死了,用戶反饋是這樣的,請復現并修復。」
![]()
智能體必須自己進入真實集群環境,自主發現線索、提出假設、驗證、執行修復。
整個過程必須安全、有效、不能把機房搞炸。
這才是真正的「開卷實操考」——它考的是長鏈路多跳推理、與真實物理設備的交互能力、在不確定性中做決策的勇氣,以及最關鍵的安全邊界意識。
為了讓這場考試公平且可重復,AISHPerf-智算運維智能體評測基準配套了AIops-Chaos混沌工程項目。
![]()
它能通過軟件層精準模擬GPU掉卡、顯存錯誤、NVLink故障、網絡分區等真實硬件異常,無需物理損壞硬件,就能構造高保真測試環境。
只需要一臺GPU+多軌RoCE NIC服務器,就能實現分鐘級的故障編排與自動化恢復驗證。
這套評測框架(AIops-Eval)包含User、Agent、Env、Evaluator、Tracing五個核心模塊,完整記錄智能體每一步的軌跡,支持自定義規則和LLM-as-Judge雙重評測。
![]()
它不再關心模型「知道多少」,只關心它在真實世界里,能不能把事情做成。
全軍覆沒的鐵證
硬件世界面前,AI的真實表現
為了給行業一個清晰的基線,信通院用這套基準對基于ReAct的簡單智能體進行了全面測試。
測試對象包括Claude-4-sonnet等主流模型。
為了公平考察模型自身能力,智能體僅使用shell工具,無法聯網搜索;模型均做匿名處理。
結果令人震撼:所有模型的總得分均低于50分。
即使是目前最強的旗艦模型,在中等與困難難度任務上的正確率也普遍低于50%。
![]()
面對困難問題時,工具調用時間占比顯著上升,但正確率反而下降。
![]()
這說明模型在復雜場景下,無法精準有效地采集和利用信息。
更耐人尋味的是不同技術棧的表現差異:
模型在單純的代碼類Bug上表現相對較好;但一旦涉及硬件故障(GPU掉卡、顯存錯誤、網絡分區等),正確率普遍偏低,而Token消耗卻明顯更高。
![]()
![]()
模型似乎對硬件世界缺乏足夠信心,不得不反復思考、反復確認。
這背后,是三種典型的失敗模式:
處理任務的穩定性不足:生成不符合工具調用規則的Token。
推理鏈質量差:給出看似合理、實則治標不治本的方案;或者只輸出寬泛的排障思路,不經過嚴謹驗證就下結論。
決策與執行不夠安全:在真實環境中執行高風險操作,或執行危險操作導致整個物理環境崩潰,最終需要人類運維人員緊急介入才能恢復。
這些失敗,不是模型「不夠聰明」,而是它還沒有真正學會如何在物理世界里負責任地行動。
模型與人類
不是替代,而是正交
測試軌跡分析后,一個更深刻的洞察浮現:
當前大模型與人類運維專家的技能,可能是高度正交的。
模型擅長廣度知識檢索、代碼邏輯推理和快速假設生成;人類運維專家則在硬件層面的直覺判斷、復雜系統邊界把控和最終安全決策上更具優勢。
這意味著,未來最優的運維系統,或許不是讓智能體完全替代人類,而是構建一種「模型負責快速廣度探索 + 規則與人類專家負責深度驗證與安全把關」 的混合智能體范式。
AISHPerf-智算運維智能體評測基準的意義,正在于它第一次把這個鴻溝量化、可視化、公開化了。
它用真實數據和真實環境,告訴整個行業:
我們距離「系統自己解決問題」還有多遠,也為這條路上的每一步改進,提供了可對齊的公共基線。
這套基準還特別覆蓋了天數、壁仞、沐曦、摩爾、昇騰五種國產芯片。
![]()
在國產智算集群建設如火如荼的當下,填補國產智算運維評測領域的空白,本身就是對產業升級最務實的支撐。
從「Token工廠」到「自愈工廠」,我們正在丈量未來
過去一年,AI的發展讓所有人目眩神迷。
從大模型到智能體,從訓練到推理,行業正在形成一個共同認知:技術發展的瓶頸早已不再局限于模型層,底層算力基礎設施同樣是決定產業上限的關鍵要素。
AI系統本質上已經演變成一座「Token工廠」:
模型是生產邏輯,數據是原材料,GPU集群則是生產設備。
工廠的最終產出,是一個個有價值的Token。
但當我們把視角下沉到機房底層,就會發現一個更現實的問題:這座工廠遠沒有想象中那么高效。
AISHPerf-智算運維智能體評測基準,讓「系統自己解決問題」這件事,第一次變得可衡量、可對齊、可迭代。
這或許是人類寫給機器的、最浪漫的一行代碼。
凌晨三點,機房依舊亮著燈。
只是終有一天,守夜的,不再只有人類。
開源地址:https://gitee.com/aishperf-caict/aishperf_openness
配套故障模擬器:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos
運維數據集:https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl
評測框架:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.