无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Claude「斷電」背后:中國基準首次捅開了AI萬億市場「死穴」

0
分享至


新智元報道


【新智元導讀】6月22日Claude全家桶集體宕機,只是冰山一角。當最強大模型被丟進真實機房直面「幽靈故障」,AISHPerf-智算運維智能體評測基準給出殘酷答案:全軍覆沒,無一過50分。這道鴻溝,第一次被量化。

6月22日,全球AI圈突然集體「斷電」。

Claude的「全家桶」——claude.ai、Console、API、Code、Cowork——在短短幾個小時內大面積宕機。


開發者終端刷滿紅色報錯,企業協作流水線瞬間斷流,社交媒體上炸了鍋:有人曬出滿屏502截圖配文「被AI炒了魷魚」,有人感慨「2026年最體面的摸魚理由——模型宕機了」。

而這,還算快的。笑歸笑,背后的現實卻一點也不好笑。

當AI從聊天玩具變成驅動千億美金算力投資的「生產設備」時,基礎設施的穩定性,已經成了決定整個產業生死存亡的隱形天花板

而更殘酷的測試結果剛剛出爐——


AISHPerf-智算運維智能體評測基準,由中國信息通信研究院(信通院)推出,無問芯穹參與重點技術建設,把包括Claude-4-sonnet在內的國內外主流大模型扔進真實GPU集群環境,讓它們處理真正的生產級故障。

結果,全軍覆沒,綜合得分全部低于50分。中等和困難難度正確率普遍不到一半。


測試對象包括Claude-4-sonnet和主流開源模型等,均做匿名化處理

測試對象包括Claude-4-sonnet和主流開源模型等,均做匿名化處理

這不是語言游戲的失敗,這是「說」與「做」之間,一道真實而殘酷的鴻溝

萬億市場,智能體到底能不能穩穩接住?

想象一下這樣的場景:凌晨三點,訓練任務突然出現無規律劇烈性能波動。

運維團隊緊急兜底排查,卻遇上最詭異的情況:網絡鏈路正常、存儲性能正常、節點硬件也正常。

為了定位根因,運維人員只能全鏈路逐層溯源排查,從模型切分策略、任務調度邏輯,一路深挖到底層網絡協議、內核參數、存儲配置規則……

可能要耗費巨大的人力物力和時間,最終才會在一些極為隱蔽的邊緣場景中,發現問題。

最致命的是,這類故障的排查周期,往往長達十天半個月。

而在這漫長的排障期間,大量服務器在持續空轉,海量算力資源白白損耗,AI訓練業務全程停滯。

像這樣的「幽靈故障」,在任何大規模GPU集群里都不是個例。

它們隱蔽、跨層棧、難以復現,卻直接吞噬真金白銀。

摩根士丹利預測,2028年全球AI基礎設施累計投資將達2.9萬億美元。

其中,運維人力、故障損失與集群閑置構成的成本占比高達15%-20%,全行業潛在可優化空間超過4350億美元。


無問芯穹早在2025年10月就已率先探索和應用早期版本的運維智能體。

真實生產環境里的數據最有說服力:工單平均處理時長縮短 50%,關鍵故障處理效率提升約6倍,運維人員人效提升5倍以上,綜合運維成本下降約30%。

這些數字背后,是無數個被解放出來的凌晨三點,和無數度沒有被白白燒掉的電。

但問題來了——究竟什么樣的運維智能體,才配得上「好用」這個詞?

全球首個真實機房的「開卷實操考」

過去對大模型的評估,更像一場語言知識競賽。模型背得越多、說得越漂亮,分數就越高。

可當AI真正走進基礎設施領域,「能否解決實際問題」成了唯一標準。

因為,它最終會影響到每一度電、每一張GPU卡的產出效率。

AISHPerf-智算運維智能體評測基準,徹底顛覆了這種「紙上談兵」。

它源自無問芯穹積累的近百億條真實運維數據。

經過嚴格過濾、去重、脫敏三階段精細標注,最終提煉出高質量、高保真評測用例。

每一條都包含真實的問題現象和明確的故障根因。


更重要的是,這套基準不給根因,需要AI自行探索。

它只告訴你:「訓練任務卡死了,用戶反饋是這樣的,請復現并修復。」


智能體必須自己進入真實集群環境,自主發現線索、提出假設、驗證、執行修復。

整個過程必須安全、有效、不能把機房搞炸。

這才是真正的「開卷實操考」——它考的是長鏈路多跳推理、與真實物理設備的交互能力、在不確定性中做決策的勇氣,以及最關鍵的安全邊界意識。

為了讓這場考試公平且可重復,AISHPerf-智算運維智能體評測基準配套了AIops-Chaos混沌工程項目。


它能通過軟件層精準模擬GPU掉卡、顯存錯誤、NVLink故障、網絡分區等真實硬件異常,無需物理損壞硬件,就能構造高保真測試環境。

只需要一臺GPU+多軌RoCE NIC服務器,就能實現分鐘級的故障編排與自動化恢復驗證。

這套評測框架(AIops-Eval)包含User、Agent、Env、Evaluator、Tracing五個核心模塊,完整記錄智能體每一步的軌跡,支持自定義規則和LLM-as-Judge雙重評測。


它不再關心模型「知道多少」,只關心它在真實世界里,能不能把事情做成。

全軍覆沒的鐵證

硬件世界面前,AI的真實表現

為了給行業一個清晰的基線,信通院用這套基準對基于ReAct的簡單智能體進行了全面測試。

測試對象包括Claude-4-sonnet等主流模型。

為了公平考察模型自身能力,智能體僅使用shell工具,無法聯網搜索;模型均做匿名處理。

結果令人震撼:所有模型的總得分均低于50分

即使是目前最強的旗艦模型,在中等與困難難度任務上的正確率也普遍低于50%


面對困難問題時,工具調用時間占比顯著上升,但正確率反而下降。


這說明模型在復雜場景下,無法精準有效地采集和利用信息。

更耐人尋味的是不同技術棧的表現差異:

模型在單純的代碼類Bug上表現相對較好;但一旦涉及硬件故障(GPU掉卡、顯存錯誤、網絡分區等),正確率普遍偏低,而Token消耗卻明顯更高。



模型似乎對硬件世界缺乏足夠信心,不得不反復思考、反復確認。

這背后,是三種典型的失敗模式:

  1. 處理任務的穩定性不足:生成不符合工具調用規則的Token。

  2. 推理鏈質量差:給出看似合理、實則治標不治本的方案;或者只輸出寬泛的排障思路,不經過嚴謹驗證就下結論。

  3. 決策與執行不夠安全:在真實環境中執行高風險操作,或執行危險操作導致整個物理環境崩潰,最終需要人類運維人員緊急介入才能恢復。

這些失敗,不是模型「不夠聰明」,而是它還沒有真正學會如何在物理世界里負責任地行動。

模型與人類

不是替代,而是正交

測試軌跡分析后,一個更深刻的洞察浮現:

當前大模型與人類運維專家的技能,可能是高度正交的。

模型擅長廣度知識檢索、代碼邏輯推理和快速假設生成;人類運維專家則在硬件層面的直覺判斷、復雜系統邊界把控和最終安全決策上更具優勢。

這意味著,未來最優的運維系統,或許不是讓智能體完全替代人類,而是構建一種「模型負責快速廣度探索 + 規則與人類專家負責深度驗證與安全把關」 的混合智能體范式。

AISHPerf-智算運維智能體評測基準的意義,正在于它第一次把這個鴻溝量化、可視化、公開化了。

它用真實數據和真實環境,告訴整個行業:

我們距離「系統自己解決問題」還有多遠,也為這條路上的每一步改進,提供了可對齊的公共基線。

這套基準還特別覆蓋了天數、壁仞、沐曦、摩爾、昇騰五種國產芯片。


在國產智算集群建設如火如荼的當下,填補國產智算運維評測領域的空白,本身就是對產業升級最務實的支撐。

從「Token工廠」到「自愈工廠」,我們正在丈量未來

過去一年,AI的發展讓所有人目眩神迷。

從大模型到智能體,從訓練到推理,行業正在形成一個共同認知:技術發展的瓶頸早已不再局限于模型層,底層算力基礎設施同樣是決定產業上限的關鍵要素

AI系統本質上已經演變成一座「Token工廠」:

模型是生產邏輯,數據是原材料,GPU集群則是生產設備。

工廠的最終產出,是一個個有價值的Token。

但當我們把視角下沉到機房底層,就會發現一個更現實的問題:這座工廠遠沒有想象中那么高效

AISHPerf-智算運維智能體評測基準,讓「系統自己解決問題」這件事,第一次變得可衡量、可對齊、可迭代

這或許是人類寫給機器的、最浪漫的一行代碼。

凌晨三點,機房依舊亮著燈。

只是終有一天,守夜的,不再只有人類。

開源地址:https://gitee.com/aishperf-caict/aishperf_openness

配套故障模擬器:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos

運維數據集:https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl

評測框架:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
廣東中高分扎堆,今年頭部民辦本科會擠破頭,家長都很現實!

廣東中高分扎堆,今年頭部民辦本科會擠破頭,家長都很現實!

戶外阿毽
2026-06-29 13:12:36
黃金跌價,2026年6月29日,國內各大金店品牌黃金、足金最新價格

黃金跌價,2026年6月29日,國內各大金店品牌黃金、足金最新價格

小陸搞笑日常
2026-06-29 16:09:14
有哪些是你去東北才知道的事情?看網友們的真實分享,驚呆了

有哪些是你去東北才知道的事情?看網友們的真實分享,驚呆了

智慧生活筆記
2026-06-29 15:14:18
溫網最新戰報!王欣瑜2-6慘敗,被逼入決勝盤,張帥首盤3-4落后!

溫網最新戰報!王欣瑜2-6慘敗,被逼入決勝盤,張帥首盤3-4落后!

劉姚堯的文字城堡
2026-06-29 21:33:13
科學家發現:世界最深的馬里亞納海溝,每年偷偷吞掉30億噸海水!

科學家發現:世界最深的馬里亞納海溝,每年偷偷吞掉30億噸海水!

觀察宇宙
2026-06-18 22:02:34
德天空:迪奧曼德已決定立即加盟巴黎,雙方簽約至2031年

德天空:迪奧曼德已決定立即加盟巴黎,雙方簽約至2031年

懂球帝
2026-06-29 04:30:07
高考出分最難受的是這個分數段的學生…

高考出分最難受的是這個分數段的學生…

娛樂的宅急便
2026-06-29 06:24:06
劉濤去上海出差,想著好久沒見孫儷,發微信約晚飯。孫儷回得很快:見面可以,只能中午,四點前必須散

劉濤去上海出差,想著好久沒見孫儷,發微信約晚飯。孫儷回得很快:見面可以,只能中午,四點前必須散

LULU生活家
2026-06-28 09:20:29
西媒:有傳言稱中國門將李昌祎通過經紀公司買通加盟塞哥維亞

西媒:有傳言稱中國門將李昌祎通過經紀公司買通加盟塞哥維亞

懂球帝
2026-06-29 16:24:35
央視怒批,目不識丁,洋相百出,絕望文盲再翻車,馮遠征又說對了

央視怒批,目不識丁,洋相百出,絕望文盲再翻車,馮遠征又說對了

墨印齋
2026-05-29 13:20:21
逃離白公館和渣滓洞幾乎沒有可能:毛人鳳想救兩個,也只撈出一個

逃離白公館和渣滓洞幾乎沒有可能:毛人鳳想救兩個,也只撈出一個

半壺老酒半支煙
2026-06-29 18:50:09
“烏粉”都是些什么人?

“烏粉”都是些什么人?

閑閑碎
2026-06-29 10:07:47
CBA三大消息:徐昕正式簽約李春江新崗位公布,山東報價廣東新星

CBA三大消息:徐昕正式簽約李春江新崗位公布,山東報價廣東新星

歷史膠囊
2026-06-29 10:11:00
2027款保時捷911上市!151.8萬起售,炫酷超跑外觀+三門四座布局

2027款保時捷911上市!151.8萬起售,炫酷超跑外觀+三門四座布局

小史談車
2026-06-27 14:43:51
離譜!世界杯 3 球猛將仍被掃地出門,紐卡 5200 萬搶阿森納棄將

離譜!世界杯 3 球猛將仍被掃地出門,紐卡 5200 萬搶阿森納棄將

瀾歸序
2026-06-29 08:35:28
67歲王朔晚年現狀:獨居北京,疾病纏身,每天要吃一根哈根達斯

67歲王朔晚年現狀:獨居北京,疾病纏身,每天要吃一根哈根達斯

攬星河的筆記
2026-06-29 14:37:26
巴西傳奇濟科預警:淘汰賽遇日本,巴西將迎硬仗

巴西傳奇濟科預警:淘汰賽遇日本,巴西將迎硬仗

賽場速報局
2026-06-29 00:56:02
渦扇15追了十幾年,轉頭一看才發現:全球最強發動機原來是自己?

渦扇15追了十幾年,轉頭一看才發現:全球最強發動機原來是自己?

兵鑒史
2026-06-28 11:32:44
機場偶遇何潔,本人個子好矮皮膚黝黑,粉底太白了臉和手色差好大

機場偶遇何潔,本人個子好矮皮膚黝黑,粉底太白了臉和手色差好大

TVB的四小花
2026-06-29 19:27:21
同樣拍四渡赤水,把《四渡》和43年前古月版放一起看,差別出來了

同樣拍四渡赤水,把《四渡》和43年前古月版放一起看,差別出來了

手工制作阿殲
2026-06-29 13:31:37
2026-06-30 00:40:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15563文章數 66944關注度
往期回顧 全部

科技要聞

殺瘋了!深圳一天出兩家200億具身智能公司

頭條要聞

美從俄烏戰場抽身 金燦榮:美國有個大戰略目標已完成

頭條要聞

美從俄烏戰場抽身 金燦榮:美國有個大戰略目標已完成

體育要聞

他和伊朗隊,再次贏得全世界的尊重

娛樂要聞

跟風電影《給阿公的牛肉丸》開機

財經要聞

萬達廣場批量易主 多位投資人正式入局

汽車要聞

全新寶馬iX3長軸版將于成都車展預售 四季度交付

態度原創

親子
游戲
時尚
房產
數碼

親子要聞

產檢發現這種先天缺陷,有救了!柳葉刀重磅

打團戰還發工資?《天下貳·經典版》補貼狂潮來了!

楊紫,視后!

房產要聞

你敢想?海口房地產投資,暴跌5成!

數碼要聞

珂芝三模矮軸機械鍵盤i98上市,首發價329 / 369元

無障礙瀏覽 進入關懷版