无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<dfn id="msoiw"><source id="msoiw"></source></dfn>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Claude「斷電」背后：中國基準首次捅開了AI萬億市場「死穴」

2026-06-29 21:34:04　來源: 新智元

北京舉報

0

分享至

新智元報道

【新智元導讀】6月22日Claude全家桶集體宕機，只是冰山一角。當最強大模型被丟進真實機房直面「幽靈故障」，AISHPerf-智算運維智能體評測基準給出殘酷答案：全軍覆沒，無一過50分。這道鴻溝，第一次被量化。

6月22日，全球AI圈突然集體「斷電」。

Claude的「全家桶」——claude.ai、Console、API、Code、Cowork——在短短幾個小時內大面積宕機。

開發者終端刷滿紅色報錯，企業協作流水線瞬間斷流，社交媒體上炸了鍋：有人曬出滿屏502截圖配文「被AI炒了魷魚」，有人感慨「2026年最體面的摸魚理由——模型宕機了」。

而這，還算快的。笑歸笑，背后的現實卻一點也不好笑。

當AI從聊天玩具變成驅動千億美金算力投資的「生產設備」時，基礎設施的穩定性，已經成了決定整個產業生死存亡的隱形天花板。

而更殘酷的測試結果剛剛出爐——

AISHPerf-智算運維智能體評測基準，由中國信息通信研究院（信通院）推出，無問芯穹參與重點技術建設，把包括Claude-4-sonnet在內的國內外主流大模型扔進真實GPU集群環境，讓它們處理真正的生產級故障。

結果，全軍覆沒，綜合得分全部低于50分。中等和困難難度正確率普遍不到一半。

測試對象包括Claude-4-sonnet和主流開源模型等，均做匿名化處理

測試對象包括Claude-4-sonnet和主流開源模型等，均做匿名化處理

這不是語言游戲的失敗，這是「說」與「做」之間，一道真實而殘酷的鴻溝。

萬億市場，智能體到底能不能穩穩接住？

想象一下這樣的場景：凌晨三點，訓練任務突然出現無規律劇烈性能波動。

運維團隊緊急兜底排查，卻遇上最詭異的情況：網絡鏈路正常、存儲性能正常、節點硬件也正常。

為了定位根因，運維人員只能全鏈路逐層溯源排查，從模型切分策略、任務調度邏輯，一路深挖到底層網絡協議、內核參數、存儲配置規則……

可能要耗費巨大的人力物力和時間，最終才會在一些極為隱蔽的邊緣場景中，發現問題。

最致命的是，這類故障的排查周期，往往長達十天半個月。

而在這漫長的排障期間，大量服務器在持續空轉，海量算力資源白白損耗，AI訓練業務全程停滯。

像這樣的「幽靈故障」，在任何大規模GPU集群里都不是個例。

它們隱蔽、跨層棧、難以復現，卻直接吞噬真金白銀。

摩根士丹利預測，2028年全球AI基礎設施累計投資將達2.9萬億美元。

其中，運維人力、故障損失與集群閑置構成的成本占比高達15%-20%，全行業潛在可優化空間超過4350億美元。

無問芯穹早在2025年10月就已率先探索和應用早期版本的運維智能體。

真實生產環境里的數據最有說服力：工單平均處理時長縮短 50%，關鍵故障處理效率提升約6倍，運維人員人效提升5倍以上，綜合運維成本下降約30%。

這些數字背后，是無數個被解放出來的凌晨三點，和無數度沒有被白白燒掉的電。

但問題來了——究竟什么樣的運維智能體，才配得上「好用」這個詞？

全球首個真實機房的「開卷實操考」

過去對大模型的評估，更像一場語言知識競賽。模型背得越多、說得越漂亮，分數就越高。

可當AI真正走進基礎設施領域，「能否解決實際問題」成了唯一標準。

因為，它最終會影響到每一度電、每一張GPU卡的產出效率。

AISHPerf-智算運維智能體評測基準，徹底顛覆了這種「紙上談兵」。

它源自無問芯穹積累的近百億條真實運維數據。

經過嚴格過濾、去重、脫敏三階段精細標注，最終提煉出高質量、高保真評測用例。

每一條都包含真實的問題現象和明確的故障根因。

更重要的是，這套基準不給根因，需要AI自行探索。

它只告訴你：「訓練任務卡死了，用戶反饋是這樣的，請復現并修復。」

智能體必須自己進入真實集群環境，自主發現線索、提出假設、驗證、執行修復。

整個過程必須安全、有效、不能把機房搞炸。

這才是真正的「開卷實操考」——它考的是長鏈路多跳推理、與真實物理設備的交互能力、在不確定性中做決策的勇氣，以及最關鍵的安全邊界意識。

為了讓這場考試公平且可重復，AISHPerf-智算運維智能體評測基準配套了AIops-Chaos混沌工程項目。

它能通過軟件層精準模擬GPU掉卡、顯存錯誤、NVLink故障、網絡分區等真實硬件異常，無需物理損壞硬件，就能構造高保真測試環境。

只需要一臺GPU+多軌RoCE NIC服務器，就能實現分鐘級的故障編排與自動化恢復驗證。

這套評測框架（AIops-Eval）包含User、Agent、Env、Evaluator、Tracing五個核心模塊，完整記錄智能體每一步的軌跡，支持自定義規則和LLM-as-Judge雙重評測。

它不再關心模型「知道多少」，只關心它在真實世界里，能不能把事情做成。

全軍覆沒的鐵證

硬件世界面前，AI的真實表現

為了給行業一個清晰的基線，信通院用這套基準對基于ReAct的簡單智能體進行了全面測試。

測試對象包括Claude-4-sonnet等主流模型。

為了公平考察模型自身能力，智能體僅使用shell工具，無法聯網搜索；模型均做匿名處理。

結果令人震撼：所有模型的總得分均低于50分。

即使是目前最強的旗艦模型，在中等與困難難度任務上的正確率也普遍低于50%。

面對困難問題時，工具調用時間占比顯著上升，但正確率反而下降。

這說明模型在復雜場景下，無法精準有效地采集和利用信息。

更耐人尋味的是不同技術棧的表現差異：

模型在單純的代碼類Bug上表現相對較好；但一旦涉及硬件故障（GPU掉卡、顯存錯誤、網絡分區等），正確率普遍偏低，而Token消耗卻明顯更高。

模型似乎對硬件世界缺乏足夠信心，不得不反復思考、反復確認。

這背后，是三種典型的失敗模式：

處理任務的穩定性不足：生成不符合工具調用規則的Token。
推理鏈質量差：給出看似合理、實則治標不治本的方案；或者只輸出寬泛的排障思路，不經過嚴謹驗證就下結論。
決策與執行不夠安全：在真實環境中執行高風險操作，或執行危險操作導致整個物理環境崩潰，最終需要人類運維人員緊急介入才能恢復。

這些失敗，不是模型「不夠聰明」，而是它還沒有真正學會如何在物理世界里負責任地行動。

模型與人類

不是替代，而是正交

測試軌跡分析后，一個更深刻的洞察浮現：

當前大模型與人類運維專家的技能，可能是高度正交的。

模型擅長廣度知識檢索、代碼邏輯推理和快速假設生成；人類運維專家則在硬件層面的直覺判斷、復雜系統邊界把控和最終安全決策上更具優勢。

這意味著，未來最優的運維系統，或許不是讓智能體完全替代人類，而是構建一種「模型負責快速廣度探索 + 規則與人類專家負責深度驗證與安全把關」的混合智能體范式。

AISHPerf-智算運維智能體評測基準的意義，正在于它第一次把這個鴻溝量化、可視化、公開化了。

它用真實數據和真實環境，告訴整個行業：

我們距離「系統自己解決問題」還有多遠，也為這條路上的每一步改進，提供了可對齊的公共基線。

這套基準還特別覆蓋了天數、壁仞、沐曦、摩爾、昇騰五種國產芯片。

在國產智算集群建設如火如荼的當下，填補國產智算運維評測領域的空白，本身就是對產業升級最務實的支撐。

從「Token工廠」到「自愈工廠」，我們正在丈量未來

過去一年，AI的發展讓所有人目眩神迷。

從大模型到智能體，從訓練到推理，行業正在形成一個共同認知：技術發展的瓶頸早已不再局限于模型層，底層算力基礎設施同樣是決定產業上限的關鍵要素。

AI系統本質上已經演變成一座「Token工廠」：

模型是生產邏輯，數據是原材料，GPU集群則是生產設備。

工廠的最終產出，是一個個有價值的Token。

但當我們把視角下沉到機房底層，就會發現一個更現實的問題：這座工廠遠沒有想象中那么高效。

AISHPerf-智算運維智能體評測基準，讓「系統自己解決問題」這件事，第一次變得可衡量、可對齊、可迭代。

這或許是人類寫給機器的、最浪漫的一行代碼。

凌晨三點，機房依舊亮著燈。

只是終有一天，守夜的，不再只有人類。

開源地址：https://gitee.com/aishperf-caict/aishperf_openness

配套故障模擬器：https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos

運維數據集：https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl

評測框架：https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

讓AI自己修服務器？先過了這場“火線測試”再說

智東西 2026-06-29 19:34:11
0 跟貼 0
百億真實數據，首個面向AI Infra的運維智能體評測基準正式開源

機器之心Pro 2026-06-29 20:48:56
0 跟貼 0

1美元Token撬動4800美元收益!百萬美元級基準,最賺錢Agent出現了

機器之心Pro 2026-03-10 10:06:03
0 跟貼 0

800萬人圍觀！蝦爹給Agent套上循環，讓它自己跑起來！

機器之心Pro 2026-06-17 12:13:35
0 跟貼 0
AI在進化，品牌在忙著回歸“人情味兒”

新周刊 2026-06-29 22:32:19
0 跟貼 0

大曉機器人的賽博機器狗，開始在上海和天津「打全工」了

愛范兒 2026-06-29 23:38:16
0 跟貼 0

剛剛，萬元級個人機器人再升級！喊一聲就跳英歌舞

新智元 2026-06-29 23:52:23
0 跟貼 0
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0

“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
16臺機柜，追平高鐵驅動功率？數據中心供電拐點來了

量子位 2026-06-26 10:05:00
0 跟貼 0
趕快檢查孩子的手機里有沒有這幾款違法軟件

主持人楊楊 2026-06-28 17:08:21
0 跟貼 0
DeepSeek V4定檔7月中旬，峰谷API定價同步落地

華爾街見聞官方 2026-06-29 19:13:31
8 跟貼 8
韓國隊主帥洪明甫辭職：我所有決定都是為韓國足球

看看新聞Knews 2026-06-28 23:58:49
4846 跟貼 4846
日媒：中國關鍵金屬進口量飆升 "手上有牌"

澎湃新聞 2026-06-29 16:20:35
2091 跟貼 2091
死亡人數每小時在漲，電網卻還在斷電，委內瑞拉災民徒手挖廢墟

破鏡難圓 2026-06-29 05:56:21
0 跟貼 0
世界模型正在重新定義“游戲”的價值

DeepTech深科技 2026-06-29 20:14:56
0 跟貼 0
PFC+ZVS全橋架構設計，村田1600W服務器電源拆解

充電頭網 2026-06-29 10:58:22
0 跟貼 0
開了一次就“頭暈”？看到機器上的英文單詞，他覺得自己被罵了

北青網-北京青年報 2026-06-28 14:48:24
1827 跟貼 1827
資產配置法填志愿，減少擇校分歧

李健政觀察 2026-06-29 22:28:24
0 跟貼 0
當地華人講述法國高溫：中國空調一機難求，有人為搶購空調打起來，安裝已排到9月

瀟湘晨報 2026-06-29 21:36:19
87 跟貼 87
40度斷電停空調，英國玩家的夏天有多難

渡川5 2026-06-29 15:57:42
2 跟貼 2
印度人吃飯不給錢：服務器硬氣報警！

正哥說 2026-06-26 19:24:55
0 跟貼 0
河南一農村女孩高考699分，其母親患病臥床，靠父親打零工維持生計，她說“要通過學習讓父母過上好日子”

極目新聞 2026-06-29 17:19:28
220 跟貼 220
特斯拉兌現承諾，開始向HW3車輛推送FSD V14 Lite

不看車bukanche 2026-06-29 15:39:25
3 跟貼 3
12306賬戶關聯超7個會員賬號，女子半年內購票90余次“薅羊毛”

現代快報 2026-06-29 15:31:20
121 跟貼 121
千余名高校選手參賽滿幫首屆Agent算法大賽搭建數字貨運“試驗田”

人民資訊 2026-06-29 18:24:17
0 跟貼 0
別讓公司“掏空”你：AI時代，打工人的數字自衛戰

不一定有用的頻道 2026-06-29 18:00:03
0 跟貼 0
“熱得讓人發瘋”“感覺自己是烤箱里的肉”“落地第一天就進醫院”“把這輩子的苦都吃盡了”！中國游客崩潰逃離歐洲

魯中晨報 2026-06-29 09:15:46
124 跟貼 124
運-20最新大片片尾"彩蛋"提到的"小六"是誰專家分析

上觀新聞 2026-06-29 14:54:45
324 跟貼 324
特斯拉FSD低價破解生意盯上中國車主最高收費3萬！硬件破解有巨大安全隱患

快科技 2026-06-28 04:04:21
0 跟貼 0
追覓系大幅調整收縮，超200個事業部整合為四大板塊，有員工稱“整個團隊被一鍋端”

紅星資本局 2026-06-29 18:45:08
452 跟貼 452
提級調查“凍貨偏航”，是為了其他貨車不必繞行當地

南方都市報 2026-06-29 07:38:30
384 跟貼 384
智能體從「單兵作戰」到「精銳團隊」 -2

機器之心Pro 2026-04-28 16:56:00
0 跟貼 0
視覺丨筑牢充電安全防線護航綠色出行平安

更金東 2026-06-29 20:16:54
0 跟貼 0
保障用戶智能出行體驗，0元購的比亞迪城區領航兜底了解一下

源Auto 2026-06-27 18:55:58
0 跟貼 0
金燦燦的大航母，這一套模型擺件太漂亮，誰看了能拒絕它！

搞笑派大星 2026-06-29 11:43:27
1 跟貼 1
女生雨天開車發現雨刮條被掰走

瀟湘晨報 2026-06-29 11:40:21
57 跟貼 57
【逐夢輕職】報考信息工程學院笑傲數字技術時代

極目新聞 2026-06-29 13:09:23
0 跟貼 0
多模態大模型視覺定位難題怎么解？

機器之心Pro 2026-06-10 11:31:45
0 跟貼 0

廣東中高分扎堆，今年頭部民辦本科會擠破頭，家長都很現實！

廣東中高分扎堆，今年頭部民辦本科會擠破頭，家長都很現實！

戶外阿毽

2026-06-29 13:12:36

黃金跌價，2026年6月29日，國內各大金店品牌黃金、足金最新價格

黃金跌價，2026年6月29日，國內各大金店品牌黃金、足金最新價格

小陸搞笑日常

2026-06-29 16:09:14

有哪些是你去東北才知道的事情？看網友們的真實分享，驚呆了

有哪些是你去東北才知道的事情？看網友們的真實分享，驚呆了

智慧生活筆記

2026-06-29 15:14:18

溫網最新戰報！王欣瑜2-6慘敗，被逼入決勝盤，張帥首盤3-4落后！

溫網最新戰報！王欣瑜2-6慘敗，被逼入決勝盤，張帥首盤3-4落后！

劉姚堯的文字城堡

2026-06-29 21:33:13

科學家發現：世界最深的馬里亞納海溝，每年偷偷吞掉30億噸海水！

科學家發現：世界最深的馬里亞納海溝，每年偷偷吞掉30億噸海水！

觀察宇宙

2026-06-18 22:02:34

德天空：迪奧曼德已決定立即加盟巴黎，雙方簽約至2031年

德天空：迪奧曼德已決定立即加盟巴黎，雙方簽約至2031年

懂球帝

2026-06-29 04:30:07

高考出分最難受的是這個分數段的學生…

高考出分最難受的是這個分數段的學生…

娛樂的宅急便

2026-06-29 06:24:06

劉濤去上海出差，想著好久沒見孫儷，發微信約晚飯。孫儷回得很快：見面可以，只能中午，四點前必須散

劉濤去上海出差，想著好久沒見孫儷，發微信約晚飯。孫儷回得很快：見面可以，只能中午，四點前必須散

LULU生活家

2026-06-28 09:20:29

西媒：有傳言稱中國門將李昌祎通過經紀公司買通加盟塞哥維亞

西媒：有傳言稱中國門將李昌祎通過經紀公司買通加盟塞哥維亞

懂球帝

2026-06-29 16:24:35

央視怒批，目不識丁，洋相百出，絕望文盲再翻車，馮遠征又說對了

央視怒批，目不識丁，洋相百出，絕望文盲再翻車，馮遠征又說對了

墨印齋

2026-05-29 13:20:21

逃離白公館和渣滓洞幾乎沒有可能：毛人鳳想救兩個，也只撈出一個

逃離白公館和渣滓洞幾乎沒有可能：毛人鳳想救兩個，也只撈出一個

半壺老酒半支煙

2026-06-29 18:50:09

“烏粉”都是些什么人？

閑閑碎

2026-06-29 10:07:47

CBA三大消息：徐昕正式簽約李春江新崗位公布，山東報價廣東新星

CBA三大消息：徐昕正式簽約李春江新崗位公布，山東報價廣東新星

歷史膠囊

2026-06-29 10:11:00

2027款保時捷911上市！151.8萬起售，炫酷超跑外觀+三門四座布局

2027款保時捷911上市！151.8萬起售，炫酷超跑外觀+三門四座布局

小史談車

2026-06-27 14:43:51

離譜！世界杯 3 球猛將仍被掃地出門，紐卡 5200 萬搶阿森納棄將

離譜！世界杯 3 球猛將仍被掃地出門，紐卡 5200 萬搶阿森納棄將

瀾歸序

2026-06-29 08:35:28

67歲王朔晚年現狀：獨居北京，疾病纏身，每天要吃一根哈根達斯

67歲王朔晚年現狀：獨居北京，疾病纏身，每天要吃一根哈根達斯

攬星河的筆記

2026-06-29 14:37:26

巴西傳奇濟科預警：淘汰賽遇日本，巴西將迎硬仗

巴西傳奇濟科預警：淘汰賽遇日本，巴西將迎硬仗

賽場速報局

2026-06-29 00:56:02

渦扇15追了十幾年，轉頭一看才發現：全球最強發動機原來是自己？

渦扇15追了十幾年，轉頭一看才發現：全球最強發動機原來是自己？

兵鑒史

2026-06-28 11:32:44

機場偶遇何潔，本人個子好矮皮膚黝黑，粉底太白了臉和手色差好大

機場偶遇何潔，本人個子好矮皮膚黝黑，粉底太白了臉和手色差好大

TVB的四小花

2026-06-29 19:27:21

同樣拍四渡赤水，把《四渡》和43年前古月版放一起看，差別出來了

同樣拍四渡赤水，把《四渡》和43年前古月版放一起看，差別出來了

手工制作阿殲

2026-06-29 13:31:37

AI產業主平臺領航智能+時代

15563文章數 66944關注度

往期回顧全部

科技要聞

殺瘋了！深圳一天出兩家200億具身智能公司

頭條要聞

美從俄烏戰場抽身金燦榮：美國有個大戰略目標已完成

頭條要聞

美從俄烏戰場抽身金燦榮：美國有個大戰略目標已完成

體育要聞

他和伊朗隊，再次贏得全世界的尊重

娛樂要聞

跟風電影《給阿公的牛肉丸》開機

財經要聞

萬達廣場批量易主多位投資人正式入局

汽車要聞

全新寶馬iX3長軸版將于成都車展預售四季度交付

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

游戲

時尚

房產

數碼

親子要聞

產檢發現這種先天缺陷，有救了！柳葉刀重磅

打團戰還發工資？《天下貳·經典版》補貼狂潮來了！

楊紫，視后！

房產要聞

你敢想？海口房地產投資，暴跌5成！

數碼要聞

珂芝三模矮軸機械鍵盤i98上市，首發價329 / 369元

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<li id="uywec"><button id="uywec"></button></li>

<dfn id="uywec"><source id="uywec"></source></dfn>