无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<abbr id="8kqyo"><option id="8kqyo"></option></abbr>

網(wǎng)易首頁(yè)

網(wǎng)易新聞
網(wǎng)易公開(kāi)課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊(cè)免費(fèi)郵箱

注冊(cè)VIP郵箱（特權(quán)郵箱，付費(fèi)）
免費(fèi)下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動(dòng)端
網(wǎng)易公開(kāi)課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

百億真實(shí)數(shù)據(jù)，首個(gè)面向AI Infra的運(yùn)維智能體評(píng)測(cè)基準(zhǔn)正式開(kāi)源

2026-06-29 20:48:56　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

0

分享至

機(jī)器之心發(fā)布

隨著全球智能體加速落地，算力需求呈指數(shù)級(jí)爆發(fā)，以 GPU 為核心的 AI 基礎(chǔ)設(shè)施正變得愈發(fā)關(guān)鍵。據(jù)摩根士丹利報(bào)告預(yù)測(cè)，2028 年全球 AI 基礎(chǔ)設(shè)施累計(jì)總投資將達(dá) 2.9 萬(wàn)億美元。然而，根據(jù)行業(yè)通用成本結(jié)構(gòu)測(cè)，其中由運(yùn)維人力、故障損失與集群閑置構(gòu)成的成本占比可高達(dá) 15%~20%，全行業(yè)潛在的可優(yōu)化空間超過(guò) 4350 億美元。

作為全球領(lǐng)先的 AI 基礎(chǔ)設(shè)施服務(wù)商，無(wú)問(wèn)芯穹早在去年 10 月便率先啟動(dòng)研發(fā)并成功部署早期版本的運(yùn)維智能體。實(shí)踐表明，相比傳統(tǒng)人工運(yùn)維，智能體顯著提升了整體運(yùn)維效率：工單平均處理時(shí)長(zhǎng)縮短 50%，關(guān)鍵故障處理效率提升約 6 倍；運(yùn)維人員得以從重復(fù)性的排查工作中解放，人效提升 5 倍以上，綜合運(yùn)維成本下降約 30%，為大規(guī)模 GPU 訓(xùn)練與推理業(yè)務(wù)提供了更加穩(wěn)定、高效的基礎(chǔ)設(shè)施保障。

但究竟什么樣的運(yùn)維智能體才是 “好用” 的智能體？

AI 集群運(yùn)維是一個(gè)極具挑戰(zhàn)性的場(chǎng)景，涉及復(fù)雜的系統(tǒng)知識(shí)、工具調(diào)用以及長(zhǎng)鏈路推理，是對(duì)智能體能力的綜合考驗(yàn)。過(guò)去對(duì)模型的評(píng)估看重語(yǔ)言能力，而當(dāng) AI 進(jìn)入基礎(chǔ)設(shè)施領(lǐng)域后，“能否解決實(shí)際問(wèn)題” 已成為核心評(píng)判標(biāo)準(zhǔn) —— 它最終會(huì)影響到每一度電、每一張 GPU 卡的產(chǎn)出效率。

基于此，中國(guó)信息通信研究院（簡(jiǎn)稱 “中國(guó)信通院”）推出了首個(gè)面向 AI Infra 運(yùn)維的智能體評(píng)測(cè)基準(zhǔn) ——AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)，而無(wú)問(wèn)芯穹作為重點(diǎn)技術(shù)支持單位參與了基準(zhǔn)建設(shè)，基于積累的近百億條真實(shí)運(yùn)維數(shù)據(jù)，為智能體在智算運(yùn)維場(chǎng)景的落地定義了問(wèn)題并提供了一個(gè)可參考的基線。

和傳統(tǒng) Benchmark 不同，AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)并不關(guān)注模型 “說(shuō)得多好”，而是關(guān)注它 “能不能把事情做成”。

我們希望通過(guò)這套基準(zhǔn)測(cè)試開(kāi)源，與行業(yè)共同探索智能體在 AI 原生基礎(chǔ)設(shè)施運(yùn)維領(lǐng)域的能力邊界，推動(dòng) “AI for Infra” 與 “Infra for AI” 的雙向賦能與協(xié)同進(jìn)化。

開(kāi)源地址：https://gitee.com/aishperf-caict/aishperf_openness
配套故障模擬器：https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos
運(yùn)維數(shù)據(jù)集：https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl
評(píng)測(cè)框架：https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval

01

不再紙上談兵，讓運(yùn)維智能體真正解決現(xiàn)實(shí)中多樣化的生產(chǎn)問(wèn)題

2025 年 4 月 7 日，無(wú)問(wèn)芯穹某客戶反饋訓(xùn)練任務(wù)出現(xiàn)無(wú)規(guī)律的劇烈性能波動(dòng)，我們的基礎(chǔ)設(shè)施團(tuán)隊(duì)第一時(shí)間介入，先后排查了網(wǎng)絡(luò)鏈路、存儲(chǔ)性能、節(jié)點(diǎn)硬件狀態(tài)等所有常規(guī)維度，均未發(fā)現(xiàn)異常。為了定位這個(gè) “幽靈故障”，團(tuán)隊(duì)前后投入 7 名資深研發(fā)運(yùn)維人員，連續(xù)奮戰(zhàn) 15 天，從用戶訓(xùn)練框架的模型切分策略，一路向下排查到網(wǎng)絡(luò)協(xié)議、存儲(chǔ)參數(shù)配置，最終才在一個(gè)極其隱蔽的邊緣場(chǎng)景中發(fā)現(xiàn)：?jiǎn)栴}根源與存儲(chǔ)系統(tǒng)的預(yù)期緩沖機(jī)制設(shè)計(jì)存在偏差。

這場(chǎng)持續(xù)半個(gè)月的故障，累計(jì)消耗 105 人天的研發(fā)運(yùn)維人力，256 臺(tái)服務(wù)器全程處于閑置空轉(zhuǎn)狀態(tài)。

若排查周期再進(jìn)一步拉長(zhǎng)、故障持續(xù)發(fā)酵，將直接導(dǎo)致大規(guī)模資源空轉(zhuǎn)、客戶訓(xùn)練進(jìn)度停滯，甚至?xí)斐蔀?zāi)難性的業(yè)務(wù)停擺與資產(chǎn)損失。而像這樣隱蔽、復(fù)雜、跨技術(shù)棧的故障，在基礎(chǔ)設(shè)施服務(wù)商的日常中并不罕見(jiàn)。

正是基于無(wú)數(shù)次這樣苦澀的實(shí)戰(zhàn)教訓(xùn)，我們想將碎片化運(yùn)維經(jīng)驗(yàn)結(jié)構(gòu)化、標(biāo)準(zhǔn)化，為運(yùn)維智能體明確核心問(wèn)題邊界，并提供一套可執(zhí)行的評(píng)測(cè)基準(zhǔn)。

本次基準(zhǔn)全程由領(lǐng)域?qū)＜抑鲗?dǎo)評(píng)測(cè)，邀請(qǐng)了多位資深運(yùn)維專家對(duì)數(shù)據(jù)進(jìn)行精細(xì)標(biāo)注與嚴(yán)格篩選，確保每一條問(wèn)題都具備真實(shí)生產(chǎn)價(jià)值與高質(zhì)量評(píng)測(cè)意義。

（一）真實(shí)生產(chǎn)場(chǎng)景的數(shù)據(jù)積淀

AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)源自無(wú)問(wèn)芯穹自成立以來(lái)積累的百億條真實(shí)運(yùn)維，篩選后獲得十萬(wàn)條場(chǎng)景真實(shí)、鏈路完整、信息完備的有效數(shù)據(jù)，經(jīng)過(guò)嚴(yán)格的三階段數(shù)據(jù)工程處理，最終抽象合成為 103 條高質(zhì)量、高保真的評(píng)測(cè)用例。

我們收集了 2024 年至 2026 年 1 月的全部用戶工單及其關(guān)聯(lián)的 IM 話題與文檔附件，以及所有線上集群的監(jiān)控告警數(shù)據(jù)。通過(guò)過(guò)濾低質(zhì)內(nèi)容、去重、脫敏等嚴(yán)格的數(shù)據(jù)清洗流程，剔除了客戶需求、未查明原因、與平臺(tái)邏輯強(qiáng)耦合等不適合作為通用評(píng)測(cè)的內(nèi)容，最終保留了無(wú)重復(fù)、高質(zhì)量、信息安全的問(wèn)題樣本。每條用例都包含真實(shí)的問(wèn)題現(xiàn)象、完整的排查鏈路和明確的故障根因，確保評(píng)測(cè)結(jié)果能夠真實(shí)反映智能體在生產(chǎn)環(huán)境中的實(shí)際表現(xiàn)。

（二）多樣化的跨層棧問(wèn)題覆蓋

AI 原生基礎(chǔ)設(shè)施平臺(tái)的運(yùn)維復(fù)雜度遠(yuǎn)超傳統(tǒng) IT 基礎(chǔ)設(shè)施，故障可能發(fā)生在從裸金屬硬件到上層訓(xùn)推框架的任何一層。

因此，該基準(zhǔn)打通了從底層硬件故障到用戶側(cè)軟件 Bug 的全鏈路問(wèn)題，囊括多種表現(xiàn)形式、故障根因和修復(fù)方案，不僅全面涵蓋網(wǎng)絡(luò)、GPU、宿主機(jī)、云原生平臺(tái)等傳統(tǒng)運(yùn)維領(lǐng)域，更首創(chuàng)性地納入了 AI 原生領(lǐng)域的大模型訓(xùn)練、推理關(guān)鍵問(wèn)題。同時(shí)問(wèn)題覆蓋天數(shù)、壁仞、沐曦、摩爾、昇騰 5 種國(guó)產(chǎn)芯片，真正實(shí)現(xiàn)了多維度、多層次、多樣化的問(wèn)題場(chǎng)景全觸達(dá)。

我們按照技術(shù)棧層級(jí)將問(wèn)題劃分為宿主機(jī)、高性能設(shè)備、容器平臺(tái)、訓(xùn)推腳本、安全與運(yùn)營(yíng)商五大類，涵蓋44種問(wèn)題現(xiàn)象和22個(gè)細(xì)分故障領(lǐng)域，基本覆蓋了真實(shí)運(yùn)維場(chǎng)景中可能遇到的所有情況。此外，所有問(wèn)題共分為3種難度級(jí)別，平均人工處理耗時(shí)為1.5小時(shí)，充分保障了問(wèn)題的復(fù)雜性與挑戰(zhàn)性。

（三）開(kāi)放式的故障探索與處置

傳統(tǒng)的模型評(píng)測(cè)往往更像是筆試，側(cè)重考察知識(shí)記憶與標(biāo)準(zhǔn)答案復(fù)述。而AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)是一場(chǎng)實(shí)操考核，聚焦于考驗(yàn)智能體貼近生產(chǎn)環(huán)境的端到端問(wèn)題解決能力。

該基準(zhǔn)不明確指出故障根因，只提供真實(shí)的集群環(huán)境和有限的問(wèn)題現(xiàn)象描述，要求智能體自主探索、自主排查、自主修復(fù)。這對(duì)智能體提出了極高要求：必須理解從物理設(shè)備到上層軟件實(shí)現(xiàn)的多層復(fù)雜技術(shù)棧，能夠正確與真實(shí)環(huán)境交互，高效處理長(zhǎng)上下文信息，并在復(fù)雜場(chǎng)景中完成多跳推理與決策。

例如，針對(duì) “訓(xùn)練任務(wù)卡死” 這一常見(jiàn)問(wèn)題，評(píng)測(cè)系統(tǒng)會(huì)注入特定故障，并啟動(dòng)一個(gè)開(kāi)發(fā)機(jī)容器，其中包含隱藏了源代碼的訓(xùn)練腳本。智能體只會(huì)收到一段描述訓(xùn)練任務(wù)卡死的客戶反饋和復(fù)現(xiàn)方式，必須自行復(fù)現(xiàn)問(wèn)題、排查可能的原因、驗(yàn)證假設(shè)并最終修復(fù)故障。這種開(kāi)放式的評(píng)測(cè)方式，能夠真正檢驗(yàn)智能體的自主決策能力和問(wèn)題解決能力，而不僅僅是知識(shí)記憶能力。

02

配套利器：GPU 集群故障模擬工程

在大規(guī)模 GPU 集群的運(yùn)維實(shí)踐中，如何在不破壞生產(chǎn)環(huán)境的前提下驗(yàn)證系統(tǒng)的故障恢復(fù)能力，一直是行業(yè)普遍面臨的棘手挑戰(zhàn)。物理硬件故障注入成本極高、速度慢且不可重復(fù)，而脫離真實(shí)集群，用純軟件模擬又存在真實(shí)度不足的問(wèn)題。

為了解決這一難題，AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)配套提供了 AIops-Chaos—— 一個(gè)專為 GPU 集群設(shè)計(jì)的混沌工程項(xiàng)目。其核心思路是通過(guò)軟件層精準(zhǔn)模擬各類硬件故障場(chǎng)景，包括 GPU 掉卡、顯存錯(cuò)誤、NVLink 故障、網(wǎng)絡(luò)分區(qū)等典型異常，同時(shí)結(jié)合真實(shí)的業(yè)務(wù)負(fù)載構(gòu)造高保真的測(cè)試環(huán)境。這種 “軟件模擬 + 真實(shí)集群” 的模式，既避免了物理?yè)p壞帶來(lái)的高昂代價(jià)，又確保了故障注入的可控性與可重復(fù)性。

在工程實(shí)現(xiàn)上，AIops-Chaos 針對(duì) GPU 與 RDMA 等智算集群的故障場(chǎng)景，采用了創(chuàng)新的技術(shù)方案：

GPU 故障模擬：通過(guò)劫持 nvml 庫(kù)，實(shí)現(xiàn)了支持注入多種 GPU 故障的 nvidia-smi，包括溫度異常、掉卡、頻率異常、風(fēng)扇故障等
RDMA 故障模擬：端側(cè)故障直接操作物理機(jī)；對(duì)交換機(jī)故障，采用 rdma hostmesh 作為可觀測(cè)方案，通過(guò)構(gòu)造故障指標(biāo)來(lái)模擬

AIops-Chaos 展現(xiàn)出了高效、低成本、快速的優(yōu)勢(shì)。僅需一臺(tái) GPU + 多軌 RoCE NIC 服務(wù)器，即可支持構(gòu)造多機(jī)任務(wù)故障現(xiàn)象，并實(shí)現(xiàn)分鐘級(jí)的故障編排與自動(dòng)化恢復(fù)驗(yàn)證。

03

科學(xué)量化：一個(gè)多維度評(píng)估體系

（一）評(píng)估指標(biāo)

AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)采用多維度綜合評(píng)估體系，評(píng)估的指標(biāo)以結(jié)果為導(dǎo)向，分為主指標(biāo)與輔助指標(biāo)。不僅關(guān)注智能體解決問(wèn)題的正確率，還全面考量時(shí)延、Token 消耗、工具調(diào)用效率等關(guān)鍵指標(biāo)。

1.1 主指標(biāo)：綜合得分

主指標(biāo)為綜合得分，用于衡量智能體在整個(gè)運(yùn)維任務(wù)集上的總體解決能力。

要獲得更高的分?jǐn)?shù)，必須做對(duì)中等和困難題目。

1.2 輔助指標(biāo)：平均耗時(shí)、平均 Token 消耗與工具調(diào)用次數(shù)

輔助指標(biāo)由平均耗時(shí)與平均 Token 消耗構(gòu)成，用于評(píng)估智能體解決實(shí)際問(wèn)題的時(shí)效性與成本。

我們用平均耗時(shí)用于衡量智能體在完成任務(wù)時(shí)的時(shí)延表現(xiàn)，單位為秒 / 任務(wù)。時(shí)延定義為從開(kāi)始調(diào)用智能體到智能體返回最終結(jié)論的耗時(shí)。
我們用平均 Token 消耗衡量智能體完成任務(wù)的資源成本，單位為Token / 任務(wù)
如果智能體不調(diào)用工具，直接猜答案，即使答案正確，也會(huì)判為錯(cuò)，用來(lái)確保智能體是實(shí)際與環(huán)境交互后推理出答案。

（二）評(píng)估框架

當(dāng)前社區(qū)的評(píng)測(cè)工具普遍存在三大痛點(diǎn)：缺乏對(duì)各類智能體應(yīng)用的統(tǒng)一接口支持、僅關(guān)注最終答案而缺少對(duì)中間過(guò)程的細(xì)粒度評(píng)測(cè)、不包含環(huán)境定義與構(gòu)造流程。

為了解決這些問(wèn)題，我們開(kāi)發(fā)了AIops-Eval—— 一個(gè)端到端的智能體評(píng)測(cè)工具鏈。它包含五個(gè)核心子模塊：

User 模塊：負(fù)責(zé)與智能體交互，支持?jǐn)?shù)據(jù)集驅(qū)動(dòng)的固定輸入和 LLM 驅(qū)動(dòng)的真實(shí)用戶模擬
Agent 模塊：待評(píng)測(cè)對(duì)象，原生支持本地 LLM 和基于 langgraph 構(gòu)建的本地智能體，并預(yù)留了遠(yuǎn)程智能體接口
Env 模塊：為智能體提供交互環(huán)境，負(fù)責(zé)每輪測(cè)例前后的環(huán)境構(gòu)造與清理
Evaluator 模塊：對(duì)智能體的完整軌跡進(jìn)行評(píng)測(cè)，支持自定義規(guī)則評(píng)測(cè)和 LLM-as-a-judge 評(píng)測(cè)
Tracing 模塊：基于開(kāi)源的 langfuse 實(shí)現(xiàn)，完整采集智能體的執(zhí)行軌跡

04

實(shí)測(cè)驗(yàn)證

我們對(duì)基于 ReAct loop 的簡(jiǎn)單智能體進(jìn)行了全面測(cè)試。測(cè)試使用了多款不同大小的國(guó)內(nèi)外主流模型，同時(shí)為了公平測(cè)試模型自身的長(zhǎng)程多跳推理能力，智能體只使用 shell 工具，且無(wú)法連接互聯(lián)網(wǎng)進(jìn)行搜索。下圖展示了不同模型的總得分與時(shí)延，以及模型與人類的對(duì)比：

從圖中可以看出：

所有模型的總得分均在 50 分以下但達(dá)到了數(shù)量級(jí)的時(shí)效性提高
成功率相比人類運(yùn)維專家仍有差距

下面的圖展示了不同難度分類下各模型的表現(xiàn)：

不同難度的正確率

不同難度 tool call 時(shí)間占比

不同難度 token 消耗

中等與困難難度上，所有模型的正確率均小于 50%，意味著即使是旗艦?zāi)Ｐ停搽y以穩(wěn)定、出色的解決復(fù)雜運(yùn)維問(wèn)題。
面對(duì)困難問(wèn)題，tool call 時(shí)間占比顯著增加，但正確率下降，意味著模型無(wú)法精準(zhǔn)有效的采集信息。
不同難度問(wèn)題的 Token 消耗沒(méi)有數(shù)量級(jí)差別，意味著在運(yùn)維領(lǐng)域，面對(duì)簡(jiǎn)單問(wèn)題，智能體無(wú)法像人類一樣快速做出精確判斷。

下面的圖展示了模型對(duì)不同技術(shù)棧的任務(wù)的表現(xiàn)：

不同技術(shù)棧任務(wù)的正確率

不同技術(shù)棧 token 消耗

模型更善于處理單純的代碼類 bug，而在硬件故障上，模型的正確率普遍低，Token 消耗更高，意味著模型對(duì)于硬件故障的置信度不夠高，傾向于反復(fù)思考和確認(rèn)，這代表智能體與運(yùn)維專家的技能可能存在正交性。

基于上述對(duì)大量測(cè)試軌跡的分析，我們總結(jié)出智能體在解決運(yùn)維問(wèn)題時(shí)的幾種典型失敗模式：

1.處理任務(wù)的穩(wěn)定性不足：模型可能生成不符合工具調(diào)用解析規(guī)則的 Token，導(dǎo)致智能體執(zhí)行異常終止；也可能違反輸出格式要求或執(zhí)行禁止的危險(xiǎn)操作，導(dǎo)致任務(wù)無(wú)法得分。

2.推理鏈的質(zhì)量差：模型可能治標(biāo)不治本的臨時(shí)方案來(lái)達(dá)到表面上的修復(fù)效果；可能輸出看似合理但經(jīng)不起推敲的推理過(guò)程；可能只輸出寬泛的排障思路，不經(jīng)過(guò)考證就直接給出結(jié)論。

3.決策與執(zhí)行不夠安全：模型可能執(zhí)行危險(xiǎn)的工具調(diào)用，執(zhí)行過(guò)程卡死，導(dǎo)致整個(gè)物理環(huán)境崩潰，甚至需要運(yùn)維人員人工介入才可恢復(fù)。

05

實(shí)踐思考與未來(lái)展望

過(guò)去一年 AI 的發(fā)展態(tài)勢(shì)有目共睹，從大模型到智能體，從訓(xùn)練到推理，行業(yè)正在形成一個(gè)共同的認(rèn)知：技術(shù)發(fā)展的瓶頸早已不再局限于模型層，底層算力基礎(chǔ)設(shè)施同樣是決定產(chǎn)業(yè)上限的關(guān)鍵要素。AI 系統(tǒng)本質(zhì)上已經(jīng)演變成一座 “Token 工廠”：模型是生產(chǎn)邏輯，數(shù)據(jù)是原材料，而 GPU 集群則是生產(chǎn)設(shè)備，工廠的最終產(chǎn)出是一個(gè)個(gè) Token。但當(dāng)我們將視角下沉到更底層，就會(huì)發(fā)現(xiàn)一個(gè)更現(xiàn)實(shí)的問(wèn)題：“Token 工廠” 遠(yuǎn)沒(méi)有想象中那么高效。

AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)正是基于我們長(zhǎng)期在 AI 基礎(chǔ)設(shè)施領(lǐng)域建設(shè)與實(shí)踐的經(jīng)驗(yàn)，針對(duì) Token 工廠全棧提效的階段性思考與探索成果。AI 正在重塑基礎(chǔ)設(shè)施，基礎(chǔ)設(shè)施也在反過(guò)來(lái)決定 AI 的效率上限。在這兩者不斷交織的過(guò)程中，我們希望此次的工作能夠成為一個(gè)小的起點(diǎn)，讓 “系統(tǒng)自己解決問(wèn)題” 這件事，變得更可衡量，也更可實(shí)現(xiàn)。

此次開(kāi)源只是一個(gè)開(kāi)始，未來(lái)仍有大量工作可深入挖掘。

我們將持續(xù)合成更豐富、高質(zhì)量的數(shù)據(jù)，覆蓋更多技術(shù)棧與領(lǐng)域，更全面地捕捉智能體的運(yùn)維能力演進(jìn)趨勢(shì)；并同步完善 AIops-chaos 混沌工程，實(shí)現(xiàn)更豐富、真實(shí)、魯棒的故障注入，為智能體搭建更完善可信的故障模擬環(huán)境，提升數(shù)據(jù)集豐富度與評(píng)測(cè)結(jié)果可靠性。

同時(shí)，我們將在評(píng)測(cè)框架上做更開(kāi)放的支持。目前我們測(cè)試的 Baseline Agent 基于 ReAct 范式構(gòu)建。后續(xù)將逐步擴(kuò)展評(píng)測(cè)框架的適配能力，讓不同類型的智能體都可以無(wú)縫接入，而不是被限制在某一種范式下進(jìn)行對(duì)比。

立足當(dāng)下國(guó)產(chǎn)芯片大力發(fā)展、國(guó)產(chǎn) GPU 集群建設(shè)日益蓬勃的產(chǎn)業(yè)背景，面向國(guó)產(chǎn) GPU 集群的運(yùn)維工作愈發(fā)關(guān)鍵，新問(wèn)題與挑戰(zhàn)也將隨之增加。我們將不斷在評(píng)測(cè)集中拓展面向國(guó)產(chǎn)芯片集群運(yùn)維的特定場(chǎng)景及問(wèn)題，填補(bǔ)國(guó)產(chǎn)智算運(yùn)維評(píng)測(cè)領(lǐng)域的空白，從而有效助力國(guó)產(chǎn)芯片集群運(yùn)維能力的智能化升級(jí)。

我們將持續(xù)深化與中國(guó)信息通信研究院、清華大學(xué)等產(chǎn)學(xué)研機(jī)構(gòu)的技術(shù)協(xié)同，同時(shí)也期待著每一位社區(qū)開(kāi)發(fā)者的加入共建，共同推動(dòng)運(yùn)維智能體技術(shù)穩(wěn)步發(fā)展并成為整個(gè)行業(yè)共享的能力。

如果說(shuō)目前完成的工作是在回答 “什么是一個(gè)好用的運(yùn)維智能體”，那么接下來(lái)，我們更想與行業(yè)一起探索的是 ——在真實(shí)世界中，這件事情還能走多遠(yuǎn)。我們期待 AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)可以不止于一款 “評(píng)測(cè)工具”，而是逐步演進(jìn)為 AI 集群運(yùn)維智能體能力的公共基線。不同團(tuán)隊(duì)可以在同一套標(biāo)準(zhǔn)下驗(yàn)證能力、對(duì)齊認(rèn)知，甚至推動(dòng)一些最佳實(shí)踐的沉淀。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

詞元交易與全球算力大流通

經(jīng)濟(jì)觀察報(bào) 2026-05-16 19:06:25
0 跟貼 0
基于異構(gòu)邊緣終端的端側(cè)AI統(tǒng)一架構(gòu)研究與實(shí)踐

通信世界 2026-01-20 11:56:04
0 跟貼 0

中國(guó)信通院發(fā)布AI Infra運(yùn)維領(lǐng)域首個(gè)評(píng)測(cè)基準(zhǔn)

量子位 2026-06-30 15:11:48
0 跟貼 0

Claude Code官宣下一版大升級(jí)！你在聊天，后臺(tái)把活干完了

新智元 2026-06-30 15:10:16
0 跟貼 0
最貴的AI，最先賺到了錢(qián)

鈦媒體APP 2026-06-04 19:32:35
189 跟貼 189

2028，RSI降臨！

新智元 2026-06-28 12:17:46
4 跟貼 4

擔(dān)心蒸餾問(wèn)題，Meta限用Claude Code、Codex

機(jī)器之心Pro 2026-06-30 12:43:06
0 跟貼 0
AI 批量造 App，也在批量埋雷

鈦媒體APP 2026-06-27 10:05:13
16 跟貼 16

阿里推出統(tǒng)一科學(xué)語(yǔ)言基礎(chǔ)模型——LOGOS，打造AI for Science新入口

生物世界 2026-06-30 16:41:04
0 跟貼 0
退錢(qián)！Claude 4.8連夜大降智，GPT-5.6算力遭「腰斬」

新智元 2026-06-30 19:19:27
0 跟貼 0
你天天用的Claude和Codex，Meta內(nèi)部不讓隨便用了

新智元 2026-06-30 19:17:26
0 跟貼 0
大神程序員蒸餾自己，用16個(gè)skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
“AI領(lǐng)域最被濫用的術(shù)語(yǔ)”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
離職一年后，前總監(jiān)求我恢復(fù)數(shù)據(jù)，談錢(qián)他沉默，我直接報(bào)價(jià)五十萬(wàn)

麥子情感故事 2026-06-26 16:12:12
0 跟貼 0
6G專題|三層解耦！一文詳解智簡(jiǎn)內(nèi)生6G無(wú)線網(wǎng)絡(luò)編排系統(tǒng)

通信世界 2026-01-21 20:10:34
0 跟貼 0
趕快檢查孩子的手機(jī)里有沒(méi)有這幾款違法軟件

主持人楊楊 2026-06-28 17:08:21
0 跟貼 0
大模型API的大眾點(diǎn)評(píng)來(lái)了：7×24小時(shí)實(shí)測(cè)，毫秒級(jí)延遲智能路由

量子位 2026-02-02 11:48:44
0 跟貼 0
ESA高管說(shuō)MC社區(qū)服務(wù)器"非法"，這波操作給我整不會(huì)了

晚星歸航2 2026-06-30 18:56:58
0 跟貼 0
媒體：歐洲熱浪下中國(guó)空調(diào)撕開(kāi)的不只是市場(chǎng)缺口

澎湃新聞 2026-06-30 07:12:58
10983 跟貼 10983
16臺(tái)機(jī)柜，追平高鐵驅(qū)動(dòng)功率？數(shù)據(jù)中心供電拐點(diǎn)來(lái)了

量子位 2026-06-26 10:05:00
0 跟貼 0
月之暗面黃震昕：Kimi不做重交付，F(xiàn)DE難點(diǎn)不在于模型廠商

鈦媒體APP 2026-06-30 16:30:58
0 跟貼 0
不只DeepSeek，階躍等開(kāi)源JetSpec：大模型解碼提速近10倍

機(jī)器之心Pro 2026-06-30 17:56:14
0 跟貼 0
GitHub 3.5 w+星! 不用買(mǎi)NAS，舊電腦直接變成云服務(wù)器？

機(jī)器之心Pro 2026-06-30 17:42:34
0 跟貼 0
巴西隊(duì)勝利"屬于"安切洛蒂其賽前精準(zhǔn)預(yù)測(cè)比賽進(jìn)程

上觀新聞 2026-06-30 03:28:50
6340 跟貼 6340
金燦燦的大航母，這一套模型擺件太漂亮，誰(shuí)看了能拒絕它！

搞笑派大星 2026-06-29 11:43:27
1 跟貼 1
一天兩場(chǎng)點(diǎn)球大戰(zhàn) 荷蘭點(diǎn)球大戰(zhàn)3-4摩洛哥無(wú)緣16強(qiáng)

央視新聞客戶端 2026-06-30 11:56:09
4461 跟貼 4461
大蒜曬外面被路過(guò)女子連盆端走

瀟湘晨報(bào) 2026-06-30 09:39:11
67 跟貼 67
黑神話IGN玩家評(píng)分第一！是否比媒體口碑更有含金量

游民星空 2026-06-29 22:28:30
7 跟貼 7
韓紅即日起將退出公益行業(yè)？韓紅基金會(huì)回應(yīng)傳聞：目前沒(méi)有收到任何消息

北京青年報(bào) 2026-06-30 13:43:20
8126 跟貼 8126
【IPN】9分，《現(xiàn)代怪人協(xié)會(huì)》評(píng)測(cè)：群星閃耀時(shí)

反套路小劇場(chǎng) 2026-06-29 07:13:01
0 跟貼 0
多模態(tài)大模型視覺(jué)定位難題怎么解？

機(jī)器之心Pro 2026-06-10 11:31:45
0 跟貼 0
開(kāi)了一次就“頭暈”？看到機(jī)器上的英文單詞，他覺(jué)得自己被罵了

北青網(wǎng)-北京青年報(bào) 2026-06-28 14:48:24
1827 跟貼 1827
當(dāng)?shù)厝A人講述法國(guó)高溫：中國(guó)空調(diào)一機(jī)難求，有人為搶購(gòu)空調(diào)打起來(lái)，安裝已排到9月

瀟湘晨報(bào) 2026-06-29 21:36:19
5295 跟貼 5295
江蘇將新建一座超大型機(jī)場(chǎng)，明年正式開(kāi)工

江蘇新聞 2026-06-30 13:32:00
101 跟貼 101
“卡牌大師”名不虛傳，作為第四官員的馬寧多次提醒主裁，讓德國(guó)和巴拉圭兩隊(duì)替補(bǔ)席吃黃牌；網(wǎng)友：就算手里沒(méi)牌，照樣能管住賽場(chǎng)秩序

廈門(mén)晚報(bào) 2026-06-30 11:41:58
816 跟貼 816
特斯拉FSD低價(jià)破解生意盯上中國(guó)車(chē)主最高收費(fèi)3萬(wàn)！硬件破解有巨大安全隱患

快科技 2026-06-28 04:04:21
0 跟貼 0
上海老夫妻無(wú)后代臨走前捐出500萬(wàn):我們活不了多久了

澎湃新聞 2026-06-30 07:00:31
1526 跟貼 1526
iCAR V27迎來(lái)大規(guī)模OTA 超140項(xiàng)功能升級(jí)

車(chē)市紅點(diǎn) 2026-06-30 19:25:57
0 跟貼 0
媒體:德國(guó)連續(xù)3屆世界杯無(wú)緣16強(qiáng) 從戰(zhàn)車(chē)變成寶寶巴士

中國(guó)新聞周刊 2026-06-30 13:02:57
474 跟貼 474
“UFO 是未來(lái)人類駕駛的時(shí)間機(jī)器” 完整理論邏輯是什么？

富貴春天 2026-06-30 08:42:13
0 跟貼 0

確認(rèn)徹底告別德國(guó)隊(duì)，諾伊爾：是的，以這種方式結(jié)束很痛苦

確認(rèn)徹底告別德國(guó)隊(duì)，諾伊爾：是的，以這種方式結(jié)束很痛苦

懂球帝

2026-06-30 18:49:08

23歲女子想再睡一次情夫，情夫怕妻子得知奸情，2010年將女子殺死

23歲女子想再睡一次情夫，情夫怕妻子得知奸情，2010年將女子殺死

情感藝術(shù)家

2026-06-30 06:50:11

腦梗跟喝水有關(guān)？醫(yī)生含淚勸告：60歲后，夏天喝水要注意這4件事

腦梗跟喝水有關(guān)？醫(yī)生含淚勸告：60歲后，夏天喝水要注意這4件事

芹姐說(shuō)生活

2026-06-30 19:16:00

悲哀！帶4孩留守女子痛斥，打工丈夫發(fā)工資轉(zhuǎn)4200，自己留3000多

悲哀！帶4孩留守女子痛斥，打工丈夫發(fā)工資轉(zhuǎn)4200，自己留3000多

火山詩(shī)話

2026-06-30 10:32:13

相聲界集體炮轟走面兒，韓紅關(guān)閉評(píng)論，基金會(huì)大量捐贈(zèng)人斷捐

相聲界集體炮轟走面兒，韓紅關(guān)閉評(píng)論，基金會(huì)大量捐贈(zèng)人斷捐

可愛(ài)小菜

2026-06-27 19:25:04

為親人喊冤14年的河南農(nóng)婦，終于把自己也喊進(jìn)了監(jiān)獄

為親人喊冤14年的河南農(nóng)婦，終于把自己也喊進(jìn)了監(jiān)獄

塔子山評(píng)說(shuō)

2026-06-29 16:49:51

剛剛，金價(jià)破位大跌！高盛看多：牛市未結(jié)束

剛剛，金價(jià)破位大跌！高盛看多：牛市未結(jié)束

金融界

2026-06-30 11:53:37

蘇提達(dá)巴黎出盡風(fēng)頭！73歲布麗吉特發(fā)型翻車(chē)，泰王冷臉看女兒下跪

蘇提達(dá)巴黎出盡風(fēng)頭！73歲布麗吉特發(fā)型翻車(chē)，泰王冷臉看女兒下跪

白露文娛志

2026-06-30 15:19:46

愛(ài)沙尼亞政府表示只要烏軍無(wú)人能夠打擊俄羅斯就為烏開(kāi)放領(lǐng)空

愛(ài)沙尼亞政府表示只要烏軍無(wú)人能夠打擊俄羅斯就為烏開(kāi)放領(lǐng)空

水雲(yún)鶴

2026-06-30 19:16:02

1400萬(wàn)成本狂攬19億，王晶向太勸不住，《給阿公的牛肉丸》開(kāi)機(jī)了

1400萬(wàn)成本狂攬19億，王晶向太勸不住，《給阿公的牛肉丸》開(kāi)機(jī)了

東方不敗然多多

2026-06-30 01:04:26

小仙女為了8000元“舉報(bào)全班師生”，老師被停職，全班學(xué)生延畢

小仙女為了8000元“舉報(bào)全班師生”，老師被停職，全班學(xué)生延畢

妍妍教育日記

2026-06-28 08:10:07

澤連斯基絕望了，話說(shuō)得非常凄慘！俄軍瘋狂下死手，美露出真面目

澤連斯基絕望了，話說(shuō)得非常凄慘！俄軍瘋狂下死手，美露出真面目

碧海孤航

2026-06-30 11:00:09

蜱蟲(chóng)鉆入孩子皮膚，媽媽“兩拒絕一動(dòng)作”救了娃，醫(yī)生夸她做得好

蜱蟲(chóng)鉆入孩子皮膚，媽媽“兩拒絕一動(dòng)作”救了娃，醫(yī)生夸她做得好

菁媽育兒

2026-06-27 18:49:27

蘇提達(dá)王后與布麗吉特同穿淺粉造型，同框互動(dòng)盡顯優(yōu)雅默契

蘇提達(dá)王后與布麗吉特同穿淺粉造型，同框互動(dòng)盡顯優(yōu)雅默契

墨薷桃桃

2026-06-30 12:37:05

2026世界杯驚天場(chǎng)外丑聞！5名國(guó)腳接連涉案，足壇遮羞布被撕碎

2026世界杯驚天場(chǎng)外丑聞！5名國(guó)腳接連涉案，足壇遮羞布被撕碎

老歐講大案

2026-06-30 11:48:30

恩德里克：沒(méi)想到會(huì)在中場(chǎng)休息后登場(chǎng)，我真的非常開(kāi)心

恩德里克：沒(méi)想到會(huì)在中場(chǎng)休息后登場(chǎng)，我真的非常開(kāi)心

懂球帝

2026-06-30 06:55:09

“奶茶袋子裝大疆！”初三女孩收禮變臉被罵，面相學(xué)果然權(quán)威！

“奶茶袋子裝大疆！”初三女孩收禮變臉被罵，面相學(xué)果然權(quán)威！

林林先生

2026-06-30 09:20:03

國(guó)家正式出手！住院護(hù)工大洗牌，以后老人看病不用子女熬夜

國(guó)家正式出手！住院護(hù)工大洗牌，以后老人看病不用子女熬夜

吃貨的分享

2026-06-28 22:06:00

逾4萬(wàn)手封單！800億龍頭，“一”字跌停

逾4萬(wàn)手封單！800億龍頭，“一”字跌停

新浪財(cái)經(jīng)

2026-06-30 10:24:50

演員吳啟華賣(mài)肖像權(quán)拍AI電影，稱完全不用親自拍攝，“終于又重溫一次當(dāng)男主的滋味”，并大方表示酬勞不錯(cuò)

演員吳啟華賣(mài)肖像權(quán)拍AI電影，稱完全不用親自拍攝，“終于又重溫一次當(dāng)男主的滋味”，并大方表示酬勞不錯(cuò)

洪觀新聞

2026-06-29 14:52:15

機(jī)器之心Pro

專業(yè)的人工智能媒體

13401文章數(shù) 142685關(guān)注度

往期回顧全部

科技要聞

iPhone18 Pro遭泄密！印度代工商惹禍

頭條要聞

日本隊(duì)世界杯出局后韓媒來(lái)勁了

頭條要聞

日本隊(duì)世界杯出局后韓媒來(lái)勁了

體育要聞

大熱倒灶壓力給到法國(guó) 王楚揭法國(guó)隊(duì)隱患

娛樂(lè)要聞

韓紅稱要退出公益，多位名人挽留

財(cái)經(jīng)要聞

韓國(guó)萬(wàn)億"芯"基建:存儲(chǔ)能否成AI時(shí)代油田

汽車(chē)要聞

奇瑞風(fēng)云A9探店五個(gè)理由一定來(lái)看看

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術(shù)

房產(chǎn)

游戲

親子

健康

藝術(shù)要聞

明代書(shū)壇的超級(jí)天才，僅用數(shù)年超越文徵明，隨便一字被文人雅士視為至寶！

房產(chǎn)要聞

等了三年！改善頂流實(shí)景交付，海口標(biāo)桿的的答卷來(lái)了！

游戲還沒(méi)發(fā)售就有“攻略書(shū)”了？AI瞎編20歐元一本

親子要聞

?閃閃小葵花成長(zhǎng)正當(dāng)時(shí)? 「尋找閃亮小主角」才藝展示活動(dòng) 沉浸式趣味闖關(guān)打卡，定格萌娃靈動(dòng)鮮活的高光成長(zhǎng)瞬間~

狂吃“糯嘰嘰”小心腸梗阻！

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡(jiǎn)介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報(bào) Complaint Center | 廉正舉報(bào) | 侵權(quán)投訴

無(wú)障礙瀏覽進(jìn)入關(guān)懷版

<blockquote id="o8wye"><td id="o8wye"></td></blockquote>

<td id="o8wye"><source id="o8wye"></source></td>

<td id="o8wye"></td>