无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

百億真實(shí)數(shù)據(jù),首個(gè)面向AI Infra的運(yùn)維智能體評(píng)測(cè)基準(zhǔn)正式開(kāi)源

0
分享至



機(jī)器之心發(fā)布

隨著全球智能體加速落地,算力需求呈指數(shù)級(jí)爆發(fā),以 GPU 為核心的 AI 基礎(chǔ)設(shè)施正變得愈發(fā)關(guān)鍵。據(jù)摩根士丹利報(bào)告預(yù)測(cè),2028 年全球 AI 基礎(chǔ)設(shè)施累計(jì)總投資將達(dá) 2.9 萬(wàn)億美元。然而,根據(jù)行業(yè)通用成本結(jié)構(gòu)測(cè),其中由運(yùn)維人力、故障損失與集群閑置構(gòu)成的成本占比可高達(dá) 15%~20%,全行業(yè)潛在的可優(yōu)化空間超過(guò) 4350 億美元。

作為全球領(lǐng)先的 AI 基礎(chǔ)設(shè)施服務(wù)商,無(wú)問(wèn)芯穹早在去年 10 月便率先啟動(dòng)研發(fā)并成功部署早期版本的運(yùn)維智能體。實(shí)踐表明,相比傳統(tǒng)人工運(yùn)維,智能體顯著提升了整體運(yùn)維效率:工單平均處理時(shí)長(zhǎng)縮短 50%,關(guān)鍵故障處理效率提升約 6 倍;運(yùn)維人員得以從重復(fù)性的排查工作中解放,人效提升 5 倍以上,綜合運(yùn)維成本下降約 30%,為大規(guī)模 GPU 訓(xùn)練與推理業(yè)務(wù)提供了更加穩(wěn)定、高效的基礎(chǔ)設(shè)施保障。

但究竟什么樣的運(yùn)維智能體才是 “好用” 的智能體?

AI 集群運(yùn)維是一個(gè)極具挑戰(zhàn)性的場(chǎng)景,涉及復(fù)雜的系統(tǒng)知識(shí)、工具調(diào)用以及長(zhǎng)鏈路推理,是對(duì)智能體能力的綜合考驗(yàn)。過(guò)去對(duì)模型的評(píng)估看重語(yǔ)言能力,而當(dāng) AI 進(jìn)入基礎(chǔ)設(shè)施領(lǐng)域后,“能否解決實(shí)際問(wèn)題” 已成為核心評(píng)判標(biāo)準(zhǔn) —— 它最終會(huì)影響到每一度電、每一張 GPU 卡的產(chǎn)出效率。

基于此,中國(guó)信息通信研究院(簡(jiǎn)稱 “中國(guó)信通院”)推出了首個(gè)面向 AI Infra 運(yùn)維的智能體評(píng)測(cè)基準(zhǔn) ——AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn),而無(wú)問(wèn)芯穹作為重點(diǎn)技術(shù)支持單位參與了基準(zhǔn)建設(shè),基于積累的近百億條真實(shí)運(yùn)維數(shù)據(jù),為智能體在智算運(yùn)維場(chǎng)景的落地定義了問(wèn)題并提供了一個(gè)可參考的基線。

和傳統(tǒng) Benchmark 不同,AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)并不關(guān)注模型 “說(shuō)得多好”,而是關(guān)注它 “能不能把事情做成”。

我們希望通過(guò)這套基準(zhǔn)測(cè)試開(kāi)源,與行業(yè)共同探索智能體在 AI 原生基礎(chǔ)設(shè)施運(yùn)維領(lǐng)域的能力邊界,推動(dòng) “AI for Infra” 與 “Infra for AI” 的雙向賦能與協(xié)同進(jìn)化。

  • 開(kāi)源地址:https://gitee.com/aishperf-caict/aishperf_openness
  • 配套故障模擬器:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos
  • 運(yùn)維數(shù)據(jù)集:https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl
  • 評(píng)測(cè)框架:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval

01

不再紙上談兵,讓運(yùn)維智能體真正解決現(xiàn)實(shí)中多樣化的生產(chǎn)問(wèn)題

2025 年 4 月 7 日,無(wú)問(wèn)芯穹某客戶反饋訓(xùn)練任務(wù)出現(xiàn)無(wú)規(guī)律的劇烈性能波動(dòng),我們的基礎(chǔ)設(shè)施團(tuán)隊(duì)第一時(shí)間介入,先后排查了網(wǎng)絡(luò)鏈路、存儲(chǔ)性能、節(jié)點(diǎn)硬件狀態(tài)等所有常規(guī)維度,均未發(fā)現(xiàn)異常。為了定位這個(gè) “幽靈故障”,團(tuán)隊(duì)前后投入 7 名資深研發(fā)運(yùn)維人員,連續(xù)奮戰(zhàn) 15 天,從用戶訓(xùn)練框架的模型切分策略,一路向下排查到網(wǎng)絡(luò)協(xié)議、存儲(chǔ)參數(shù)配置,最終才在一個(gè)極其隱蔽的邊緣場(chǎng)景中發(fā)現(xiàn):?jiǎn)栴}根源與存儲(chǔ)系統(tǒng)的預(yù)期緩沖機(jī)制設(shè)計(jì)存在偏差。

這場(chǎng)持續(xù)半個(gè)月的故障,累計(jì)消耗 105 人天的研發(fā)運(yùn)維人力,256 臺(tái)服務(wù)器全程處于閑置空轉(zhuǎn)狀態(tài)。

若排查周期再進(jìn)一步拉長(zhǎng)、故障持續(xù)發(fā)酵,將直接導(dǎo)致大規(guī)模資源空轉(zhuǎn)、客戶訓(xùn)練進(jìn)度停滯,甚至?xí)斐蔀?zāi)難性的業(yè)務(wù)停擺與資產(chǎn)損失。而像這樣隱蔽、復(fù)雜、跨技術(shù)棧的故障,在基礎(chǔ)設(shè)施服務(wù)商的日常中并不罕見(jiàn)。

正是基于無(wú)數(shù)次這樣苦澀的實(shí)戰(zhàn)教訓(xùn),我們想將碎片化運(yùn)維經(jīng)驗(yàn)結(jié)構(gòu)化、標(biāo)準(zhǔn)化,為運(yùn)維智能體明確核心問(wèn)題邊界,并提供一套可執(zhí)行的評(píng)測(cè)基準(zhǔn)。

本次基準(zhǔn)全程由領(lǐng)域?qū)<抑鲗?dǎo)評(píng)測(cè),邀請(qǐng)了多位資深運(yùn)維專家對(duì)數(shù)據(jù)進(jìn)行精細(xì)標(biāo)注與嚴(yán)格篩選,確保每一條問(wèn)題都具備真實(shí)生產(chǎn)價(jià)值與高質(zhì)量評(píng)測(cè)意義。

(一)真實(shí)生產(chǎn)場(chǎng)景的數(shù)據(jù)積淀

AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)源自無(wú)問(wèn)芯穹自成立以來(lái)積累的百億條真實(shí)運(yùn)維,篩選后獲得十萬(wàn)條場(chǎng)景真實(shí)、鏈路完整、信息完備的有效數(shù)據(jù),經(jīng)過(guò)嚴(yán)格的三階段數(shù)據(jù)工程處理,最終抽象合成為 103 條高質(zhì)量、高保真的評(píng)測(cè)用例。

我們收集了 2024 年至 2026 年 1 月的全部用戶工單及其關(guān)聯(lián)的 IM 話題與文檔附件,以及所有線上集群的監(jiān)控告警數(shù)據(jù)。通過(guò)過(guò)濾低質(zhì)內(nèi)容、去重、脫敏等嚴(yán)格的數(shù)據(jù)清洗流程,剔除了客戶需求、未查明原因、與平臺(tái)邏輯強(qiáng)耦合等不適合作為通用評(píng)測(cè)的內(nèi)容,最終保留了無(wú)重復(fù)、高質(zhì)量、信息安全的問(wèn)題樣本。每條用例都包含真實(shí)的問(wèn)題現(xiàn)象、完整的排查鏈路和明確的故障根因,確保評(píng)測(cè)結(jié)果能夠真實(shí)反映智能體在生產(chǎn)環(huán)境中的實(shí)際表現(xiàn)。



(二)多樣化的跨層棧問(wèn)題覆蓋

AI 原生基礎(chǔ)設(shè)施平臺(tái)的運(yùn)維復(fù)雜度遠(yuǎn)超傳統(tǒng) IT 基礎(chǔ)設(shè)施,故障可能發(fā)生在從裸金屬硬件到上層訓(xùn)推框架的任何一層。

因此,該基準(zhǔn)打通了從底層硬件故障到用戶側(cè)軟件 Bug 的全鏈路問(wèn)題,囊括多種表現(xiàn)形式、故障根因和修復(fù)方案,不僅全面涵蓋網(wǎng)絡(luò)、GPU、宿主機(jī)、云原生平臺(tái)等傳統(tǒng)運(yùn)維領(lǐng)域,更首創(chuàng)性地納入了 AI 原生領(lǐng)域的大模型訓(xùn)練、推理關(guān)鍵問(wèn)題。同時(shí)問(wèn)題覆蓋天數(shù)、壁仞、沐曦、摩爾、昇騰 5 種國(guó)產(chǎn)芯片,真正實(shí)現(xiàn)了多維度、多層次、多樣化的問(wèn)題場(chǎng)景全觸達(dá)。

我們按照技術(shù)棧層級(jí)將問(wèn)題劃分為宿主機(jī)、高性能設(shè)備、容器平臺(tái)、訓(xùn)推腳本、安全與運(yùn)營(yíng)商五大類,涵蓋44種問(wèn)題現(xiàn)象和22個(gè)細(xì)分故障領(lǐng)域,基本覆蓋了真實(shí)運(yùn)維場(chǎng)景中可能遇到的所有情況。此外,所有問(wèn)題共分為3種難度級(jí)別,平均人工處理耗時(shí)為1.5小時(shí),充分保障了問(wèn)題的復(fù)雜性與挑戰(zhàn)性。



(三)開(kāi)放式的故障探索與處置

傳統(tǒng)的模型評(píng)測(cè)往往更像是筆試,側(cè)重考察知識(shí)記憶與標(biāo)準(zhǔn)答案復(fù)述。而AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)是一場(chǎng)實(shí)操考核,聚焦于考驗(yàn)智能體貼近生產(chǎn)環(huán)境的端到端問(wèn)題解決能力。

該基準(zhǔn)不明確指出故障根因,只提供真實(shí)的集群環(huán)境和有限的問(wèn)題現(xiàn)象描述,要求智能體自主探索、自主排查、自主修復(fù)。這對(duì)智能體提出了極高要求:必須理解從物理設(shè)備到上層軟件實(shí)現(xiàn)的多層復(fù)雜技術(shù)棧,能夠正確與真實(shí)環(huán)境交互,高效處理長(zhǎng)上下文信息,并在復(fù)雜場(chǎng)景中完成多跳推理與決策。



例如,針對(duì) “訓(xùn)練任務(wù)卡死” 這一常見(jiàn)問(wèn)題,評(píng)測(cè)系統(tǒng)會(huì)注入特定故障,并啟動(dòng)一個(gè)開(kāi)發(fā)機(jī)容器,其中包含隱藏了源代碼的訓(xùn)練腳本。智能體只會(huì)收到一段描述訓(xùn)練任務(wù)卡死的客戶反饋和復(fù)現(xiàn)方式,必須自行復(fù)現(xiàn)問(wèn)題、排查可能的原因、驗(yàn)證假設(shè)并最終修復(fù)故障。這種開(kāi)放式的評(píng)測(cè)方式,能夠真正檢驗(yàn)智能體的自主決策能力和問(wèn)題解決能力,而不僅僅是知識(shí)記憶能力。

02

配套利器:GPU 集群故障模擬工程

在大規(guī)模 GPU 集群的運(yùn)維實(shí)踐中,如何在不破壞生產(chǎn)環(huán)境的前提下驗(yàn)證系統(tǒng)的故障恢復(fù)能力,一直是行業(yè)普遍面臨的棘手挑戰(zhàn)。物理硬件故障注入成本極高、速度慢且不可重復(fù),而脫離真實(shí)集群,用純軟件模擬又存在真實(shí)度不足的問(wèn)題。

為了解決這一難題,AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)配套提供了 AIops-Chaos—— 一個(gè)專為 GPU 集群設(shè)計(jì)的混沌工程項(xiàng)目。其核心思路是通過(guò)軟件層精準(zhǔn)模擬各類硬件故障場(chǎng)景,包括 GPU 掉卡、顯存錯(cuò)誤、NVLink 故障、網(wǎng)絡(luò)分區(qū)等典型異常,同時(shí)結(jié)合真實(shí)的業(yè)務(wù)負(fù)載構(gòu)造高保真的測(cè)試環(huán)境。這種 “軟件模擬 + 真實(shí)集群” 的模式,既避免了物理?yè)p壞帶來(lái)的高昂代價(jià),又確保了故障注入的可控性與可重復(fù)性。



在工程實(shí)現(xiàn)上,AIops-Chaos 針對(duì) GPU 與 RDMA 等智算集群的故障場(chǎng)景,采用了創(chuàng)新的技術(shù)方案:

  • GPU 故障模擬:通過(guò)劫持 nvml 庫(kù),實(shí)現(xiàn)了支持注入多種 GPU 故障的 nvidia-smi,包括溫度異常、掉卡、頻率異常、風(fēng)扇故障等
  • RDMA 故障模擬:端側(cè)故障直接操作物理機(jī);對(duì)交換機(jī)故障,采用 rdma hostmesh 作為可觀測(cè)方案,通過(guò)構(gòu)造故障指標(biāo)來(lái)模擬

AIops-Chaos 展現(xiàn)出了高效、低成本、快速的優(yōu)勢(shì)。僅需一臺(tái) GPU + 多軌 RoCE NIC 服務(wù)器,即可支持構(gòu)造多機(jī)任務(wù)故障現(xiàn)象,并實(shí)現(xiàn)分鐘級(jí)的故障編排與自動(dòng)化恢復(fù)驗(yàn)證。

03

科學(xué)量化:一個(gè)多維度評(píng)估體系

(一)評(píng)估指標(biāo)

AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)采用多維度綜合評(píng)估體系,評(píng)估的指標(biāo)以結(jié)果為導(dǎo)向,分為主指標(biāo)與輔助指標(biāo)。不僅關(guān)注智能體解決問(wèn)題的正確率,還全面考量時(shí)延、Token 消耗、工具調(diào)用效率等關(guān)鍵指標(biāo)。

1.1 主指標(biāo):綜合得分

主指標(biāo)為綜合得分,用于衡量智能體在整個(gè)運(yùn)維任務(wù)集上的總體解決能力。



要獲得更高的分?jǐn)?shù),必須做對(duì)中等和困難題目。

1.2 輔助指標(biāo):平均耗時(shí)、平均 Token 消耗與工具調(diào)用次數(shù)

輔助指標(biāo)由平均耗時(shí)與平均 Token 消耗構(gòu)成,用于評(píng)估智能體解決實(shí)際問(wèn)題的時(shí)效性與成本。

  • 我們用平均耗時(shí)用于衡量智能體在完成任務(wù)時(shí)的時(shí)延表現(xiàn),單位為秒 / 任務(wù)。時(shí)延定義為從開(kāi)始調(diào)用智能體到智能體返回最終結(jié)論的耗時(shí)。
  • 我們用平均 Token 消耗衡量智能體完成任務(wù)的資源成本,單位為Token / 任務(wù)
  • 如果智能體不調(diào)用工具,直接猜答案,即使答案正確,也會(huì)判為錯(cuò),用來(lái)確保智能體是實(shí)際與環(huán)境交互后推理出答案。



(二)評(píng)估框架

當(dāng)前社區(qū)的評(píng)測(cè)工具普遍存在三大痛點(diǎn):缺乏對(duì)各類智能體應(yīng)用的統(tǒng)一接口支持、僅關(guān)注最終答案而缺少對(duì)中間過(guò)程的細(xì)粒度評(píng)測(cè)、不包含環(huán)境定義與構(gòu)造流程。

為了解決這些問(wèn)題,我們開(kāi)發(fā)了AIops-Eval—— 一個(gè)端到端的智能體評(píng)測(cè)工具鏈。它包含五個(gè)核心子模塊:

  • User 模塊:負(fù)責(zé)與智能體交互,支持?jǐn)?shù)據(jù)集驅(qū)動(dòng)的固定輸入和 LLM 驅(qū)動(dòng)的真實(shí)用戶模擬
  • Agent 模塊:待評(píng)測(cè)對(duì)象,原生支持本地 LLM 和基于 langgraph 構(gòu)建的本地智能體,并預(yù)留了遠(yuǎn)程智能體接口
  • Env 模塊:為智能體提供交互環(huán)境,負(fù)責(zé)每輪測(cè)例前后的環(huán)境構(gòu)造與清理
  • Evaluator 模塊:對(duì)智能體的完整軌跡進(jìn)行評(píng)測(cè),支持自定義規(guī)則評(píng)測(cè)和 LLM-as-a-judge 評(píng)測(cè)
  • Tracing 模塊:基于開(kāi)源的 langfuse 實(shí)現(xiàn),完整采集智能體的執(zhí)行軌跡



04

實(shí)測(cè)驗(yàn)證

我們對(duì)基于 ReAct loop 的簡(jiǎn)單智能體進(jìn)行了全面測(cè)試。測(cè)試使用了多款不同大小的國(guó)內(nèi)外主流模型,同時(shí)為了公平測(cè)試模型自身的長(zhǎng)程多跳推理能力,智能體只使用 shell 工具,且無(wú)法連接互聯(lián)網(wǎng)進(jìn)行搜索。下圖展示了不同模型的總得分與時(shí)延,以及模型與人類的對(duì)比:



從圖中可以看出:

  • 所有模型的總得分均在 50 分以下但達(dá)到了數(shù)量級(jí)的時(shí)效性提高
  • 成功率相比人類運(yùn)維專家仍有差距

下面的圖展示了不同難度分類下各模型的表現(xiàn):



不同難度的正確率



不同難度 tool call 時(shí)間占比



不同難度 token 消耗

  • 中等與困難難度上,所有模型的正確率均小于 50%,意味著即使是旗艦?zāi)P停搽y以穩(wěn)定、出色的解決復(fù)雜運(yùn)維問(wèn)題。
  • 面對(duì)困難問(wèn)題,tool call 時(shí)間占比顯著增加,但正確率下降,意味著模型無(wú)法精準(zhǔn)有效的采集信息。
  • 不同難度問(wèn)題的 Token 消耗沒(méi)有數(shù)量級(jí)差別,意味著在運(yùn)維領(lǐng)域,面對(duì)簡(jiǎn)單問(wèn)題,智能體無(wú)法像人類一樣快速做出精確判斷。

下面的圖展示了模型對(duì)不同技術(shù)棧的任務(wù)的表現(xiàn):



不同技術(shù)棧任務(wù)的正確率



不同技術(shù)棧 token 消耗

  • 模型更善于處理單純的代碼類 bug,而在硬件故障上,模型的正確率普遍低,Token 消耗更高,意味著模型對(duì)于硬件故障的置信度不夠高,傾向于反復(fù)思考和確認(rèn),這代表智能體與運(yùn)維專家的技能可能存在正交性。

基于上述對(duì)大量測(cè)試軌跡的分析,我們總結(jié)出智能體在解決運(yùn)維問(wèn)題時(shí)的幾種典型失敗模式:

1.處理任務(wù)的穩(wěn)定性不足:模型可能生成不符合工具調(diào)用解析規(guī)則的 Token,導(dǎo)致智能體執(zhí)行異常終止;也可能違反輸出格式要求或執(zhí)行禁止的危險(xiǎn)操作,導(dǎo)致任務(wù)無(wú)法得分。

2.推理鏈的質(zhì)量差:模型可能治標(biāo)不治本的臨時(shí)方案來(lái)達(dá)到表面上的修復(fù)效果;可能輸出看似合理但經(jīng)不起推敲的推理過(guò)程;可能只輸出寬泛的排障思路,不經(jīng)過(guò)考證就直接給出結(jié)論。

3.決策與執(zhí)行不夠安全:模型可能執(zhí)行危險(xiǎn)的工具調(diào)用,執(zhí)行過(guò)程卡死,導(dǎo)致整個(gè)物理環(huán)境崩潰,甚至需要運(yùn)維人員人工介入才可恢復(fù)。

05

實(shí)踐思考與未來(lái)展望

過(guò)去一年 AI 的發(fā)展態(tài)勢(shì)有目共睹,從大模型到智能體,從訓(xùn)練到推理,行業(yè)正在形成一個(gè)共同的認(rèn)知:技術(shù)發(fā)展的瓶頸早已不再局限于模型層,底層算力基礎(chǔ)設(shè)施同樣是決定產(chǎn)業(yè)上限的關(guān)鍵要素。AI 系統(tǒng)本質(zhì)上已經(jīng)演變成一座 “Token 工廠”:模型是生產(chǎn)邏輯,數(shù)據(jù)是原材料,而 GPU 集群則是生產(chǎn)設(shè)備,工廠的最終產(chǎn)出是一個(gè)個(gè) Token。但當(dāng)我們將視角下沉到更底層,就會(huì)發(fā)現(xiàn)一個(gè)更現(xiàn)實(shí)的問(wèn)題:“Token 工廠” 遠(yuǎn)沒(méi)有想象中那么高效。

AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)正是基于我們長(zhǎng)期在 AI 基礎(chǔ)設(shè)施領(lǐng)域建設(shè)與實(shí)踐的經(jīng)驗(yàn),針對(duì) Token 工廠全棧提效的階段性思考與探索成果。AI 正在重塑基礎(chǔ)設(shè)施,基礎(chǔ)設(shè)施也在反過(guò)來(lái)決定 AI 的效率上限。在這兩者不斷交織的過(guò)程中,我們希望此次的工作能夠成為一個(gè)小的起點(diǎn),讓 “系統(tǒng)自己解決問(wèn)題” 這件事,變得更可衡量,也更可實(shí)現(xiàn)。

此次開(kāi)源只是一個(gè)開(kāi)始,未來(lái)仍有大量工作可深入挖掘。

我們將持續(xù)合成更豐富、高質(zhì)量的數(shù)據(jù),覆蓋更多技術(shù)棧與領(lǐng)域,更全面地捕捉智能體的運(yùn)維能力演進(jìn)趨勢(shì);并同步完善 AIops-chaos 混沌工程,實(shí)現(xiàn)更豐富、真實(shí)、魯棒的故障注入,為智能體搭建更完善可信的故障模擬環(huán)境,提升數(shù)據(jù)集豐富度與評(píng)測(cè)結(jié)果可靠性。

同時(shí),我們將在評(píng)測(cè)框架上做更開(kāi)放的支持。目前我們測(cè)試的 Baseline Agent 基于 ReAct 范式構(gòu)建。后續(xù)將逐步擴(kuò)展評(píng)測(cè)框架的適配能力,讓不同類型的智能體都可以無(wú)縫接入,而不是被限制在某一種范式下進(jìn)行對(duì)比。

立足當(dāng)下國(guó)產(chǎn)芯片大力發(fā)展、國(guó)產(chǎn) GPU 集群建設(shè)日益蓬勃的產(chǎn)業(yè)背景,面向國(guó)產(chǎn) GPU 集群的運(yùn)維工作愈發(fā)關(guān)鍵,新問(wèn)題與挑戰(zhàn)也將隨之增加。我們將不斷在評(píng)測(cè)集中拓展面向國(guó)產(chǎn)芯片集群運(yùn)維的特定場(chǎng)景及問(wèn)題,填補(bǔ)國(guó)產(chǎn)智算運(yùn)維評(píng)測(cè)領(lǐng)域的空白,從而有效助力國(guó)產(chǎn)芯片集群運(yùn)維能力的智能化升級(jí)。

我們將持續(xù)深化與中國(guó)信息通信研究院、清華大學(xué)等產(chǎn)學(xué)研機(jī)構(gòu)的技術(shù)協(xié)同,同時(shí)也期待著每一位社區(qū)開(kāi)發(fā)者的加入共建,共同推動(dòng)運(yùn)維智能體技術(shù)穩(wěn)步發(fā)展并成為整個(gè)行業(yè)共享的能力。

如果說(shuō)目前完成的工作是在回答 “什么是一個(gè)好用的運(yùn)維智能體”,那么接下來(lái),我們更想與行業(yè)一起探索的是 ——在真實(shí)世界中,這件事情還能走多遠(yuǎn)。我們期待 AISHPerf - 智算運(yùn)維智能體評(píng)測(cè)基準(zhǔn)可以不止于一款 “評(píng)測(cè)工具”,而是逐步演進(jìn)為 AI 集群運(yùn)維智能體能力的公共基線。不同團(tuán)隊(duì)可以在同一套標(biāo)準(zhǔn)下驗(yàn)證能力、對(duì)齊認(rèn)知,甚至推動(dòng)一些最佳實(shí)踐的沉淀。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
確認(rèn)徹底告別德國(guó)隊(duì),諾伊爾:是的,以這種方式結(jié)束很痛苦

確認(rèn)徹底告別德國(guó)隊(duì),諾伊爾:是的,以這種方式結(jié)束很痛苦

懂球帝
2026-06-30 18:49:08
23歲女子想再睡一次情夫,情夫怕妻子得知奸情,2010年將女子殺死

23歲女子想再睡一次情夫,情夫怕妻子得知奸情,2010年將女子殺死

情感藝術(shù)家
2026-06-30 06:50:11
腦梗跟喝水有關(guān)?醫(yī)生含淚勸告:60歲后,夏天喝水要注意這4件事

腦梗跟喝水有關(guān)?醫(yī)生含淚勸告:60歲后,夏天喝水要注意這4件事

芹姐說(shuō)生活
2026-06-30 19:16:00
悲哀!帶4孩留守女子痛斥,打工丈夫發(fā)工資轉(zhuǎn)4200,自己留3000多

悲哀!帶4孩留守女子痛斥,打工丈夫發(fā)工資轉(zhuǎn)4200,自己留3000多

火山詩(shī)話
2026-06-30 10:32:13
相聲界集體炮轟走面兒,韓紅關(guān)閉評(píng)論,基金會(huì)大量捐贈(zèng)人斷捐

相聲界集體炮轟走面兒,韓紅關(guān)閉評(píng)論,基金會(huì)大量捐贈(zèng)人斷捐

可愛(ài)小菜
2026-06-27 19:25:04
為親人喊冤14年的河南農(nóng)婦,終于把自己也喊進(jìn)了監(jiān)獄

為親人喊冤14年的河南農(nóng)婦,終于把自己也喊進(jìn)了監(jiān)獄

塔子山評(píng)說(shuō)
2026-06-29 16:49:51
剛剛,金價(jià)破位大跌!高盛看多:牛市未結(jié)束

剛剛,金價(jià)破位大跌!高盛看多:牛市未結(jié)束

金融界
2026-06-30 11:53:37
蘇提達(dá)巴黎出盡風(fēng)頭!73歲布麗吉特發(fā)型翻車(chē),泰王冷臉看女兒下跪

蘇提達(dá)巴黎出盡風(fēng)頭!73歲布麗吉特發(fā)型翻車(chē),泰王冷臉看女兒下跪

白露文娛志
2026-06-30 15:19:46
愛(ài)沙尼亞政府表示只要烏軍無(wú)人能夠打擊俄羅斯就為烏開(kāi)放領(lǐng)空

愛(ài)沙尼亞政府表示只要烏軍無(wú)人能夠打擊俄羅斯就為烏開(kāi)放領(lǐng)空

水雲(yún)鶴
2026-06-30 19:16:02
1400萬(wàn)成本狂攬19億,王晶向太勸不住,《給阿公的牛肉丸》開(kāi)機(jī)了

1400萬(wàn)成本狂攬19億,王晶向太勸不住,《給阿公的牛肉丸》開(kāi)機(jī)了

東方不敗然多多
2026-06-30 01:04:26
小仙女為了8000元“舉報(bào)全班師生”,老師被停職,全班學(xué)生延畢

小仙女為了8000元“舉報(bào)全班師生”,老師被停職,全班學(xué)生延畢

妍妍教育日記
2026-06-28 08:10:07
澤連斯基絕望了,話說(shuō)得非常凄慘!俄軍瘋狂下死手,美露出真面目

澤連斯基絕望了,話說(shuō)得非常凄慘!俄軍瘋狂下死手,美露出真面目

碧海孤航
2026-06-30 11:00:09
蜱蟲(chóng)鉆入孩子皮膚,媽媽“兩拒絕一動(dòng)作”救了娃,醫(yī)生夸她做得好

蜱蟲(chóng)鉆入孩子皮膚,媽媽“兩拒絕一動(dòng)作”救了娃,醫(yī)生夸她做得好

菁媽育兒
2026-06-27 18:49:27
蘇提達(dá)王后與布麗吉特同穿淺粉造型,同框互動(dòng)盡顯優(yōu)雅默契

蘇提達(dá)王后與布麗吉特同穿淺粉造型,同框互動(dòng)盡顯優(yōu)雅默契

墨薷桃桃
2026-06-30 12:37:05
2026世界杯驚天場(chǎng)外丑聞!5名國(guó)腳接連涉案,足壇遮羞布被撕碎

2026世界杯驚天場(chǎng)外丑聞!5名國(guó)腳接連涉案,足壇遮羞布被撕碎

老歐講大案
2026-06-30 11:48:30
恩德里克:沒(méi)想到會(huì)在中場(chǎng)休息后登場(chǎng),我真的非常開(kāi)心

恩德里克:沒(méi)想到會(huì)在中場(chǎng)休息后登場(chǎng),我真的非常開(kāi)心

懂球帝
2026-06-30 06:55:09
“奶茶袋子裝大疆!”初三女孩收禮變臉被罵,面相學(xué)果然權(quán)威!

“奶茶袋子裝大疆!”初三女孩收禮變臉被罵,面相學(xué)果然權(quán)威!

林林先生
2026-06-30 09:20:03
國(guó)家正式出手!住院護(hù)工大洗牌,以后老人看病不用子女熬夜

國(guó)家正式出手!住院護(hù)工大洗牌,以后老人看病不用子女熬夜

吃貨的分享
2026-06-28 22:06:00
逾4萬(wàn)手封單!800億龍頭,“一”字跌停

逾4萬(wàn)手封單!800億龍頭,“一”字跌停

新浪財(cái)經(jīng)
2026-06-30 10:24:50
演員吳啟華賣(mài)肖像權(quán)拍AI電影,稱完全不用親自拍攝,“終于又重溫一次當(dāng)男主的滋味”,并大方表示酬勞不錯(cuò)

演員吳啟華賣(mài)肖像權(quán)拍AI電影,稱完全不用親自拍攝,“終于又重溫一次當(dāng)男主的滋味”,并大方表示酬勞不錯(cuò)

洪觀新聞
2026-06-29 14:52:15
2026-06-30 19:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13401文章數(shù) 142685關(guān)注度
往期回顧 全部

科技要聞

iPhone18 Pro遭泄密!印度代工商惹禍

頭條要聞

日本隊(duì)世界杯出局后 韓媒來(lái)勁了

頭條要聞

日本隊(duì)世界杯出局后 韓媒來(lái)勁了

體育要聞

大熱倒灶壓力給到法國(guó) 王楚揭法國(guó)隊(duì)隱患

娛樂(lè)要聞

韓紅稱要退出公益,多位名人挽留

財(cái)經(jīng)要聞

韓國(guó)萬(wàn)億"芯"基建:存儲(chǔ)能否成AI時(shí)代油田

汽車(chē)要聞

奇瑞風(fēng)云A9探店 五個(gè)理由一定來(lái)看看

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
游戲
親子
健康

藝術(shù)要聞

明代書(shū)壇的超級(jí)天才,僅用數(shù)年超越文徵明,隨便一字被文人雅士視為至寶!

房產(chǎn)要聞

等了三年!改善頂流實(shí)景交付,海口標(biāo)桿的的答卷來(lái)了!

游戲還沒(méi)發(fā)售就有“攻略書(shū)”了?AI瞎編20歐元一本

親子要聞

?閃閃小葵花 成長(zhǎng)正當(dāng)時(shí)? 「尋找閃亮小主角」才藝展示活動(dòng) 沉浸式趣味闖關(guān)打卡,定格萌娃靈動(dòng)鮮活的高光成長(zhǎng)瞬間~

狂吃“糯嘰嘰”小心腸梗阻!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版