6月29日,在中國信通院人工智能軟硬件協同創新與適配驗證中心、中國人工智能產業發展聯盟、工信部人工智能標準化技術委員會聯合主辦的2026“眾智”大模型開放智算生態協同高級別研討會中,中國信通院副院長魏亮,正式發布AISHPerf人工智能軟硬件基準體系3.0版本,包含兩項 AI Infra 領域核心評測基準——AISHPerf-智算運維智能體評測基準以及AISHPerf-算子生成智能體評測基準,兩大基準由國內頂尖AI原生基礎設施服務商無問芯穹及清華大學團隊作為重點技術支持方參與建設。
前者是首個面向 AI Infra 的運維智能體評測基準,依托百億級真實運維數據構建,核心考核智算運維智能體在真實生產場景中解決實際問題的落地能力。后者則跳出 “模型能否生成可運行 GPU 算子” 的基礎維度,將評測重心錨定在 “模型生成的算子能否在真實量化推理部署中替代現有算子” 的工程可部署性上,更貼合產業實際落地需求。二者從底層算力優化到上層集群運維,共同為智算產業的標準化升級與高質量發展提供了統一的能力參照框架。
![]()
AISHPerf(Performance Benchmarks of Artificial Intelligence Software and Hardware)是中國信通院與人工智能大模型及軟硬件評測工業和信息化部重點實驗室,依托人工智能軟硬件協同創新與適配驗證中心(位于國家信創園)聯合構建的人工智能軟硬件基準體系,旨在設置多維度指標,考察端到端方案對模型及應用場景的真實承載能力,系統評估軟硬件各層級間的協同優化水平、兼容適配能力及整體交付效能。
在此次發布的兩項基準中,AISHPerf-智算運維智能體評測基準尤為引人注目,它不僅標志著我國在智算集群運維智能體領域擁有了首個權威評測體系,更率先將國產芯片集群運維場景納入評測體系、填補了國產智算運維智能體評測領域的空白,為構建自主自治的新一代“Token工廠”提供了運維領域的技術方向與標準指引。
構建新標準:基于近百億條真實運維數據構造,從“紙上談兵”到“實戰考核”
隨著AI發展從“堆算力、拼規模”邁入以“Token效能”為核心的新階段,算力與電力投入已成為AI基礎設施的“基礎常量”,高效率、高質量的運維能力,則是決定Token產出與生產力轉化的“核心變量”。依托智能運維提升算力利用效率、壓降運營成本,已是 AI 產業發展的必然方向。而當前業內對運維智能體的評估多停留在語言問答能力層面的“紙上談兵”,往往更像是筆試,側重考察知識記憶與標準答案復述,而缺乏針對真實運維場景的“實戰考核”,無法反映智能體“能否解決實際問題”。
AISHPerf-智算運維智能體評測基準正是一套錨定真實生產場景的實操型評測體系。它以無問芯穹沉淀的近百億條真實運維數據為底座,經資深運維專家脫敏并精細標注和嚴格篩選,最終抽象提煉出103 條高保真、高質量的典型評測用例;同時打通從底層硬件故障到用戶側軟件 Bug 的全鏈路問題,構建起覆蓋5大技術棧、44種問題現象、22個細分故障領域、3種難度層級、6種國內外芯片(其中5種為國產芯片)的立體化科學評測體系。評測流程中不明確指出故障根因,只提供真實的集群環境和有限的問題現象描述,要求智能體完成自主探索、自主排查和自主修復。最終輸出時延、Token消耗、工具調用效率等關鍵維度的量化結果,全面客觀地評估運維智能體在真實生產環境中端到端解決問題的能力。
促進新發展:五種國產芯片覆蓋,為國產算力集群從“能用”邁向“好用”提供標準基礎
作為我國智算產業自主可控的核心底座,國產芯片近年來實現了從 “跟跑” 到部分領域 “并跑” 的關鍵跨越,已成為全國算力基礎設施體系的核心組成部分。據 IDC 統計,2025 年中國市場 AI 加速卡國產化率已突破四成,國產 GPU 集群規模進入快速擴容期。但相較于成熟的通用 GPU 生態,國產芯片在硬件架構、驅動體系、通信協議及框架適配等層面存在顯著技術差異,運維復雜度與難度更大,直接制約國產算力的 Token 產出效率與投產效益,成為國產算力從 “規模落地” 向 “效能釋放” 進階的核心瓶頸。
AISHPerf-智算運維智能體評測基準在設計之初便深度融入了對國產化生態的考量,率先在同類評測基準中納入包括“天數、壁仞、沐曦、摩爾、昇騰”5 種國產芯片集群運維的特定場景及典型問題測例,覆蓋國產 GPU 硬件故障、驅動適配、框架兼容、通信協議等典型運維痛點,首次為國產智算運維智能體建立起統一、可量化的評估標尺,填補了國產智算運維領域的標準空白。
![]()
未來,中國信通院將持續從標準研制、測試驗證、生態培育等方面推動基準產業應用,結合無問芯穹海量真實運維數據積累與智算運維技術實戰能力,不斷豐富國產芯片相關評測用例,構建更加體系化、全棧化的國產智算運維評測體系,一方面精準定位國產芯片集群運維的共性痛點與工程難點,牽引產業鏈上下游協同攻關、補短板強弱項;另一方面以標準化評測驅動運維智能化能力升級,推動國產算力集群真正實現從 “能用” 到 “好用、高效、穩產” 的質變,為我國智算產業自主可控與高質量發展筑牢底層標準支撐。
錨定新趨勢:指引AI基礎設施向自主自治的“Token工廠”升級
運維智能體的深度應用,正在推動 AI 基礎設施自身向“智能體”形態升級。未來的 AI 基礎設施,將是能夠自我感知、自我修復、自我迭代的自主自治系統。內置的運維智能體將以“管理者”的角色,根據訓練與推理需求自動調度資源、優化系統,實現算法與基礎設施的深度協同。去年以來,無問芯穹已在自有AI基礎設施中率先部署運維智能體,使工單平均處理時間縮短 50%,關鍵故障處理效率提升約 6 倍,使綜合運維成本下降了約 30%,在算力和電能不變的前提下,實現了 Token 產能的顯著提升。
AISHPerf-智算運維智能體評測基準將為 AI 基礎設施向更高階的“自主自治”范式演進奠定標準基礎。通過統一的評測體系,為構建高效、穩定、自主的智能運維體系提供指導,加速運維智能體在 AI 基礎設施中的規模化應用,實現 Token 產能的降本增效,讓每一度電、每一張 GPU 卡都能產出更多更高價值的 Token,助力打造持續輸出高質量、大規模、高效率AI生產力的“Token工廠”。
未來,中國信通院與無問芯穹、清華大學將深化產學研協同,迭代優化 AISHPerf-智算運維智能體評測基準,不斷擴充場景覆蓋維度、豐富數據集規模、提升評測結果的可靠性與權威性,推動其成為行業公認的 AI 集群運維智能體能力評估公共基線,牽引全行業優質運維智能體的技術迭代與規模化落地。與此同時,雙方也將持續拓展 AI Infra 全領域核心評測基準布局,構建起全棧的標準矩陣,為建設高效、綠色、自治的新一代 AI 基礎設施筑牢標準底座,助力我國智算產業穩步邁向高質量發展新階段。
開源地址:
https://gitee.com/aishperf-caict/aishperf_openness
配套故障模擬器:
https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos
運維數據集:
https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl
評測框架:
https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval
轉載來源:中國信通院
本文為量子位獲授權轉載,觀點僅為原作者所有。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.