![]()
2026年4月24日,美國布魯金斯學會發布了題為《我們如何才能更好地評估智能體?》(How can we best evaluate agentic AI?)的研究報告。該報告從一個根本性的治理悖論出發——“我們無法管理無法測量的東西”,系統梳理了2025年10月由來自政府、學術界、產業界和公民社會的四十余位專家共同參與的跨部門研討成果。報告的核心在于,測量手段的滯后,直接構成了對智能體進行可信治理的根本性障礙。該報告旨在彌合這一鴻溝,一方面推動建立對“何為智能體”的共識,另一方面為開發標準化、透明且可復現的評估方法制定研究路線圖。
一、智能體定義的困境
面對迅猛的技術迭代,全球范圍內對于智能體尚未形成共識性定義。部分論述將工具使用視為其核心特征,而更經典的表述則側重于系統感知環境、制定計劃并采取行動的能力,更有學者要求將連續學習作為判定智能體的必要條件。這種定義上的困境使得任何試圖將其固化為一套單一、靜態術語的努力都可能迅速過時,從而將未來的治理和評估體系鎖定在陳舊的概念模型上。
因此,必須放棄對智能體進行“是或否”的二元判定,轉而采納一種將其視為“能力光譜”的分析框架。在政策制定者眼中,糾纏于某個系統是否在術語上合格,遠不如聚焦于一組更具操作性的追問:該系統能執行哪些功能?其部署將開啟何種可能?它會引入哪些全新的脆弱性或失效模式?隨之而來的社會影響是什么?以及,評估者如何以一種有意義、可規模化、可靠且能被用戶與部署方理解的方式對其進行測量?沿著自主性、學習能力和目標導向性等維度來刻畫系統的特征,而非尋求一個僵化的標簽,能夠為治理與評估框架提供更大的魯棒性,確保其與技術的演進同步迭代,而非疲于追趕。
二、智能體核心評估的差距
當前對智能體的評估體系存在著深層的結構性缺口。一部分挑戰源自智能體交互式、目標驅動的本質屬性,另一部分則繼承對大語言模型的評估困境,但在智能體場景中被急劇放大。
在智能體帶來的獨特挑戰方面,最突出的問題是現有基準測試根本無法捕捉其可靠性及行為一致性。智能體系統常常在不同運行、不同環境和不同時間跨度內表現出隨機的、非確定性的行為。依賴單一靜態基準的準確率評分,無異于管中窺豹。因此,對智能體的評估仍處于“萊特兄弟階段”,即在受控條件下的驚艷展示,距離高風險現實領域所需的那種高度可靠性還有巨大落差。實驗室里的卓越成績并不能保證實踐中的穩健表現。此外,基于基準的評估無法替代現實世界的情境化測試。由于智能體通過與環境及用戶的持續交互來運作,其行為無法在封閉的基準測試中被全面描述。必須引入實地測試,包括受控試點、紅隊演練或真實用戶試用,以理解其如何追求目標、應對突發狀況以及與組織流程交互。對已部署系統的持續監測同樣關鍵,因為智能體行為可能隨環境變化而漂移。若基準表現無法預測實際部署行為,那么對智能體進行安全認證的證據基礎將始終是一個懸而未決的難題。最后,通用基準無法反映特定領域和情境的性能。智能體對使用環境、用戶行為極度敏感,有意義的評估亟需針對具體部署場景的定制化設計,并與領域專家深度合作。
若干挑戰則繼承自大語言模型評估,但在智能體領域危害更大。訓練數據污染會在基準測試中制造出模型具備強大泛化能力的假象,實際上只是死記硬背。對智能體而言,設計真正新穎的評估環境與工作流程會比單純設計題目更困難。而一旦基準分數成為開發者追逐的目標,古德哈特定律便即刻顯靈:“當一個指標成為目標,它就不再是個好指標。”開發者可能針對特定測試過度優化,造成在狹窄測試條件下表現優異,卻掩蓋了其在未知環境中的脆弱與危險行為,這一風險在智能體上尤為嚴峻。再者,僅關注準確率的指標遮蔽了成本與性能之間的權衡——智能體常常通過消耗巨量推理算力來提升表現,若評估體系不將性能、成本及其他維度代價合而觀之,便無法支撐有效的部署決策。
三、未來的研究方向
要實現對智能體的有效治理,評估框架必須超越僅以模型為中心的基準,去涵蓋系統行為、社會技術影響和公共利益風險。報告將未來的研究議程梳理為三個相互關聯的層面:技術基礎層、社會技術影響層,以及政府與公共利益主導的安全監督層。
在技術基礎層,研究界亟需將成熟的測量科學原理,如構念效度、內容效度和預測效度等,引入到智能體評估中,而非繼續在零散的基礎上開發臨時性的評估方法。同時,如何模擬人與智能體的交互是懸而未決的難題,因為人類行為無法被簡化為概率模型,開發不依賴于模擬人類行為的全新評估范式成為開放挑戰。此外,還需要探索針對記憶驅動的個性化智能體的評估新法,這些系統會因交互歷史而表現出截然不同的行為。執行長周期任務的評估同樣空白,當智能體從運行數小時延展至數周,如何評測其長期可靠性、行為漂移及錯誤的累積效應,尚無系統性方法。面對多智能體與分布式系統,當多個智能體在網絡中交互并追求部分對齊或競爭的目標時,其系統級涌現行為的預測與評估仍需深入研究。最后,系統級的安全與魯棒性評估要求超越模型本身,應去審視其腳手架、工具、接口和環境的層級化漏洞,理解安全缺陷如何在各層之間傳播。
在社會技術影響與部署決策層,研究重點在于建立可預測真實世界效能的預測有效性。需要為醫療、金融、關鍵基礎設施等高風險的專門領域,協同領域專家開發量身定制的評估協議。隨著智能體加速迭代,確保其決策速度不吞噬人類的有意義控制,要求評估必須包含交互界面設計、警報機制和決策支持工具。更宏觀地,評估還必須納入組織變革的成本、勞動力影響以及經濟、社會和制度層面的連鎖效應。而智能體部署的環境成本,尤其是那些采用高級推理和長周期規劃系統所消耗的龐大資源,目前仍在評估實踐中被嚴重忽視。
在治理與問責層面,核心挑戰在于如何分攤和落實責任。由于人工智能系統不具法律人格,清晰的審計日志和遙測機制便成為強化問責的命脈。研究需要明確記錄何種信息、在何種抽象層級上呈現,才能支持有效的外部審計、調查和合規檢查,同時避免令人類審查者陷入信息過載。更進一步,由于持續的評估與監測耗資巨大,僅僅依賴政府撥款和項目資助不足以維系一個健康的第三方評估產業生態。因此,探索可持續的資助模式與制度模型,確保第三方安全審計機構和平臺能夠穩健運行,已是一項關乎治理體系存亡的緊迫課題。
四、結論
綜上所述,評估智能體并非一個單純的技術挑戰,而是一個正在與系統能力及部署的組織環境共同演化的、根本性的社會技術難題。要提升評估框架在真實世界中的效用,必須打破學科壁壘,讓計算機科學家、社會科學家、法律學者、領域專家以及那些部署、使用并受智能體技術影響的利益相關者實現持續協作。評估工作應以人為本,而非試圖重新發明測量理論,應汲取政治學、心理學和醫學等成熟學科在測量復雜抽象現象方面的既有智慧與已知局限,最終為智能體的可信治理奠定測量科學的堅實基石。
免責聲明:本文轉自啟元洞見。文章內容系原作者個人觀點,本公眾號編譯/轉載僅為分享、傳達不同觀點,如有任何異議,歡迎聯系我們!
轉自丨啟元洞見
研究所簡介
國際技術經濟研究所(IITE)成立于1985年11月,是隸屬于國務院發展研究中心的非營利性研究機構,主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題,跟蹤和分析世界科技、經濟發展態勢,為中央和有關部委提供決策咨詢服務。“全球技術地圖”為國際技術經濟研究所官方微信賬號,致力于向公眾傳遞前沿技術資訊和科技創新洞見。
地址:北京市海淀區小南莊20號樓A座
電話:010-82635522
微信:iite_er
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.