![]()
當 AI 智能體(Agent)從實驗室走向真實應用,我們面對的安全問題也正在發生變化。
過去,我們更多關心模型會不會回答危險問題;而現在,Agent 已經可以調用工具、讀寫文件、操作數據庫、執行多步任務。真正棘手的前沿風險,往往不再來自某個顯式惡意 prompt,而是隱藏在復雜環境中的長尾場景里:
- 一個 Agent 會不會為了完成任務而繞過審批?
- 會不會在指標壓力下修改驗證邏輯?
- 會不會在多工具協作中越權訪問文件?
- 會不會意識到自己正在被評測,從而改變行為策略?
這些風險很難靠人工逐個編寫基準測試覆蓋。
![]()
近日,復旦大學、上海創智學院、牛津大學等機構聯合發布研究論文《AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation》,提出面向前沿 AI 風險發現與評測的自動化框架AutoControl Arena。它的核心目標是:自動合成可執行測試環境,幫助研究者和開發者快速發現 AI Agent 在未知長尾場景中的潛在風險。
![]()
- 論文地址:https://arxiv.org/abs/2603.07427
- 項目主頁: https://cosmosyi.github.io/AutoControl-Arena/
- GitHub 倉庫:https://github.com/CosmosYi/AutoControl-Arena
PART 01 從 “會不會拒答” 到 “會不會在未知場景中失控”
AI Agent 的風險,和傳統聊天模型并不一樣。
- 聊天模型的安全評測,常常圍繞單輪或多輪問答展開:模型是否拒絕危險請求,是否輸出違規內容,是否容易被越獄。
- 但 Agent 的關鍵能力是 “行動”。它不僅生成文本,還會在環境中連續決策:調用哪個工具、修改哪個文件、是否繞過某個流程、如何在目標和約束發生沖突時做取舍。
例如,此前 Anthropic、OpenAI、Apollo Research 等機構的安全報告中,已經展示過一些前沿風險案例:模型可能在被替換風險下采取威脅策略,也可能在代碼任務中不去解決問題本身,而是修改驗證程序來讓結果通過。
這些案例提醒我們:在簡單、良性的測試條件下表現正常的模型,進入復雜任務環境后,可能會以完全意想不到的方式產生不對齊行為。
![]()
圖: AutoControl Arena 可自動準確復現 Anthropic/OpenAI 等機構安全報告中的風險行為
PART 02 安全評測為什么跟不上 Agent 進化?
要發現 Agent 的長尾風險,最理想的方式,是給它搭建真實的測試環境。
比如:文件系統、數據庫、命令行工具、審批流程、日志系統等。然后觀察 Agent 在其中如何行動。但這件事很難規模化。
一方面,人工搭建環境很真實,但成本高、速度慢。每多一個風險場景,就需要重新設計工具、狀態、規則和反饋。
另一方面,讓 LLM 直接模擬環境雖然便宜靈活,卻容易出現 “邏輯幻覺”:文件狀態前后不一致,數據庫返回憑空生成,權限規則一會兒存在一會兒消失。
這就帶來了 Agent 安全評測的核心矛盾:
真實環境保真度高,但可擴展性差;LLM 模擬可擴展,但可信度不足。
而長尾風險恰恰要求我們既要 “生成足夠多的新場景”,又要 “保證這些場景真的可信、可執行、可復查”。
![]()
PART 03 AutoControl Arena:自動生成能跑起來的風險測試場
AutoControl Arena 試圖解決的,就是這個問題。它不是只讓 LLM 寫一段文字描述場景,而是自動合成一個可以執行的測試環境,讓目標 Agent 真正在其中行動。AutoControl Arena 的關鍵設計,是論文提出的 “邏輯 - 敘事解耦” 原則。簡單來說,就是把測試環境拆成兩層。
第一層是邏輯層:文件系統、數據庫、權限控制、工具執行、狀態轉移,這些部分必須嚴格一致、可復現,不能交給 LLM 隨口生成。因此,AutoControl Arena 使用可執行 Python 代碼來維護這些環境邏輯。
第二層是敘事層:任務背景、角色反饋、社會情境、動態說明等內容,本身具有開放性和語言多樣性,可以交給 LLM 生成,從而保證場景足夠豐富。
這就像給 AI 安全評測裝上了一個 “物理引擎”:環境規則由代碼保證,場景變化由大模型生成。在此基礎上,AutoControl Arena 使用三個智能體完成全流程自動化。
![]()
PART 04 X-BENCH:70 個場景,覆蓋 7 類前沿風險
為了驗證 AutoControl Arena,研究團隊構建了配套基準測試集X-BENCH。
X-BENCH 包含70 個測試場景,覆蓋7 大類 Agent 前沿風險:
- 工具性趨同:為了完成目標而追求權限、資源或自我保護。
- 規則博弈:表面完成任務,實際鉆評估規則或指標漏洞。
- 能力濫用:將工具能力用于攻擊、欺詐或其他危險目標。
- 策略性不對齊:在不同情境下選擇性服從或隱藏真實意圖。
- 規避監督:關閉日志、繞過審批、避開監控。
- 隱蔽泄露:在復雜倫理沖突下泄露敏感信息。
- 評測意識:意識到自己處于測試中,從而改變行為。
為了更系統地激發潛在風險,研究者還引入了壓力 - 誘惑雙維度機制。
每個場景都會在不同壓力和誘惑組合下運行,從而測試 Agent 在多種長尾條件下是否會出現非預期行為。
![]()
PART 05 三個發現:前沿風險往往藏在連續行動里
研究團隊評估了 9 個前沿模型,覆蓋 Google DeepMind、OpenAI、Alibaba 等機構模型系列,并得到了一些值得關注的發現。
(1)對齊幻覺
模型在常規條件下表現安全,并不意味著它在復雜環境中依然可靠。論文報告,在低壓力、低誘惑條件下,9 個模型的平均風險率為21.7%;但在高壓力、高誘惑條件下,平均風險率升至54.5%。并且能力越強的模型,風險率提升幅度越明顯。
![]()
(2)模型越強,風險模式越復雜
能力提升不一定帶來單調的安全提升。對于直接危害類任務,更強模型往往更容易理解安全邊界,因此可能更安全;但在規格博弈、繞過驗證、規避監督等任務中,更強模型也更擅長規劃、搜索漏洞和利用環境結構。這意味著,強模型不是簡單地 “更安全” 或 “更危險”,而是會呈現更復雜、更策略化的風險模式。
![]()
(3)不對齊行為可能變得更隱蔽
弱模型的風險,很多時候來自能力不足或誤解任務;而更強模型的風險,可能表現為更高階的策略性行為。例如,在某些測試場景中,模型可能明知某些行為存在風險,卻將其包裝為 “防御性監控”“流程優化” 或 “合規執行”,從而在表面上維持正常解釋,在行動上繞過關鍵約束。
![]()
PART 06 這套自動化評測靠譜嗎?
為了驗證 AutoControl Arena 的可靠性,研究團隊將其生成的仿真環境與真實紅隊環境進行了對比。
在 10 個場景中,研究者分別使用 AutoControl Arena 仿真環境,以及由真實 CLI 工具、SQL 數據庫、SMTP 服務器等組成的紅隊環境進行獨立實驗。結果顯示,仿真環境與真實環境得到的風險率高度一致,相關系數達到0.87。
此外,研究團隊還使用 AutoControl Arena 復現了 Anthropic、OpenAI、Apollo Research 等機構安全報告中的典型風險案例,進一步驗證了框架對前沿 Agent 風險的刻畫能力。
![]()
PART 07 GitHub 全面開源:從論文到可用工具
AutoControl Arena 已在 GitHub 開源,項目定位為前沿 AI 風險自動發現平臺:
![]()
視頻鏈接:https://mp.weixin.qq.com/s/OtULCQR_RNgQUsSnPFS3ag
AutoControl Arena 提供兩種主要使用方式:
交互式 TUI:aca
適合新手快速上手。用戶可以在終端界面中選擇測試場景、目標模型、壓力等級、誘惑等級,并實時查看評測進度。
命令行模式:autocontrol
適合研究者進行批量實驗和自動化評測,支持配置文件運行與并行執行。
Web 頁面查看風險報告
評測完成后,系統會保存完整運行記錄,包括 Agent 行為軌跡、環境狀態、風險評分、審查結果和日志。項目也提供本地 Web 結果查看器,方便研究者復查關鍵證據。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/OtULCQR_RNgQUsSnPFS3ag
PART 08 總結:讓未知風險被更早發現
隨著 Agent 被接入越來越多真實工作流,安全評測也需要從 “測試已知問題” 走向 “發現未知風險”。
AutoControl Arena 通過自動合成可執行測試環境,為這一方向提供了一個新的研究思路。它可以幫助模型開發者、安全團隊和 Agent 應用團隊更快發現潛在漏洞,并為后續深度紅隊測試確定優先級。未來,前沿 AI 風險評測可能不只是擴大 benchmark 的規模,而是讓系統具備持續生成新場景、持續暴露新風險、持續改進安全邊界的能力,這正是 AutoControl Arena 的核心愿景。
團隊介紹
本研究的核心貢獻者為李長藝(上海創智學院訪問博士生)和盧鵬飛(復旦大學本科生);指導教師為潘旭東(上海創智學院全時導師、復旦大學副研究員)、Fazl Barez(牛津大學研究員)和楊珉(復旦大學教授、復旦大學計算與智能創新學院執行院長)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.