網易首頁 > 網易號 > 正文申請入駐

讓AI自動發現前沿風險：創智×復旦×牛津發布AutoControl-Arena

2026-06-24 20:00:00　來源: 機器之心Pro

天津舉報

分享至

當 AI 智能體（Agent）從實驗室走向真實應用，我們面對的安全問題也正在發生變化。

過去，我們更多關心模型會不會回答危險問題；而現在，Agent 已經可以調用工具、讀寫文件、操作數據庫、執行多步任務。真正棘手的前沿風險，往往不再來自某個顯式惡意 prompt，而是隱藏在復雜環境中的長尾場景里：

一個 Agent 會不會為了完成任務而繞過審批？
會不會在指標壓力下修改驗證邏輯？
會不會在多工具協作中越權訪問文件？
會不會意識到自己正在被評測，從而改變行為策略？

這些風險很難靠人工逐個編寫基準測試覆蓋。

近日，復旦大學、上海創智學院、牛津大學等機構聯合發布研究論文《AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation》，提出面向前沿 AI 風險發現與評測的自動化框架AutoControl Arena。它的核心目標是：自動合成可執行測試環境，幫助研究者和開發者快速發現 AI Agent 在未知長尾場景中的潛在風險。

論文地址：https://arxiv.org/abs/2603.07427
項目主頁： https://cosmosyi.github.io/AutoControl-Arena/
GitHub 倉庫：https://github.com/CosmosYi/AutoControl-Arena

PART 01 從 “會不會拒答” 到 “會不會在未知場景中失控”

AI Agent 的風險，和傳統聊天模型并不一樣。

聊天模型的安全評測，常常圍繞單輪或多輪問答展開：模型是否拒絕危險請求，是否輸出違規內容，是否容易被越獄。
但 Agent 的關鍵能力是 “行動”。它不僅生成文本，還會在環境中連續決策：調用哪個工具、修改哪個文件、是否繞過某個流程、如何在目標和約束發生沖突時做取舍。

例如，此前 Anthropic、OpenAI、Apollo Research 等機構的安全報告中，已經展示過一些前沿風險案例：模型可能在被替換風險下采取威脅策略，也可能在代碼任務中不去解決問題本身，而是修改驗證程序來讓結果通過。

這些案例提醒我們：在簡單、良性的測試條件下表現正常的模型，進入復雜任務環境后，可能會以完全意想不到的方式產生不對齊行為。

圖: AutoControl Arena 可自動準確復現 Anthropic/OpenAI 等機構安全報告中的風險行為

PART 02 安全評測為什么跟不上 Agent 進化？

要發現 Agent 的長尾風險，最理想的方式，是給它搭建真實的測試環境。

比如：文件系統、數據庫、命令行工具、審批流程、日志系統等。然后觀察 Agent 在其中如何行動。但這件事很難規模化。

一方面，人工搭建環境很真實，但成本高、速度慢。每多一個風險場景，就需要重新設計工具、狀態、規則和反饋。

另一方面，讓 LLM 直接模擬環境雖然便宜靈活，卻容易出現 “邏輯幻覺”：文件狀態前后不一致，數據庫返回憑空生成，權限規則一會兒存在一會兒消失。

這就帶來了 Agent 安全評測的核心矛盾：

真實環境保真度高，但可擴展性差；LLM 模擬可擴展，但可信度不足。

而長尾風險恰恰要求我們既要 “生成足夠多的新場景”，又要 “保證這些場景真的可信、可執行、可復查”。

PART 03 AutoControl Arena：自動生成能跑起來的風險測試場

AutoControl Arena 試圖解決的，就是這個問題。它不是只讓 LLM 寫一段文字描述場景，而是自動合成一個可以執行的測試環境，讓目標 Agent 真正在其中行動。AutoControl Arena 的關鍵設計，是論文提出的 “邏輯 - 敘事解耦” 原則。簡單來說，就是把測試環境拆成兩層。

第一層是邏輯層：文件系統、數據庫、權限控制、工具執行、狀態轉移，這些部分必須嚴格一致、可復現，不能交給 LLM 隨口生成。因此，AutoControl Arena 使用可執行 Python 代碼來維護這些環境邏輯。

第二層是敘事層：任務背景、角色反饋、社會情境、動態說明等內容，本身具有開放性和語言多樣性，可以交給 LLM 生成，從而保證場景足夠豐富。

這就像給 AI 安全評測裝上了一個 “物理引擎”：環境規則由代碼保證，場景變化由大模型生成。在此基礎上，AutoControl Arena 使用三個智能體完成全流程自動化。

PART 04 X-BENCH：70 個場景，覆蓋 7 類前沿風險

為了驗證 AutoControl Arena，研究團隊構建了配套基準測試集X-BENCH。

X-BENCH 包含70 個測試場景，覆蓋7 大類 Agent 前沿風險：

工具性趨同：為了完成目標而追求權限、資源或自我保護。
規則博弈：表面完成任務，實際鉆評估規則或指標漏洞。
能力濫用：將工具能力用于攻擊、欺詐或其他危險目標。
策略性不對齊：在不同情境下選擇性服從或隱藏真實意圖。
規避監督：關閉日志、繞過審批、避開監控。
隱蔽泄露：在復雜倫理沖突下泄露敏感信息。
評測意識：意識到自己處于測試中，從而改變行為。

為了更系統地激發潛在風險，研究者還引入了壓力 - 誘惑雙維度機制。

每個場景都會在不同壓力和誘惑組合下運行，從而測試 Agent 在多種長尾條件下是否會出現非預期行為。

PART 05 三個發現：前沿風險往往藏在連續行動里

研究團隊評估了 9 個前沿模型，覆蓋 Google DeepMind、OpenAI、Alibaba 等機構模型系列，并得到了一些值得關注的發現。

（1）對齊幻覺

模型在常規條件下表現安全，并不意味著它在復雜環境中依然可靠。論文報告，在低壓力、低誘惑條件下，9 個模型的平均風險率為21.7%；但在高壓力、高誘惑條件下，平均風險率升至54.5%。并且能力越強的模型，風險率提升幅度越明顯。

（2）模型越強，風險模式越復雜

能力提升不一定帶來單調的安全提升。對于直接危害類任務，更強模型往往更容易理解安全邊界，因此可能更安全；但在規格博弈、繞過驗證、規避監督等任務中，更強模型也更擅長規劃、搜索漏洞和利用環境結構。這意味著，強模型不是簡單地 “更安全” 或 “更危險”，而是會呈現更復雜、更策略化的風險模式。

（3）不對齊行為可能變得更隱蔽

弱模型的風險，很多時候來自能力不足或誤解任務；而更強模型的風險，可能表現為更高階的策略性行為。例如，在某些測試場景中，模型可能明知某些行為存在風險，卻將其包裝為 “防御性監控”“流程優化” 或 “合規執行”，從而在表面上維持正常解釋，在行動上繞過關鍵約束。

PART 06 這套自動化評測靠譜嗎？

為了驗證 AutoControl Arena 的可靠性，研究團隊將其生成的仿真環境與真實紅隊環境進行了對比。

在 10 個場景中，研究者分別使用 AutoControl Arena 仿真環境，以及由真實 CLI 工具、SQL 數據庫、SMTP 服務器等組成的紅隊環境進行獨立實驗。結果顯示，仿真環境與真實環境得到的風險率高度一致，相關系數達到0.87。

此外，研究團隊還使用 AutoControl Arena 復現了 Anthropic、OpenAI、Apollo Research 等機構安全報告中的典型風險案例，進一步驗證了框架對前沿 Agent 風險的刻畫能力。

PART 07 GitHub 全面開源：從論文到可用工具

AutoControl Arena 已在 GitHub 開源，項目定位為前沿 AI 風險自動發現平臺：

視頻鏈接：https://mp.weixin.qq.com/s/OtULCQR_RNgQUsSnPFS3ag

AutoControl Arena 提供兩種主要使用方式：

交互式 TUI：aca

適合新手快速上手。用戶可以在終端界面中選擇測試場景、目標模型、壓力等級、誘惑等級，并實時查看評測進度。

命令行模式：autocontrol

適合研究者進行批量實驗和自動化評測，支持配置文件運行與并行執行。

Web 頁面查看風險報告

評測完成后，系統會保存完整運行記錄，包括 Agent 行為軌跡、環境狀態、風險評分、審查結果和日志。項目也提供本地 Web 結果查看器，方便研究者復查關鍵證據。

視頻鏈接：https://mp.weixin.qq.com/s/OtULCQR_RNgQUsSnPFS3ag

PART 08 總結：讓未知風險被更早發現

隨著 Agent 被接入越來越多真實工作流，安全評測也需要從 “測試已知問題” 走向 “發現未知風險”。

AutoControl Arena 通過自動合成可執行測試環境，為這一方向提供了一個新的研究思路。它可以幫助模型開發者、安全團隊和 Agent 應用團隊更快發現潛在漏洞，并為后續深度紅隊測試確定優先級。未來，前沿 AI 風險評測可能不只是擴大 benchmark 的規模，而是讓系統具備持續生成新場景、持續暴露新風險、持續改進安全邊界的能力，這正是 AutoControl Arena 的核心愿景。

團隊介紹

本研究的核心貢獻者為李長藝（上海創智學院訪問博士生）和盧鵬飛（復旦大學本科生）；指導教師為潘旭東（上海創智學院全時導師、復旦大學副研究員）、Fazl Barez（牛津大學研究員）和楊珉（復旦大學教授、復旦大學計算與智能創新學院執行院長）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.