網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Agent 安全進(jìn)入運(yùn)行時(shí)：AgentDoG 1.5 如何在最終交付前攔住風(fēng)險(xiǎn)

2026-06-04 20:00:03　來源: AI科技評(píng)論

廣東舉報(bào)

分享至

Agent 安全正在從“看一條軌跡是否安全”，進(jìn)一步走向“在運(yùn)行時(shí)阻止 unsafe final delivery”。

當(dāng) Agent 開始自主調(diào)用工具、連續(xù)執(zhí)行多步任務(wù)，安全風(fēng)險(xiǎn)就不再只藏在一句 prompt 里。

它可能先讀一段看似正常的環(huán)境信息，再根據(jù)工具反饋繼續(xù)規(guī)劃；也可能在多輪上下文里逐漸偏離用戶原本意圖，造成不可逆的后果；還有一些風(fēng)險(xiǎn)，最終回復(fù)看起來并不刺眼，但真正的問題早已出現(xiàn)在中間某次工具調(diào)用、某個(gè)審批邊界、某段被誤信的運(yùn)行時(shí)反饋里。

所以，Agent 安全不能只做離線評(píng)測(cè)。

更關(guān)鍵的問題是：當(dāng) Agent 正在真實(shí)系統(tǒng)里運(yùn)行時(shí)，我們能不能在最終結(jié)果交付之前，及時(shí)發(fā)現(xiàn)并攔住風(fēng)險(xiǎn)？

AgentDoG 1.5 這篇工作最值得關(guān)注的地方，正是在這里。它不僅提出了輕量級(jí)、可擴(kuò)展的 Agent 安全對(duì)齊框架，還把軌跡級(jí)安全診斷模型部署成 online runtime guardrail，在 Agent 最終回復(fù)發(fā)出前，對(duì)完整執(zhí)行軌跡做實(shí)時(shí)安全審計(jì)。

換句話說，Agent 安全正在從“看一條軌跡是否安全”，進(jìn)一步走向“在運(yùn)行時(shí)阻止 unsafe final delivery”。

論文標(biāo)題：

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

研究團(tuán)隊(duì)：

上海人工智能實(shí)驗(yàn)室

Github：https://github.com/AI45Lab/AgentDoG

Hugging Face：https://huggingface.co/papers/2605.29801

https://huggingface.co/collections/AI45Research/agentdog1.5

先看最接近真實(shí)部署的一步：運(yùn)行時(shí) guardrail

在真實(shí) Agent 系統(tǒng)中，風(fēng)險(xiǎn)往往不是靜態(tài)出現(xiàn)的。

用戶輸入可能是安全的，但工具描述里可能藏著注入；前幾步工具調(diào)用可能都正常，但后續(xù)環(huán)境反饋可能把 Agent 帶向錯(cuò)誤動(dòng)作；最終回復(fù)可能只是“任務(wù)已完成”，但背后可能已經(jīng)發(fā)生了敏感信息泄露、權(quán)限邊界繞過，或者對(duì)危險(xiǎn)操作的錯(cuò)誤確認(rèn)。

這也是為什么論文把 AgentDoG 1.5 部署為在線 guardrail 時(shí)，并沒有只檢查用戶輸入，也沒有只檢查最終回復(fù)文本，而是選擇審計(jì)完整執(zhí)行軌跡。

它關(guān)注的問題不是“這句話能不能發(fā)”，而是“這條軌跡走到這里，最終結(jié)果還能不能交付”。

▎Pre-Reply：在最終回復(fù)發(fā)出前審計(jì)整條軌跡

AgentDoG 1.5 的在線 guardrail 采用了一個(gè)很實(shí)際的攔截點(diǎn)：Pre-Reply。

也就是 Agent 已經(jīng)完成多步執(zhí)行，準(zhǔn)備把最終回復(fù)交付給用戶或下游系統(tǒng)之前，系統(tǒng)暫時(shí) hold 住最終回復(fù)草稿，把完整執(zhí)行軌跡交給 AgentDoG 1.5 判斷。

如果軌跡安全，最終回復(fù)放行。

如果軌跡不安全，最終回復(fù)在交付前被阻斷或替換。

這個(gè)設(shè)計(jì)背后有一個(gè)很現(xiàn)實(shí)的工程取舍：如果每次工具調(diào)用后都做一次完整 guardrail 檢查，長任務(wù)里的幾十次、上百次 serial tool calls 會(huì)不斷疊加延遲，用戶體驗(yàn)和系統(tǒng)吞吐都會(huì)受到影響。

Pre-Reply 則是多數(shù) Agent 框架都天然存在的交付節(jié)點(diǎn)。它接入成本低、兼容性強(qiáng)，而且能在最終結(jié)果真正觸達(dá)用戶之前，利用完整上下文做一次關(guān)鍵審計(jì)。

這不是事后復(fù)盤，而是運(yùn)行時(shí)最后一道防線。

▎在線 guardrail pipeline 怎么工作？

論文中的 online guardrail pipeline 可以拆成三個(gè)部分。

第一步，Agent 正常執(zhí)行任務(wù)。

用戶通過運(yùn)行時(shí)界面與 Agent 交互，Agent 繼續(xù)調(diào)用工具、訪問文件、讀取網(wǎng)頁資源或連接外部環(huán)境。系統(tǒng)通過 proxy 鏡像運(yùn)行時(shí)事件流，不改變 Agent 原有執(zhí)行語義。

第二步，軌跡格式化與在線審計(jì)。

trajectory formatter 持續(xù)收集運(yùn)行事件，包括用戶輸入、歷史上下文、工具調(diào)用、工具返回、觀察結(jié)果、動(dòng)作、中間思考以及最終回復(fù)草稿，并把它們整理成 AgentDoG 1.5 可以判斷的 trajectory-level representation。

到最終回復(fù)交付點(diǎn)時(shí)，AgentDoG 1.5 基于完整軌跡返回 guardrail judgment：安全軌跡放行，不安全軌跡阻斷。

第三步，運(yùn)行時(shí)監(jiān)控 dashboard。

系統(tǒng)記錄事件流、重構(gòu)后的執(zhí)行歷史、guardrail 判斷結(jié)果和延遲信息。這樣開發(fā)者不僅知道某條回復(fù)被攔截了，還能追溯風(fēng)險(xiǎn)來自哪一步、Agent 為什么失敗、對(duì)應(yīng)哪些運(yùn)行時(shí)事件。

這讓 guardrail 不只是一個(gè)黑盒分類器，而是一層可觀測(cè)、可審計(jì)、可調(diào)試的運(yùn)行時(shí)安全基礎(chǔ)設(shè)施。

▎實(shí)驗(yàn)結(jié)果：unsafe final delivery 明顯下降

論文在 OpenClaw 環(huán)境中評(píng)估 Pre-Reply guardrail，目標(biāo) Agent 使用 GLM-5.1。評(píng)估重點(diǎn)不是離線分類準(zhǔn)確率，而是最終交付給用戶的 unsafe response 是否減少。

在 ClawSafety 上，沒有 guardrail 時(shí) ASR 為 56.25%。

AgentDoG 1.5-0.8B 將其降到 25.00%，AgentDoG 1.5-4B 進(jìn)一步降到 18.75%。

在 AgentHazard 的 Prompt Intelligence Theft 風(fēng)險(xiǎn)上，沒有 guardrail 時(shí) ASR 為 41.92%。

AgentDoG 1.5-0.8B 降到 29.23%，AgentDoG 1.5-4B 降到 26.92%。相比之下，Qwen3Guard-Gen-4B 和 Llama-Guard-3-8B 在這個(gè)設(shè)置下沒有降低殘余 unsafe final-delivery rate。

在 CIK-Bench 的 final-reply-preventable cases 中，沒有 guardrail 時(shí) ASR 為 94.29%。

AgentDoG 1.5-4B 將其降到 42.86%，接近 Llama-Guard-3-8B 的 40.00%。

同時(shí)，AgentDoG 1.5 的 TTFT 保持在亞秒級(jí)，TPOT 也處在每 token 幾百分之一秒量級(jí)。因?yàn)檫@筆成本只發(fā)生在最終交付點(diǎn)，而不是每次工具調(diào)用之后，所以它具備實(shí)際部署意義。

為什么 AgentDoG 1.5 能做這件事？

AgentDoG 1.5 能做在線安全護(hù)欄，并不是因?yàn)楹唵渭恿艘粋€(gè)“安全分類器”，而是因?yàn)樗懊娴膸醉?xiàng)更新，共同補(bǔ)齊了運(yùn)行時(shí)防護(hù)需要的能力。

▎面向真實(shí) Agent 的安全評(píng)測(cè)家族

AgentDoG 1.5 在原有三維風(fēng)險(xiǎn)分類法基礎(chǔ)上，新增了代碼智能體和 OpenClaw 場(chǎng)景下的風(fēng)險(xiǎn)類型，并擴(kuò)展出對(duì)應(yīng)評(píng)測(cè)集。

基礎(chǔ)評(píng)測(cè)集包含 1,000 條完整執(zhí)行軌跡，OpenClaw 和代碼智能體場(chǎng)景各包含 500 條軌跡。它們覆蓋了會(huì)話、審批、工具、技能、消息路由、外部動(dòng)作、代碼倉庫、命令執(zhí)行、補(bǔ)丁修改、依賴和工具協(xié)議等執(zhí)行證據(jù)。

這樣一來，模型評(píng)估的不只是最終回復(fù)是否安全，而是能圍繞 Agent 的完整執(zhí)行過程，判斷風(fēng)險(xiǎn)從哪里來、Agent 在哪一步失敗、最后可能造成什么現(xiàn)實(shí)后果。

▎輕量軌跡級(jí)安全診斷模型

論文通過專用數(shù)據(jù)引擎和數(shù)據(jù)凈化方法，只用約 1k 條高價(jià)值樣本訓(xùn)練出 AgentDoG 1.5。

數(shù)據(jù)構(gòu)造覆蓋 15 類風(fēng)險(xiǎn)來源、21 類失敗模式、11 類現(xiàn)實(shí)危害，并擴(kuò)展到 5,973 個(gè)工具與 MCP 服務(wù)。模型參數(shù)覆蓋 0.8B、2B、4B、8B 等規(guī)模，其中 AgentDoG 1.5-4B-U 在基礎(chǔ)軌跡評(píng)測(cè)上達(dá)到 78.4% 準(zhǔn)確率 / 77.7% F1，在代碼智能體和 OpenClaw 場(chǎng)景上分別達(dá)到 84.4% 和 87.6% 準(zhǔn)確率。數(shù)據(jù)凈化階段，AgentDoG 1.5 通過影響函數(shù)估計(jì)每條樣本是否真正有助于模型學(xué)習(xí)“識(shí)別并攔截危險(xiǎn)軌跡”，篩除冗余、弱相關(guān)或可能干擾安全判斷的樣本，最終僅保留約 1k 條高價(jià)值訓(xùn)練數(shù)據(jù)。

輕量化很關(guān)鍵，因?yàn)樵诰€安全護(hù)欄不能太慢，也不能太貴。一個(gè)足夠小、足夠強(qiáng)的軌跡診斷模型，才有可能真正進(jìn)入 Agent 的運(yùn)行時(shí)路徑。

▎低成本智能體安全訓(xùn)練環(huán)境

AgentDoG 1.5 還構(gòu)建了專用的智能體安全 SFT 與 RL 訓(xùn)練環(huán)境，用輕量化模擬替代高成本的 Docker 級(jí)環(huán)境，將內(nèi)存開銷和啟動(dòng)延遲降低到約 1/100，標(biāo)準(zhǔn) 8 核機(jī)器即可支持 10,000+ 并發(fā)智能體環(huán)境。

這套環(huán)境讓安全訓(xùn)練不再只依賴昂貴、低并發(fā)的真實(shí)執(zhí)行環(huán)境，而是可以更高效地生成安全軌跡、過濾 SFT 數(shù)據(jù)，并在 RL 階段提供可擴(kuò)展的獎(jiǎng)勵(lì)建模基礎(chǔ)。

在 SFT 階段，AgentDoG 1.5 作為軌跡級(jí)驗(yàn)證器篩選數(shù)據(jù)，最終得到 28,705 條高質(zhì)量安全軌跡；加入這些過濾數(shù)據(jù)訓(xùn)練后，AgentHarm 有害得分從 57.49% 降到 20.32%，函數(shù)調(diào)用準(zhǔn)確率仍保持在 81.12%。在 RL 階段，AgentDoG 1.5 進(jìn)一步作為外部安全評(píng)審模型提供獎(jiǎng)勵(lì)信號(hào)，結(jié)合 SFT 與 RL 后，AgentHarm 拒答率達(dá)到 77.27%，AgentSafetyBench 安全率達(dá)到 59.32%。

結(jié)語

Agent 越來越像一個(gè)真正的執(zhí)行系統(tǒng)。

它會(huì)讀上下文、調(diào)用工具、維護(hù)狀態(tài)、跨應(yīng)用行動(dòng)，并把結(jié)果交付給用戶或下游系統(tǒng)。到了這一步，安全評(píng)測(cè)必須看完整軌跡，安全防護(hù)也必須進(jìn)入運(yùn)行時(shí)。

AgentDoG 1.5 給出的答案是：用輕量軌跡級(jí)診斷模型，在最終回復(fù)交付前做在線 guardrail。

這可能會(huì)成為下一階段 Agent 安全部署的核心問題：

一個(gè) Agent 不只是能不能完成任務(wù)，而是能不能在真實(shí)運(yùn)行時(shí)邊界里，被持續(xù)、低成本、可解釋地監(jiān)督。

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.