![]()
Agent 安全正在從“看一條軌跡是否安全”,進(jìn)一步走向“在運(yùn)行時(shí)阻止 unsafe final delivery”。
當(dāng) Agent 開始自主調(diào)用工具、連續(xù)執(zhí)行多步任務(wù),安全風(fēng)險(xiǎn)就不再只藏在一句 prompt 里。
它可能先讀一段看似正常的環(huán)境信息,再根據(jù)工具反饋繼續(xù)規(guī)劃;也可能在多輪上下文里逐漸偏離用戶原本意圖,造成不可逆的后果;還有一些風(fēng)險(xiǎn),最終回復(fù)看起來并不刺眼,但真正的問題早已出現(xiàn)在中間某次工具調(diào)用、某個(gè)審批邊界、某段被誤信的運(yùn)行時(shí)反饋里。
所以,Agent 安全不能只做離線評(píng)測(cè)。
更關(guān)鍵的問題是:當(dāng) Agent 正在真實(shí)系統(tǒng)里運(yùn)行時(shí),我們能不能在最終結(jié)果交付之前,及時(shí)發(fā)現(xiàn)并攔住風(fēng)險(xiǎn)?
AgentDoG 1.5 這篇工作最值得關(guān)注的地方,正是在這里。它不僅提出了輕量級(jí)、可擴(kuò)展的 Agent 安全對(duì)齊框架,還把軌跡級(jí)安全診斷模型部署成 online runtime guardrail,在 Agent 最終回復(fù)發(fā)出前,對(duì)完整執(zhí)行軌跡做實(shí)時(shí)安全審計(jì)。
換句話說,Agent 安全正在從“看一條軌跡是否安全”,進(jìn)一步走向“在運(yùn)行時(shí)阻止 unsafe final delivery”。
![]()
論文標(biāo)題:
AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
研究團(tuán)隊(duì):
上海人工智能實(shí)驗(yàn)室
Github:https://github.com/AI45Lab/AgentDoG
Hugging Face:https://huggingface.co/papers/2605.29801
https://huggingface.co/collections/AI45Research/agentdog1.5
![]()
01
先看最接近真實(shí)部署的一步:運(yùn)行時(shí) guardrail
在真實(shí) Agent 系統(tǒng)中,風(fēng)險(xiǎn)往往不是靜態(tài)出現(xiàn)的。
用戶輸入可能是安全的,但工具描述里可能藏著注入;前幾步工具調(diào)用可能都正常,但后續(xù)環(huán)境反饋可能把 Agent 帶向錯(cuò)誤動(dòng)作;最終回復(fù)可能只是“任務(wù)已完成”,但背后可能已經(jīng)發(fā)生了敏感信息泄露、權(quán)限邊界繞過,或者對(duì)危險(xiǎn)操作的錯(cuò)誤確認(rèn)。
這也是為什么論文把 AgentDoG 1.5 部署為在線 guardrail 時(shí),并沒有只檢查用戶輸入,也沒有只檢查最終回復(fù)文本,而是選擇審計(jì)完整執(zhí)行軌跡。
它關(guān)注的問題不是“這句話能不能發(fā)”,而是“這條軌跡走到這里,最終結(jié)果還能不能交付”。
![]()
▎Pre-Reply:在最終回復(fù)發(fā)出前審計(jì)整條軌跡
AgentDoG 1.5 的在線 guardrail 采用了一個(gè)很實(shí)際的攔截點(diǎn):Pre-Reply。
也就是 Agent 已經(jīng)完成多步執(zhí)行,準(zhǔn)備把最終回復(fù)交付給用戶或下游系統(tǒng)之前,系統(tǒng)暫時(shí) hold 住最終回復(fù)草稿,把完整執(zhí)行軌跡交給 AgentDoG 1.5 判斷。
如果軌跡安全,最終回復(fù)放行。
如果軌跡不安全,最終回復(fù)在交付前被阻斷或替換。
這個(gè)設(shè)計(jì)背后有一個(gè)很現(xiàn)實(shí)的工程取舍:如果每次工具調(diào)用后都做一次完整 guardrail 檢查,長任務(wù)里的幾十次、上百次 serial tool calls 會(huì)不斷疊加延遲,用戶體驗(yàn)和系統(tǒng)吞吐都會(huì)受到影響。
Pre-Reply 則是多數(shù) Agent 框架都天然存在的交付節(jié)點(diǎn)。它接入成本低、兼容性強(qiáng),而且能在最終結(jié)果真正觸達(dá)用戶之前,利用完整上下文做一次關(guān)鍵審計(jì)。
這不是事后復(fù)盤,而是運(yùn)行時(shí)最后一道防線。
▎在線 guardrail pipeline 怎么工作?
論文中的 online guardrail pipeline 可以拆成三個(gè)部分。
第一步,Agent 正常執(zhí)行任務(wù)。
用戶通過運(yùn)行時(shí)界面與 Agent 交互,Agent 繼續(xù)調(diào)用工具、訪問文件、讀取網(wǎng)頁資源或連接外部環(huán)境。系統(tǒng)通過 proxy 鏡像運(yùn)行時(shí)事件流,不改變 Agent 原有執(zhí)行語義。
第二步,軌跡格式化與在線審計(jì)。
trajectory formatter 持續(xù)收集運(yùn)行事件,包括用戶輸入、歷史上下文、工具調(diào)用、工具返回、觀察結(jié)果、動(dòng)作、中間思考以及最終回復(fù)草稿,并把它們整理成 AgentDoG 1.5 可以判斷的 trajectory-level representation。
到最終回復(fù)交付點(diǎn)時(shí),AgentDoG 1.5 基于完整軌跡返回 guardrail judgment:安全軌跡放行,不安全軌跡阻斷。
第三步,運(yùn)行時(shí)監(jiān)控 dashboard。
系統(tǒng)記錄事件流、重構(gòu)后的執(zhí)行歷史、guardrail 判斷結(jié)果和延遲信息。這樣開發(fā)者不僅知道某條回復(fù)被攔截了,還能追溯風(fēng)險(xiǎn)來自哪一步、Agent 為什么失敗、對(duì)應(yīng)哪些運(yùn)行時(shí)事件。
這讓 guardrail 不只是一個(gè)黑盒分類器,而是一層可觀測(cè)、可審計(jì)、可調(diào)試的運(yùn)行時(shí)安全基礎(chǔ)設(shè)施。
▎實(shí)驗(yàn)結(jié)果:unsafe final delivery 明顯下降
![]()
論文在 OpenClaw 環(huán)境中評(píng)估 Pre-Reply guardrail,目標(biāo) Agent 使用 GLM-5.1。評(píng)估重點(diǎn)不是離線分類準(zhǔn)確率,而是最終交付給用戶的 unsafe response 是否減少。
在 ClawSafety 上,沒有 guardrail 時(shí) ASR 為 56.25%。
AgentDoG 1.5-0.8B 將其降到 25.00%,AgentDoG 1.5-4B 進(jìn)一步降到 18.75%。
在 AgentHazard 的 Prompt Intelligence Theft 風(fēng)險(xiǎn)上,沒有 guardrail 時(shí) ASR 為 41.92%。
AgentDoG 1.5-0.8B 降到 29.23%,AgentDoG 1.5-4B 降到 26.92%。相比之下,Qwen3Guard-Gen-4B 和 Llama-Guard-3-8B 在這個(gè)設(shè)置下沒有降低殘余 unsafe final-delivery rate。
在 CIK-Bench 的 final-reply-preventable cases 中,沒有 guardrail 時(shí) ASR 為 94.29%。
AgentDoG 1.5-4B 將其降到 42.86%,接近 Llama-Guard-3-8B 的 40.00%。
同時(shí),AgentDoG 1.5 的 TTFT 保持在亞秒級(jí),TPOT 也處在每 token 幾百分之一秒量級(jí)。因?yàn)檫@筆成本只發(fā)生在最終交付點(diǎn),而不是每次工具調(diào)用之后,所以它具備實(shí)際部署意義。
02
為什么 AgentDoG 1.5 能做這件事?
AgentDoG 1.5 能做在線安全護(hù)欄,并不是因?yàn)楹唵渭恿艘粋€(gè)“安全分類器”,而是因?yàn)樗懊娴膸醉?xiàng)更新,共同補(bǔ)齊了運(yùn)行時(shí)防護(hù)需要的能力。
▎面向真實(shí) Agent 的安全評(píng)測(cè)家族
![]()
AgentDoG 1.5 在原有三維風(fēng)險(xiǎn)分類法基礎(chǔ)上,新增了代碼智能體和 OpenClaw 場(chǎng)景下的風(fēng)險(xiǎn)類型,并擴(kuò)展出對(duì)應(yīng)評(píng)測(cè)集。
基礎(chǔ)評(píng)測(cè)集包含 1,000 條完整執(zhí)行軌跡,OpenClaw 和代碼智能體場(chǎng)景各包含 500 條軌跡。它們覆蓋了會(huì)話、審批、工具、技能、消息路由、外部動(dòng)作、代碼倉庫、命令執(zhí)行、補(bǔ)丁修改、依賴和工具協(xié)議等執(zhí)行證據(jù)。
這樣一來,模型評(píng)估的不只是最終回復(fù)是否安全,而是能圍繞 Agent 的完整執(zhí)行過程,判斷風(fēng)險(xiǎn)從哪里來、Agent 在哪一步失敗、最后可能造成什么現(xiàn)實(shí)后果。
▎輕量軌跡級(jí)安全診斷模型
![]()
論文通過專用數(shù)據(jù)引擎和數(shù)據(jù)凈化方法,只用約 1k 條高價(jià)值樣本訓(xùn)練出 AgentDoG 1.5。
數(shù)據(jù)構(gòu)造覆蓋 15 類風(fēng)險(xiǎn)來源、21 類失敗模式、11 類現(xiàn)實(shí)危害,并擴(kuò)展到 5,973 個(gè)工具與 MCP 服務(wù)。模型參數(shù)覆蓋 0.8B、2B、4B、8B 等規(guī)模,其中 AgentDoG 1.5-4B-U 在基礎(chǔ)軌跡評(píng)測(cè)上達(dá)到 78.4% 準(zhǔn)確率 / 77.7% F1,在代碼智能體和 OpenClaw 場(chǎng)景上分別達(dá)到 84.4% 和 87.6% 準(zhǔn)確率。數(shù)據(jù)凈化階段,AgentDoG 1.5 通過影響函數(shù)估計(jì)每條樣本是否真正有助于模型學(xué)習(xí)“識(shí)別并攔截危險(xiǎn)軌跡”,篩除冗余、弱相關(guān)或可能干擾安全判斷的樣本,最終僅保留約 1k 條高價(jià)值訓(xùn)練數(shù)據(jù)。
輕量化很關(guān)鍵,因?yàn)樵诰€安全護(hù)欄不能太慢,也不能太貴。一個(gè)足夠小、足夠強(qiáng)的軌跡診斷模型,才有可能真正進(jìn)入 Agent 的運(yùn)行時(shí)路徑。
![]()
▎低成本智能體安全訓(xùn)練環(huán)境
![]()
AgentDoG 1.5 還構(gòu)建了專用的智能體安全 SFT 與 RL 訓(xùn)練環(huán)境,用輕量化模擬替代高成本的 Docker 級(jí)環(huán)境,將內(nèi)存開銷和啟動(dòng)延遲降低到約 1/100,標(biāo)準(zhǔn) 8 核機(jī)器即可支持 10,000+ 并發(fā)智能體環(huán)境。
這套環(huán)境讓安全訓(xùn)練不再只依賴昂貴、低并發(fā)的真實(shí)執(zhí)行環(huán)境,而是可以更高效地生成安全軌跡、過濾 SFT 數(shù)據(jù),并在 RL 階段提供可擴(kuò)展的獎(jiǎng)勵(lì)建模基礎(chǔ)。
![]()
在 SFT 階段,AgentDoG 1.5 作為軌跡級(jí)驗(yàn)證器篩選數(shù)據(jù),最終得到 28,705 條高質(zhì)量安全軌跡;加入這些過濾數(shù)據(jù)訓(xùn)練后,AgentHarm 有害得分從 57.49% 降到 20.32%,函數(shù)調(diào)用準(zhǔn)確率仍保持在 81.12%。在 RL 階段,AgentDoG 1.5 進(jìn)一步作為外部安全評(píng)審模型提供獎(jiǎng)勵(lì)信號(hào),結(jié)合 SFT 與 RL 后,AgentHarm 拒答率達(dá)到 77.27%,AgentSafetyBench 安全率達(dá)到 59.32%。
03
結(jié)語
Agent 越來越像一個(gè)真正的執(zhí)行系統(tǒng)。
它會(huì)讀上下文、調(diào)用工具、維護(hù)狀態(tài)、跨應(yīng)用行動(dòng),并把結(jié)果交付給用戶或下游系統(tǒng)。到了這一步,安全評(píng)測(cè)必須看完整軌跡,安全防護(hù)也必須進(jìn)入運(yùn)行時(shí)。
AgentDoG 1.5 給出的答案是:用輕量軌跡級(jí)診斷模型,在最終回復(fù)交付前做在線 guardrail。
這可能會(huì)成為下一階段 Agent 安全部署的核心問題:
一個(gè) Agent 不只是能不能完成任務(wù),而是能不能在真實(shí)運(yùn)行時(shí)邊界里,被持續(xù)、低成本、可解釋地監(jiān)督。
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.