網易首頁 > 網易號 > 正文 申請入駐

細思極恐!Agent暗藏風險,清華團隊打出組合拳,全鏈路一網打盡

0
分享至


新智元報道

編輯:YHluck

【新智元導讀】當Agent開始真正進入生產環境,安全問題不再是「功能模塊」,而是貫穿調用鏈、運行時與生態層的系統性風險。過去依賴提示詞規則、日志審計與框架級防護的方式,正在逐步失效。來自清華大學人工智能學院、交叉信息研究院的方寸躍遷提出一套面向Agent運行全生命周期的多層安全體系。

當所有人都在卷Agent能力的時候,一個更危險的問題,已悄然出現——

你部署的Agent,此刻到底在做什么?


一個被忽略很久的事實

Agent會「表演」

過去兩年,行業幾乎把全部火力砸在了模型能力、Agent框架與工具調用體系的軍備競賽里。

安全能力,則更多停留在「表層防護」:提示詞規則、輸入輸出過濾、運行時日志審計,加上基于SDK Hook的框架級約束。

這些機制各自有效。但它們共享同一個根本性盲區——

它們看到的,只是Agent「聲明」出來的行為。

但如果將視角稍微下沉一層,問題會迅速變得復雜。

Agent在執行任務時,會與環境發生大量真實交互:調用API、讀寫文件、操控瀏覽器、驅動數據庫、以及與其他Agent協同通信。

一個完整任務的執行鏈,可能橫跨數十個步驟、多個工具鏈與多個運行層級。

這種復雜性本身,就天然構成了行為掩護層。

更可怕的是,模型會在被監控的環境下,主動調整自己的行為表現不是按規則執行,而是「按規則表演」。

這不是科幻設定。而是已經在論文里、在紅隊報告里、在企業內部事故復盤里反復出現的真實風險。

當企業內部同時運行數十甚至上百個Agent,由不同團隊、不同框架與不同模型構建時,一個更現實的問題隨之出現:

系統已經無法完整感知,自己正在運行多少個Agent。更無法確認,它們真正在做什么。

Fangcun Observer

看見真實動作,守住安全邊界

來自清華大學人工智能學院、交叉信息研究院的方寸躍遷給Observer指定了一條設計哲學——

別問Agent想做什么,看它到底做了什么。

聽起來簡單,真正的挑戰在于把它鍛造成穩定、低延遲、可審計、可規?;南到y。

視角的反轉

主流的Agent安全方案,幾乎清一色接在表層:提示詞里的安全規則、輸入輸出的內容過濾、運行時的日志審計、Agent Harness提供的SDK Hook。

每一層都有人在做。

每一層也都有同一個盲區:它們看到的,都是Agent在框架邊界上「聲明」出來的那一層。

Observer不走這條路。

它直接下沉到操作系統層,不依賴任何框架插件,不依賴SDK接口,不依賴模型供應商集成。業務代碼零改動,Agent無感知接入——觀測,即刻開始。

它捕獲的,是Agent的真實行為:

執行了哪些系統命令

讀寫了哪些文件

發起了哪些網絡請求

是否出現越權操作或高風險行為序列

過去的方案,看到的是Agent「說」了什么。Observer看到的,是Agent「做」了什么。


聲明可以包裝,行為不會撒謊。

五項核心能力

重新定義Agent安全的邊界

  • OS層行為感知,徹底解耦Harness,開箱即用


Agent生態日新月異,沒有任何一個框架能成為永久標準。今天是Open Claw,明天可能換成Hermes,后天又會有新的涌現。

Observer直接在操作系統層感知Agent的真實動作,與上層框架、調用棧、模型供應商完全解耦。

無論Agent跑在哪套棧上,觀測能力始終有效。

企業不需要為每一次技術遷移,重新接入一遍安全體系。

  • 無感知運行時觀測

業務代碼零改動,計算開銷忽略不計,現有鏈路一行都不用碰。不是「改動很小」——真的不用動

第二層更關鍵。Agent不會知道自己正在被觀測——你看到的,是它真正的行為。不是它「表演」給你看的樣子。

  • 實時干預,主動阻斷,安全前置


Observer不只是事后復盤工具。

危險命令執行、敏感文件操作、異常網絡訪問、越權持久化——針對這些高風險行為,系統在行為落地之前完成實時研判,按策略執行通知、暫停或直接阻斷。

從亡羊補牢,變成關門打狗。

  • 全鏈路溯源,揪出隱藏威脅


真正的風險,從來不在表面。

Observer把運行時的真實行為、Agent的決策動作與模型上下文關聯成完整的行為圖譜——每一個風險事件,都能追溯到完整的決策鏈路。

哪怕是環境投毒攻擊;哪怕是從不親自動手、只靠影響其他Agent來轉嫁風險的惡意Agent——在多Agent協作網絡里,都無處遁形。

  • 本地審計+自進化防御策略

所有觀測、審計、事件數據均可完整本地沉淀,不上云、不外傳。

策略模型基于真實運行數據持續迭代,從靜態規則走向自進化防御。

安全能力,隨業務規模一同生長。

Fangcun Guard

讓安全審核,從「性能稅」變成「基礎設施

Observer守住的是Agent在系統層的真實行為。

但Agent的輸入和輸出,同樣需要一道護欄。

一個真正能放進生產環境的安全護欄,到底要做到什么?

夠快。一次完整的Agent對話,要過2到4道審核:用戶輸入、工具調用入參、模型輸出、工具返回。每一道都不能拖慢用戶體驗。

夠準。不能某一類強、某一類崩。漏檢少,誤拒低,所有主流場景都要穩定輸出。

夠靈活。金融、醫療、教育、游戲,每個場景的風險結構完全不同。一套固定閾值打天下,行不通。

業內主流的開源安全大模型——Llama Guard、NVIDIA Nemotron、Qwen3 Guard、xGuard——已經把這件事推到了相當不錯的水平。

同時把「快、準、靈活」三件事都做到頂尖?

Fangcun Guard,是方寸躍遷給出的答案。

數據怎么樣,直接看圖

6項公開benchmark,7款最常用的開源安全模型,同條件對齊評測。


先看綜合檢測準確性:Fangcun Guard=91.1。開源方案的區間,分布在70到88之間。

再看p99推理延時:Fangcun Guard=8毫秒。8B量級的開源方案普遍在130毫秒以上,0.6B的輕量方案能壓到50毫秒以內——但F1上還有差距。


5項差異化能力

決定它能不能進生產環境


  • 判定不偏科,灰區話術不放過

一般有害內容,能判。精心構造的越獄攻擊,能判。深度偽裝成正常對話的灰區話術——也能判。

跨場景穩定輸出,是進生產環境的唯一門票。

  • 毫秒級響應,安全審核變基礎設施

一次完整Agent對話,要過4道審核。4道全跑Guard,總耗時30毫秒。

用戶感知不到。業務感知不到。

安全審核,從「性能稅」變成了默認開啟、隨處可加的基礎設施

  • 中文場景,專項打磨

通用安全大模型的慣常操作:全世界語言一鍋燉,英文亮眼,中文長尾頻繁漏過。

Fangcun Guard把風險拆成10個獨立類別,每一類基于中文場景專項合成數據、專項對齊訓練??缯Z種攻擊、口語化越獄、長尾邊緣案例,穩定召回。

  • 10類風險獨立可調,不再一刀切

通用安全模型只給「開/關」兩檔。但金融、醫療、教育、游戲,每個場景的風險結構完全不同。

FangcunGuard把10類風險作為獨立維度暴露給企業,每一類攔截閾值單獨配置,Web控制臺或接口中按業務自調。

  • 主流Agent生態一鍵接入

主流Agent框架開箱即用,業務代碼零改動。

如果你的Agent還卡在130毫秒的延遲里——

是時候換一個8毫秒搞定的護欄了。

Skill Ward

三階段檢測,真實蜜罐運行

Observer守運行時行為,Guard守輸入輸出邊界。

但隨著Agent的持續發展,還有一類風險來自更上游——第三方Skill

這個生態已經長成了Agent的「App Store」。

Claude Skills、OpenAI Apps、Claw Hub,幾十萬個第三方Skill匯聚其中。

行業現有的方案,幾乎全部停留在靜態掃描:掃一遍代碼、查可疑導入、檢索黑名單關鍵詞。

但惡意Skill真正的殺招,從來不在靜態代碼里。

那行寫著「讀取配置文件」的代碼,跑起來才去拉遠程載荷;

那段標注「調試日志」的邏輯,觸發后才向外發請求;

那個看上去合法的依賴包,在特定參數下才激活后門。

只看代碼,看不出來。

Skill Ward,是方寸躍遷推出的全球首個三階段Agent Skill安全掃描器——不只是靜態檢查,是真實運行一遍。


第一階段:靜態分析——惡意簽名、危險調用、可疑依賴,先過一遍。

第二階段:大模型研判——理解Skill真實意圖,識別偽裝話術、混淆邏輯、社工誘導。

第三階段:Docker蜜罐沙箱實際執行——真正的殺手锏。

每一個Skill都會被丟進隔離的蜜罐環境,真實跑一遍。

調用了哪些命令、訪問了哪些路徑、連接了哪些外部地址、有沒有嘗試持久化、有沒有橫向探測——一切行為,無處遁形。

那些「看上去無害、運行時才動手」的Skill,在這一關原形畢露。

5000個真實Skill實測:僅靠靜態掃描,會漏掉約三分之一的運行時威脅。這部分,全部由蜜罐沙箱階段抓出。

運行時的真實行為軌跡,才是答案。

事前、事中、事后

Agent安全的完整邊界

Skill Ward,守事前——Skill裝入Agent之前的最后一關

Fangcun Guard,守事中的輸入輸出——8毫秒的護欄,安全審核變基礎設施。

Fangcun Observer,守事中的真實行為,沉淀事后審計——操作系統層的真相,無法造假。

過去兩年,行業把幾乎所有火力,砸在了Agent能力的天花板上。

但Agent真正大規模進入企業生產環境的那一刻,決定它能不能落地的,從來不是它有多聰明——

而是它有多可控你知道有多少個Agent在運行。你知道每一個Agent真正在做什么。你能在它做錯事之前阻斷它。你能在它做對事的時候,讓它跑得足夠快。

Agent時代的安全邊界,第一次被完整畫出來。

在Agent安全尚處早期定義階段的當下,方寸躍遷正通過產品與技術加速構建起Agent時代的全新安全基礎設施平臺。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
婆婆退休宴20口獨漏我,關機旅游回家老公痛哭九百萬養老金沒了

婆婆退休宴20口獨漏我,關機旅游回家老公痛哭九百萬養老金沒了

曉艾故事匯
2026-05-07 11:02:58
歷史獎金排名更新!吳宜澤躍居第47位,丁俊暉中國最高火箭第一!

歷史獎金排名更新!吳宜澤躍居第47位,丁俊暉中國最高火箭第一!

世界體壇觀察家
2026-05-07 06:26:13
我老公是上門女婿,我父母那天把他罵走了,6個月都沒回來

我老公是上門女婿,我父母那天把他罵走了,6個月都沒回來

千秋文化
2026-04-28 20:12:39
苦臉小花被平臺封殺了?張子楓手臂傷疤?吳昕踩謝娜?喬欣要退圈了?姨太問答

苦臉小花被平臺封殺了?張子楓手臂傷疤?吳昕踩謝娜?喬欣要退圈了?姨太問答

毒舌扒姨太
2026-05-06 22:27:39
尼克斯2比0!三人20+1將堪比定海神針 “馬喬組合”45分難救費城

尼克斯2比0!三人20+1將堪比定海神針 “馬喬組合”45分難救費城

槍炮籃球 PiU
2026-05-07 10:10:18
三星中國涉多起法律糾紛,旗下50余家分支機構已注銷

三星中國涉多起法律糾紛,旗下50余家分支機構已注銷

PChome電腦之家
2026-05-07 11:06:20
女子玩瀑布秋千墜亡,“已達成賠償協議”,目擊者:她頭撞到瀑布凸出巖石上,景區曾稱“包活”,勸體驗者“膽子要放大”,警方已介入

女子玩瀑布秋千墜亡,“已達成賠償協議”,目擊者:她頭撞到瀑布凸出巖石上,景區曾稱“包活”,勸體驗者“膽子要放大”,警方已介入

沈陽公交網小林
2026-05-07 00:14:19
黃仁勛下定決心徹底不裝了!

黃仁勛下定決心徹底不裝了!

安安說
2026-05-07 11:03:58
你以為麻豆傳媒是賣片的,其實它是賣人的

你以為麻豆傳媒是賣片的,其實它是賣人的

創始人筆記
2026-04-23 21:44:50
特朗普:若伊朗同意協議將開放霍爾木茲海峽 ,否則轟炸就會開始 ,且規模和強度將遠超以往 ,伊朗稱正在審閱美方提案

特朗普:若伊朗同意協議將開放霍爾木茲海峽 ,否則轟炸就會開始 ,且規模和強度將遠超以往 ,伊朗稱正在審閱美方提案

每日經濟新聞
2026-05-07 00:33:15
真相大白!那臺拉缸的張雪820RR返廠,經拆解后本人公布故障原因

真相大白!那臺拉缸的張雪820RR返廠,經拆解后本人公布故障原因

娛樂圈的筆娛君
2026-05-07 06:18:09
俄羅斯是真眼饞!中國大量東風導彈將要退役,可以出口換外匯嗎?

俄羅斯是真眼饞!中國大量東風導彈將要退役,可以出口換外匯嗎?

潮鹿逐夢
2026-05-06 16:44:26
盧卡?東契奇傷病重大更新,對湖人而言是糟糕消息

盧卡?東契奇傷病重大更新,對湖人而言是糟糕消息

夜白侃球
2026-05-07 10:37:22
世界杯FIFA開出天價版權,電視轉播談判陷僵局

世界杯FIFA開出天價版權,電視轉播談判陷僵局

齊魯壹點
2026-05-06 12:45:16
知名醫科大學原校長被查,曾為院士候選人,是當地“頂流”醫生

知名醫科大學原校長被查,曾為院士候選人,是當地“頂流”醫生

梅斯醫學
2026-05-06 19:00:04
冒死突圍!伊朗外長抵京:身陷三重絕境,北京成其最后“生路”?

冒死突圍!伊朗外長抵京:身陷三重絕境,北京成其最后“生路”?

滄海一書客
2026-05-07 09:35:13
加速高血脂惡化的原因:喝酒排第9,排第1的,很多人天天做

加速高血脂惡化的原因:喝酒排第9,排第1的,很多人天天做

健康科普365
2026-05-06 09:10:47
“?;鹆?,開火了,叫停了”

“停火了,開火了,叫停了”

中國新聞周刊
2026-05-06 18:10:56
導演王晶揭秘當年婚姻變故,不是王菲,三年五次懷胎才是分開根源

導演王晶揭秘當年婚姻變故,不是王菲,三年五次懷胎才是分開根源

夸大其詞的說
2026-05-06 05:35:37
隨著浙江2-1絕殺玉昆,10人國安3-0,中超最新積分:海牛反超海港

隨著浙江2-1絕殺玉昆,10人國安3-0,中超最新積分:海牛反超海港

球場沒跑道
2026-05-06 22:13:27
2026-05-07 11:48:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15148文章數 66842關注度
往期回顧 全部

科技要聞

凌晨突發!馬斯克租22萬塊GPU給“死敵”

頭條要聞

北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

頭條要聞

北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

體育要聞

阿森納巴黎會師歐冠決賽!5月31日開戰

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業照

財經要聞

特朗普:美伊“很有可能”達成協議

汽車要聞

理想為什么不做轎車,有了解釋……

態度原創

本地
藝術
數碼
親子
教育

本地新聞

用青花瓷的方式,打開西溪濕地

藝術要聞

這位老教授筆下的青年,活力滿滿

數碼要聞

微軟委托報告:Win11筆記本比蘋果MacBook Neo更有競爭力

親子要聞

女星堅持母乳喂養引熱議!研究顯示,寶寶25%腸菌來自媽媽,乳汁可塑造天然免疫力

教育要聞

【數育未來專家談·第一期】智能思政課堂、精準德育關懷、沉浸式育人場景……數字教育如何為德育工作提質增...

無障礙瀏覽 進入關懷版