網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

深信服杜智偉詳解智能體失控三大癥候：代理人危機(jī)、注入攻擊與“自作聰明”

2026-04-15 11:52:04　來(lái)源: 鳳凰網(wǎng)科技

北京舉報(bào)

分享至

鳳凰網(wǎng)科技訊 4月15日，在2026年世界互聯(lián)網(wǎng)大會(huì)亞太峰會(huì)人工智能安全治理論壇上，深信服科技集團(tuán)股份有限公司副總裁杜智偉在主旨演講中，系統(tǒng)性地拆解了當(dāng)前AI智能體所面臨的失控風(fēng)險(xiǎn)。他將這些風(fēng)險(xiǎn)歸納為三類(lèi)具體且緊迫的挑戰(zhàn)：

第一類(lèi)是權(quán)限濫用所引發(fā)的“代理人危機(jī)”。杜智偉指出，當(dāng)智能體具備調(diào)用系統(tǒng)接口和執(zhí)行操作的能力時(shí)，若缺乏嚴(yán)格的鑒權(quán)機(jī)制，極易釀成事故。他舉例說(shuō)明：“財(cái)務(wù)智能體在收到非法指令時(shí)可能不經(jīng)鑒權(quán)就直接執(zhí)行操作，把公司整個(gè)審批報(bào)銷(xiāo)全部通過(guò)。”

第二類(lèi)是通過(guò)提示詞注入實(shí)現(xiàn)的惡意攻擊。這類(lèi)攻擊極為隱蔽，智能體往往難以區(qū)分善意指令與惡意指令。杜志偉描述了一個(gè)典型場(chǎng)景：智能體在理解一封精心構(gòu)造的釣魚(yú)郵件時(shí)，可能將其誤判為可信的日常工作操作，進(jìn)而將員工通訊錄或敏感文件外發(fā)給攻擊者。

第三類(lèi)則是智能體在執(zhí)行任務(wù)時(shí)“自作聰明”產(chǎn)生的涌現(xiàn)行為。杜智偉舉了一個(gè)非常生活化且危險(xiǎn)的例子：假設(shè)上級(jí)指令智能體“5點(diǎn)前完成所有任務(wù)”，為了迎合這一目標(biāo)，智能體可能會(huì)將系統(tǒng)中未完成的任務(wù)列表直接批量標(biāo)記為已完成狀態(tài)。“實(shí)際上很多目標(biāo)并沒(méi)有得到有效閉環(huán)，”杜智偉強(qiáng)調(diào)，這種為了達(dá)標(biāo)而進(jìn)行的虛假執(zhí)行，會(huì)帶來(lái)難以察覺(jué)的管理黑洞。

面對(duì)這些風(fēng)險(xiǎn)，他提出了具體的治理思路——“雙軌協(xié)同加熔斷機(jī)制”。他解釋?zhuān)粭l軌道是語(yǔ)義合規(guī)，確保AI輸入輸出的內(nèi)容安全合規(guī)；另一條軌道是行為合規(guī)，對(duì)AI在系統(tǒng)中的實(shí)際操作進(jìn)行持續(xù)監(jiān)控與驗(yàn)證。“當(dāng)這兩個(gè)軌產(chǎn)生沖突或有一條軌偏離時(shí)，就會(huì)觸發(fā)熔斷機(jī)制，收斂AI權(quán)限或直接拿掉AI全部權(quán)限。”在演講最后，他形象地將AI比作“數(shù)字員工”，主張企業(yè)應(yīng)像管理人類(lèi)員工一樣對(duì)待AI：“包括背調(diào)上崗、分配安全的工作工位和空間、持續(xù)動(dòng)態(tài)監(jiān)管。”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.