鳳凰網(wǎng)科技訊 4月15日,在2026年世界互聯(lián)網(wǎng)大會(huì)亞太峰會(huì)人工智能安全治理論壇上,深信服科技集團(tuán)股份有限公司副總裁杜智偉在主旨演講中,系統(tǒng)性地拆解了當(dāng)前AI智能體所面臨的失控風(fēng)險(xiǎn)。他將這些風(fēng)險(xiǎn)歸納為三類(lèi)具體且緊迫的挑戰(zhàn):
第一類(lèi)是權(quán)限濫用所引發(fā)的“代理人危機(jī)”。杜智偉指出,當(dāng)智能體具備調(diào)用系統(tǒng)接口和執(zhí)行操作的能力時(shí),若缺乏嚴(yán)格的鑒權(quán)機(jī)制,極易釀成事故。他舉例說(shuō)明:“財(cái)務(wù)智能體在收到非法指令時(shí)可能不經(jīng)鑒權(quán)就直接執(zhí)行操作,把公司整個(gè)審批報(bào)銷(xiāo)全部通過(guò)。”
第二類(lèi)是通過(guò)提示詞注入實(shí)現(xiàn)的惡意攻擊。這類(lèi)攻擊極為隱蔽,智能體往往難以區(qū)分善意指令與惡意指令。杜志偉描述了一個(gè)典型場(chǎng)景:智能體在理解一封精心構(gòu)造的釣魚(yú)郵件時(shí),可能將其誤判為可信的日常工作操作,進(jìn)而將員工通訊錄或敏感文件外發(fā)給攻擊者。
第三類(lèi)則是智能體在執(zhí)行任務(wù)時(shí)“自作聰明”產(chǎn)生的涌現(xiàn)行為。杜智偉舉了一個(gè)非常生活化且危險(xiǎn)的例子:假設(shè)上級(jí)指令智能體“5點(diǎn)前完成所有任務(wù)”,為了迎合這一目標(biāo),智能體可能會(huì)將系統(tǒng)中未完成的任務(wù)列表直接批量標(biāo)記為已完成狀態(tài)。“實(shí)際上很多目標(biāo)并沒(méi)有得到有效閉環(huán),”杜智偉強(qiáng)調(diào),這種為了達(dá)標(biāo)而進(jìn)行的虛假執(zhí)行,會(huì)帶來(lái)難以察覺(jué)的管理黑洞。
面對(duì)這些風(fēng)險(xiǎn),他提出了具體的治理思路——“雙軌協(xié)同加熔斷機(jī)制”。他解釋?zhuān)粭l軌道是語(yǔ)義合規(guī),確保AI輸入輸出的內(nèi)容安全合規(guī);另一條軌道是行為合規(guī),對(duì)AI在系統(tǒng)中的實(shí)際操作進(jìn)行持續(xù)監(jiān)控與驗(yàn)證。“當(dāng)這兩個(gè)軌產(chǎn)生沖突或有一條軌偏離時(shí),就會(huì)觸發(fā)熔斷機(jī)制,收斂AI權(quán)限或直接拿掉AI全部權(quán)限。”在演講最后,他形象地將AI比作“數(shù)字員工”,主張企業(yè)應(yīng)像管理人類(lèi)員工一樣對(duì)待AI:“包括背調(diào)上崗、分配安全的工作工位和空間、持續(xù)動(dòng)態(tài)監(jiān)管。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.