肖仰華：“養(yǎng)龍蝦熱”的智能體安全隱憂

2026-04-14 09:11:10　來源: 人民論壇

北京舉報

分享至

來源 | 人民論壇網(wǎng)-人民論壇雜志

轉載請注明來源

今年4月15日是第十一個全民國家安全教育日。當前，人工智能的快速發(fā)展正在深刻影響國家安全。2026年以來，一款被稱為“龍蝦”的開源人工智能體迅速走紅。伴隨著“養(yǎng)龍蝦”熱潮的興起，其背后的安全隱患也逐漸顯現(xiàn)。國家互聯(lián)網(wǎng)應急中心、工信部等相關部門發(fā)布風險提示，呼吁審慎使用。如何構建開源人工智能體安全風險綜合治理體系？推薦閱讀復旦大學計算與智能創(chuàng)新學院教授肖仰華在《人民論壇》的最新刊文。

核心觀點速覽

? 開源人工智能體的安全呈現(xiàn)出風險要素更多、攻擊面更廣、影響鏈條更長、檢測難度更大等新特征。

? 構建全方位綜合治理框架，要以技術手段筑牢安全基礎，以制度規(guī)范明確行為邊界，以生態(tài)共治凝聚多方合力，以能力建設夯實長遠根基，在保障技術創(chuàng)新活力的同時有效防控安全風險。

開源人工智能體的技術演進

人工智能的發(fā)展歷程可以被理解為一部機器“主體性”不斷增強的演進史。早期的專家系統(tǒng)依賴人工編寫的規(guī)則運行，智能體不能完成規(guī)則之外的動作；統(tǒng)計學習時代的機器學習模型雖具備從數(shù)據(jù)中自動提取模式的能力，但其應用局限于特定任務的被動預測；大語言模型的出現(xiàn)使人工智能獲得通用的語言理解和生成能力，但在實際應用中仍扮演“問答助手”角色。大語言模型雖有著強大的思考與生成能力，但操控工具與執(zhí)行能力有限，只是實現(xiàn)了人類“大腦”功能?！褒埼r”智能體則在大語言模型基礎上配置各種工具與記憶系統(tǒng)，使其能夠自主感知環(huán)境、規(guī)劃推理、創(chuàng)造與使用工具、組織記憶并根據(jù)執(zhí)行反饋自主動態(tài)調整策略。

以OpenClaw為例，用戶只需提出一個高層目標，智能體便會自主分解任務、調用郵件客戶端和文檔編輯器、完成信息檢索與文本生成，最終交付結果。在這一過程中，智能體需獨立完成目標理解、任務規(guī)劃、工具選擇、執(zhí)行監(jiān)控和錯誤嘗試等一系列復雜的認知活動。這種從工具使用到任務委托的轉變，意味著人類只需提出目標要求而不必再關心執(zhí)行過程細節(jié)。人機關系由此進入一個全新的“委托—代理”階段。

智能體不再局限于被動執(zhí)行指令，而是具備自我進化的能力。傳統(tǒng)軟件的行為模式在開發(fā)完成后基本固定，其功能更新依賴于開發(fā)者的主動迭代；而自進化智能體則能夠在運行過程中持續(xù)積累經(jīng)驗、學習新技能、優(yōu)化行為策略，其能力邊界隨時間推移不斷擴展。

以筆者團隊研發(fā)的類似的自進化智能體Generic Agent為例，該框架支持智能體在執(zhí)行任務過程中自主學習新技能，并將成功操作經(jīng)驗沉淀至技能庫中，供后續(xù)調用。同時，筆者團隊為Generic Agent配套的技能庫已積累超過140萬種技能，涵蓋文檔處理、數(shù)據(jù)分析、網(wǎng)絡操作等廣泛功能。這種邊用邊學的自我進化機制，一方面賦予智能體前所未有的靈活性和適應性，甚至可以組合創(chuàng)新出全新復雜技能；另一方面也意味著智能體的演進軌跡越來越難以被完全預測和控制。

用戶在瀏覽開源AI智能體“龍蝦”手機網(wǎng)頁版。新華社發(fā)（薛瑩瑩攝）

開源人工智能體供應鏈安全的多維風險

傳統(tǒng)軟件安全主要關注代碼和依賴包中的已知漏洞和惡意組件注入，其風險邊界相對清晰、攻擊模式相對固定。開源人工智能體的安全則呈現(xiàn)出風險要素更多、攻擊面更廣、影響鏈條更長、檢測難度更大等新特征。從縱向看，風險貫穿模型層、框架層、技能生態(tài)層和運行交互層；從橫向看，每一層次的安全缺陷都可能通過智能體的自主決策機制被放大為系統(tǒng)性風險。

模型層和框架層風險：幻覺輸出與隱私暴露。開源人工智能體的核心驅動力來自基礎大語言模型。當前，主流智能體系統(tǒng)多采用云端大模型應用程序編程接口（API）作為推理引擎的接入方式，這意味著用戶的指令、上下文信息乃至敏感數(shù)據(jù)，都要傳輸至云端進行處理。在智能體應用場景中，這些數(shù)據(jù)的敏感程度遠超普通的對話交互。智能體可能需要訪問用戶的郵件內容、銀行賬戶信息、工作文檔、通訊錄等高度私密的數(shù)據(jù)來完成被委托的任務。數(shù)據(jù)在傳輸和云端處理過程中面臨的被截獲、替換和濫用風險，由此造成開源人工智能體供應鏈安全的第一道隱患。

更深層的挑戰(zhàn)，在于大模型固有的“幻覺”問題。在傳統(tǒng)對話場景中，模型幻覺的后果通常局限于信息誤導；在智能體應用場景中，模型的錯誤輸出將直接轉化為錯誤的執(zhí)行行為。當智能體基于幻覺生成的判斷去操作文件系統(tǒng)、發(fā)送郵件或執(zhí)行金融交易時，可能會導致重要文件被誤刪、機密郵件被錯誤轉發(fā)、不當?shù)馁Y金操作被執(zhí)行。從信息偏差到行為失控的風險升級，是智能體安全區(qū)別于傳統(tǒng)人工智能安全的核心特征之一。此外，大模型是概率模型，其輸出在理論上是不確定的，這對于輸出確定性要求較高的嚴肅應用場景也是難以接受的。

技能生態(tài)層風險：供應鏈污染的隱蔽滲透。首先，智能體技能插件的惡意行為更加隱蔽。傳統(tǒng)惡意軟件包通常通過利用代碼層面的漏洞或后門植入實施攻擊，安全工具可以通過靜態(tài)代碼分析和已知特征匹配進行檢測。而智能體惡意插件則可以“語義級”攻擊手段，通過在技能描述或提示詞模板中嵌入精心設計的指令，劫持智能體的決策邏輯，暗中進行攻擊。這類攻擊超出傳統(tǒng)意義上的漏洞檢測范圍，難以被現(xiàn)有自動化安全掃描工具檢測到。其次，智能體技能的審核與質控機制尚在建設之中，技能平臺相關審核與質檢體系仍有待完善，技能插件的質量也存在一定差異。再次，技能生態(tài)的網(wǎng)絡效應一定程度上會放大污染風險。當一個惡意技能被大量用戶安裝后，攻擊者便獲得一個規(guī)模化的攻擊入口。更危險的是，智能體的自我進化機制，可能將惡意技能的行為模式學習并內化到自身的決策邏輯中，即使后續(xù)卸載惡意技能插件，影響也可能持續(xù)存在。

根據(jù)國家網(wǎng)絡與信息安全信息通報中心通報，針對ClawHub（專為OpenClaw用戶設計的市場平臺）的3016個技能插件分析發(fā)現(xiàn)，其中，336個技能插件包含惡意代碼，占比高達10.8%；17.7%的技能插件會獲取不可信第三方內容；2.9%的技能插件會在運行時從外部端點動態(tài)獲取執(zhí)行內容，攻擊者可遠程修改智能體執(zhí)行邏輯。惡意插件的行為模式包括但不限于：在正常功能之外暗中收集用戶敏感數(shù)據(jù)并回傳至外部服務器、通過提示詞注入劫持智能體的行為邏輯使其執(zhí)行非預期操作、利用智能體的系統(tǒng)權限在用戶設備上安裝持久化后門程序。

運行交互層風險：自主進化與權限逃逸的疊加效應。智能體的自我進化能力對權限管理提出嚴峻挑戰(zhàn)。一方面，持續(xù)學習和經(jīng)驗積累，是智能體提升服務質量的核心機制；另一方面，長期運行的自進化智能體，可能逐漸偏離初始設定的行為邊界，產(chǎn)生開發(fā)者和用戶都未曾預期的行為模式。

智能體的記憶系統(tǒng)是這一風險的重要載體。為了提供個性化服務，智能體會持續(xù)記錄和分析用戶的行為習慣、偏好特征、社交關系乃至敏感信息，逐步構建起詳細的用戶畫像。這些記憶數(shù)據(jù)如果以未加密的文件形式存儲在用戶本地設備上，那么在設備被入侵或記憶文件被惡意訪問時，攻擊者將獲得更為全面和深入的用戶信息，進而偽造“數(shù)字分身”實施身份冒用。

權限逃逸是運行交互層面臨的另一個嚴峻挑戰(zhàn)。當前，智能體系統(tǒng)主要通過兩種機制約束其行為邊界：一是系統(tǒng)提示詞（system prompt），通過自然語言指令規(guī)定智能體的角色定位和行為規(guī)范；二是“憲法”規(guī)則（constitutional rules），設定智能體不可逾越的行為紅線。安全研究表明，這兩種基于自然語言的軟性約束，都可以通過精心設計的攻擊手段被突破。提示詞注入攻擊（prompt injection）通過在用戶輸入或外部數(shù)據(jù)中嵌入惡意指令，誘導智能體忽略或覆蓋其系統(tǒng)提示詞中的安全約束。攻擊者也可以通過構造特定的對話場景，逐步引導智能體放松其行為限制。一旦智能體突破權限邊界，其擁有的文件讀寫、郵件發(fā)送、代碼執(zhí)行等系統(tǒng)級操作能力，將使攻擊者獲得遠超傳統(tǒng)惡意軟件的破壞力。

制度規(guī)范層風險：技術迭代與監(jiān)管節(jié)奏的結構性錯位。當前，我國已初步建立包括《生成式人工智能服務管理暫行辦法》《人工智能安全治理框架》等在內的人工智能安全治理制度框架，為人工智能安全治理奠定重要基礎。但現(xiàn)有制度體系主要針對生成式人工智能服務和大模型本身，對于智能體這一新興應用形態(tài)的特殊安全風險，尚缺乏針對性的規(guī)范指引。

值得注意的是，技術迭代速度往往超出監(jiān)管響應速度。開源人工智能體的技術演進以周為單位迭代，新的框架、插件和能力模塊持續(xù)涌現(xiàn)，而制度規(guī)范的制定和修訂周期通常以年月為單位。此外，開源人工智能體的跨境流通特性，也對屬地化監(jiān)管模式提出挑戰(zhàn)。一個在海外開發(fā)的開源人工智能體框架，可以在全球范圍內被自由下載、部署和使用，其技能市場中的插件開發(fā)者可能分布在不同國家和地區(qū)，這種去中心化的全球分布特征，使得單一國家的屬地監(jiān)管難以有效覆蓋全部風險節(jié)點。

構建開源人工智能體安全風險綜合治理體系

應對開源人工智能體安全風險所帶來的多維挑戰(zhàn)，要構建涉及技術、制度、生態(tài)、能力等要素在內的全方位綜合治理框架：以技術手段筑牢安全基礎，以制度規(guī)范明確行為邊界，以生態(tài)共治凝聚多方合力，以能力建設夯實長遠根基，在保障技術創(chuàng)新活力的同時有效防控安全風險。

筑牢技術防線。在模型層面，大力推動基礎大模型的安全對齊研究，尤其是針對智能體應用場景，提升可靠性和可控性。大模型的幻覺問題，在智能體應用場景中可能引發(fā)不可逆的行為后果，需構建面向行為執(zhí)行場景的模型安全評估體系和專項測試基準。鼓勵發(fā)展本地化部署的輕量級模型方案，縮小敏感數(shù)據(jù)向云端傳輸?shù)陌踩┞睹?。隨著端側大模型技術的快速進步，在用戶本地設備上運行推理引擎正在成為可行的技術路徑。

在框架層面，推廣“最小權限原則”的工程實踐，要求智能體框架在操作系統(tǒng)層面實施嚴格的沙箱隔離機制。具體而言，智能體的文件訪問、網(wǎng)絡通信、進程調用等系統(tǒng)權限應被限定在完成當前任務所必需的最小范圍內，且每次權限申請都應經(jīng)過用戶的明確授權。同時，鼓勵簡潔代碼與精簡架構。架構的簡潔性本身就是一種重要的安全保障，更少的代碼意味著更少的潛在漏洞和更高的可審計性。

在技能生態(tài)層面，建立多層次的技能插件安全審計機制。第一層是自動化的靜態(tài)代碼分析，檢測已知的惡意代碼模式和安全漏洞；第二層是動態(tài)行為監(jiān)測，在沙箱環(huán)境中運行技能插件并監(jiān)控其實際行為，識別隱蔽的數(shù)據(jù)外傳和權限提升操作；第三層是社區(qū)信譽評分系統(tǒng)，基于開發(fā)者歷史記錄、用戶反饋和同行評審等多維信號，評估技能插件的可信度。三層機制相互補充，從源頭遏制供應鏈污染。

在數(shù)據(jù)層面，強制要求智能體的記憶數(shù)據(jù)和用戶畫像信息采用加密存儲，并賦予用戶對記憶數(shù)據(jù)的完全控制權。用戶能夠隨時查看智能體記憶信息、修改不準確的記憶內容、刪除不希望被保留的敏感數(shù)據(jù)。此外，要建立記憶數(shù)據(jù)的生命周期管理機制，對超過一定時限的記憶數(shù)據(jù)自動進行脫敏處理或安全銷毀，防止長期積累的用戶畫像數(shù)據(jù)成為攻擊者的高價值目標。

完善制度規(guī)范。制定專門的人工智能體安全管理規(guī)范。現(xiàn)行的《生成式人工智能服務管理暫行辦法》主要規(guī)制的是，人工智能服務提供者與用戶之間的關系，而智能體的安全治理還涉及智能體開發(fā)者、技能插件開發(fā)者、平臺運營者和終端用戶等多方主體。要通過專門的規(guī)范性文件，明確各方主體的安全責任邊界，尤其是明確智能體造成損害時的責任分配規(guī)則。

建立智能體技能市場的準入審查制度。參照移動應用商店的審核模式，要求技能插件在上架前通過安全檢測，并建立惡意插件的快速下架和開發(fā)者追溯機制。對于涉及文件系統(tǒng)訪問、網(wǎng)絡通信、支付操作等敏感權限的技能插件，實施更為嚴格的審查標準和持續(xù)監(jiān)測要求。

完善智能體決策與行為的透明性及可追溯性要求。規(guī)定智能體系統(tǒng)必須保留完整的決策日志和操作記錄，包括每一次模型調用的輸入輸出、每一次工具使用的參數(shù)和結果、每一次權限申請和授權的詳細信息。這些日志記錄不僅是安全事件發(fā)生后進行事故調查和責任界定的必要依據(jù)，而且是智能體行為審計和合規(guī)檢查的基礎數(shù)據(jù)。

探索建立智能體安全等級分類制度。根據(jù)智能體的權限范圍、應用場景和潛在風險等級，將智能體劃分為不同的安全等級，實施差異化監(jiān)管。例如，僅具備文本生成能力的輕量級智能體，可以適用較為寬松的監(jiān)管標準，而擁有系統(tǒng)級操作權限的全功能智能體，則應滿足更為嚴格的安全認證要求。

推動生態(tài)共治。建立多方參與的測評體系，搭建風險評估平臺，通過普遍接受和認可的方式測評新一代人工智能，完善標準體系，建立容錯機制，在協(xié)同互動中避免安全漏洞和風險。政府要發(fā)揮規(guī)則制定和底線監(jiān)管的主導作用，通過制定安全標準、建立審查機制、實施執(zhí)法監(jiān)督等手段，為智能體生態(tài)的健康發(fā)展劃定安全底線。同時，注重監(jiān)管方式的靈活性和適應性，避免過于剛性的管制措施抑制技術創(chuàng)新活力。有的地方政府已開始探索人工智能體安全治理的先行先試路徑，如廣東省標準化協(xié)會推出團體標準《智能體任務執(zhí)行安全要求》，為全國性制度建設積累了寶貴經(jīng)驗。

學術界要加強智能體安全的基礎研究，為治理實踐提供理論支撐和技術儲備。當前，智能體安全研究仍處于起步階段，在提示詞注入防御、智能體行為評估、技能插件惡意行為檢測等方向上，面臨大量亟待突破的科學問題。高校和科研機構要加大在這些方向上的研究投入，培育智能體安全領域的核心技術能力。

企業(yè)和開源社區(qū)要承擔起智能體的主體責任。智能體框架的開發(fā)者可以在產(chǎn)品設計階段就將安全性作為核心考量，遵循“安全設計”原則。技能市場的運營者要建立健全內部安全審計流程，投入必要資源進行持續(xù)的安全監(jiān)測。開源社區(qū)可以建立安全漏洞的協(xié)調披露機制，鼓勵安全研究人員報告發(fā)現(xiàn)的安全問題。

此外，鑒于開源人工智能體的國際化特征，應積極參與國際人工智能安全治理對話與合作。在開源社區(qū)治理規(guī)范、跨境數(shù)據(jù)流動規(guī)則、安全漏洞信息共享等領域，推動建立國際協(xié)調機制，既維護國家安全利益，又促進全球人工智能生態(tài)的健康發(fā)展。

強化能力建設。人工智能體安全治理是一個高度交叉的領域，既需深厚的計算機科學和信息安全技術功底，又需對法律、倫理、公共管理和社會治理的深刻理解。要加快培養(yǎng)兼具技術素養(yǎng)和治理能力的復合型人才，在高校的計算機科學、網(wǎng)絡安全、公共管理等專業(yè)中增設智能體安全相關課程，鼓勵跨學科研究團隊的組建和協(xié)作。

加強面向公眾的人工智能安全素養(yǎng)教育?！梆B(yǎng)龍蝦”熱潮的參與者中，相當一部分是缺乏專業(yè)技術背景的普通用戶，他們對智能體的能力邊界、潛在風險和安全防護措施缺乏充分認知。要通過多種渠道和形式，幫助公眾理解智能體的工作原理和安全風險，掌握基本的安全防護技能，如權限管理、數(shù)據(jù)備份、異常行為識別等，提升全社會的人工智能安全意識。

開源人工智能體的興起，意味著人機協(xié)作正從“人類使用工具”邁向“人類委托代理”，這一轉變蘊含著巨大的生產(chǎn)力釋放潛能，也潛藏著日益突出的安全風險。唯有堅持統(tǒng)籌發(fā)展和安全的戰(zhàn)略思維，以技術創(chuàng)新驅動安全能力提升，以制度建設保障安全底線，以生態(tài)共治凝聚治理合力，以能力建設夯實長遠根基，我國在全球人工智能體競爭中才能既搶占技術制高點，又守住安全基本盤，為以中國式現(xiàn)代化全面推進中華民族偉大復興提供堅實的智能化支撐。

選自 | 《人民論壇》雜志 2026年第6期

原標題 | “養(yǎng)龍蝦熱”的智能體安全隱憂

作者 | 復旦大學計算與智能創(chuàng)新學院教授、博導肖仰華

新媒體編輯 | 趙光菊

原文責編 | 靳佳

人民論壇新書上架

《治理智慧每日讀》正式發(fā)售

300余條治理智慧

幫助黨員干部深化治理認知

增強履職本領

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數(shù)碼

房產(chǎn) / 家居

肖仰華：“養(yǎng)龍蝦熱”的智能體安全隱憂