網易首頁 > 網易號 > 正文申請入駐

復旦、CityUHK、SMU、UIUC等13家聯合發布「具身智能安全」綜述

2026-05-25 11:22:17　來源: 機器之心Pro

天津舉報

分享至

具身智能（Embodied AI）正在快速從實驗室走向真實世界。

自動駕駛汽車開始在城市道路中穿梭，機械臂在工廠里自主抓取和裝配，服務機器人逐漸進入醫院、商場與家庭。與傳統大模型不同，這些系統不再只是「在屏幕上說話」——它們正在直接連接傳感器、驅動執行器，并對物理世界產生真實影響。

但與此同時，一個更深層、也更危險的問題正在浮現：當大模型開始驅動物理世界，過去那些「說錯話」的安全風險，將第一次演變成「干錯事」的現實風險。

對于聊天機器人，一段越獄提示詞最壞可能只是生成有害文本；但對于機械臂、自動駕駛或機器人系統，同樣的攻擊卻可能直接轉化為危險動作，甚至對現實世界造成不可逆后果。

近日，來自復旦大學可信具身智能研究院、上海創智學院、香港城市大學、新加坡管理大學、伊利諾伊大學、墨爾本大學、約翰霍普金斯大學、南洋理工大學、中科院自動化所等 13 家機構的 38 位學者，聯合發布了迄今最系統的具身智能安全技術綜述，全文70+頁，覆蓋近480+篇研究論文。

論文標題：Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses
論文鏈接：
https://arxiv.org/abs/2605.02900
項目倉庫：
https://github.com/x-zheng16/Awesome-Embodied-AI-Safety
項目網站：
https://x-zheng16.github.io/Awesome-Embodied-AI-Safety/

綜述將具身智能劃分為一個逐層遞進的「五層能力圈」：感知、認知、規劃、行動與交互，以及 Agentic 系統，并提出了一個貫穿全文的核心洞察——

「能力—風險」二象性（Capability-Risk Duality）

每增加一層能力，就會新增一層攻擊面；能力越強，風險面也越廣。

感知

這也構成了整篇綜述的核心組織邏輯。沿著五層能力圈，具身智能系統的風險正在從「數字世界」逐步演化為「物理世界」：

在感知層（例如人臉門禁系統），攻擊者主要操縱傳感器輸入；
當系統具備認知能力（例如博物館導覽機器人），攻擊面進一步擴展到語言理解與視覺推理；
當系統具備規劃與閉環決策能力（例如自動駕駛），攻擊者甚至可以干擾路徑決策、軌跡預測與實時控制；
當系統進一步具備復雜物理交互能力（例如機械臂、人形機器人），錯誤決策將直接轉化為現實世界中的危險動作與物理傷害；
而當系統演化為具備記憶、工具調用、自主規劃與持續進化能力的Agentic 系統后，內層任意一個漏洞，都可能沿著能力棧逐層級聯放大。

換句話說，過去那些被孤立討論的「對抗樣本」「后門攻擊」「越獄攻擊」，在具身智能時代將不再只是單點安全事件。

它們會沿著「感知—認知—規劃—行動」的能力鏈條不斷傳遞與放大，最終從一次模型錯誤，演變為一次真實世界中的系統性事故。

圖 1：「能力—風險」二象性。能力棧每多一層，攻擊面擴大一圈。

五層威脅，一圖看懂具身智能安全

綜述進一步將分散的攻擊與防御研究統一到同一套能力框架中，系統梳理了不同能力層對應的核心攻擊面與現實風險：

能力層

代表性攻擊

真實世界后果

感知層

對抗樣本、后門攻擊、傳感器欺騙

障礙物漏檢、停止標志誤判、雷達欺騙

認知層

思維鏈劫持、推理后門

空間理解錯誤、上下文誤解、錯誤語義推理

規劃層

任務越獄、軌跡中毒、決策操縱

不安全路徑規劃、違反控制指令、機器人闖入禁區

行動與交互層

控制對抗、人機交互后門

機械臂撞人、車輛失控、繞過安全協議

Agentic 系統層

工具 / 技能濫用、記憶投毒、記憶泄漏、級聯失效

持久不安全行為、隱私泄漏、跨任務污染、自進化對齊崩塌

圖 2：具身智能 5 層能力棧中的攻擊面與威脅分布。

這篇綜述與已有工作不同在哪里？

具身安全這兩年涌現了一批綜述（VLA Safety, Trustworthy EAI, World-Model Safety, LLM Robotics Security 等）。但絕大多數只看其中一層——

有的只研究 VLA 模型的對抗魯棒性；
有的只看導航場景下的穩健性；
有的只關注 LLM 控制機器人時的提示注入；
還有的把安全當作「IoT 系統中的一個組件」。

而這篇綜述堅持一個核心立場：

必須端到端地看整個 embodied pipeline，因為攻擊會跨層級聯。

它不僅整合了 embodied-specific 的工作，還從 vision、language、multimodal 基礎模型安全研究中篩選出與具身高度相關的工作，把「具身智能安全」放回更大的 AI 安全圖景里。

被低估的幾個研究空白

讀這篇綜述最值得收藏的部分，是它指出的幾條幾乎沒人系統研究的開放問題：

多模態融合的脆弱性——融合越多模態，安全越復雜，但目前幾乎沒有針對融合層的攻防分析；
規劃層在越獄攻擊下的穩定性——LLM 當 planner，越獄后果不再是「輸出有害文本」，而是「機器人開始執行有害任務」；
開放場景下的人機交互可信度——傳統 HRI 安全假設交互是閉合的，但真實世界里的對話是開放的；
Agentic 系統的級聯失效路徑——記憶、工具、技能、自進化之間如何相互污染，目前缺少形式化框架。

這些每一條都足以撐起一個獨立的研究方向。

不只是綜述，更是一套社區資源

團隊同時維護了完整的開放資源生態，包括：

Awesome-Embodied-AI-Safety GitHub 倉庫（已收錄 480+ 篇文章，按層級 + 子類組織，持續更新）；
項目網站：提供分類瀏覽、研究統計與結構化閱讀視圖；
arXiv 雙月更新機制：團隊以雙月節奏同步最新 arXiv 工作，目前已納入 HazardArena、RedVLA、JailWAM、IPI-in-Wild、MCP Function Hijacking、Skill Safety 等最新研究。

對于關注具身智能安全的研究者而言，這篇綜述不僅是一份文獻整理，更像是一張進入整個領域的「導航地圖」。

具身智能正在重新定義 AI 與現實世界的連接方式。

當一個模型不再只是「在屏幕上說話」，而開始真正進入物理世界——開始抓取、行走、操控、駕駛、交互、長期記憶，甚至自主進化——安全問題也正在發生根本性變化。

過去，模型「說錯一句話」，后果往往仍停留在數字空間；

而在具身智能時代，一次感知偏差、一次規劃錯誤、一次越獄攻擊，都可能最終演化為真實世界中的危險動作與系統性事故。

這意味著，安全已經不再只是某一種攻擊、某一個 Benchmark、某一篇論文能夠單獨解決的問題。

它正在成為貫穿感知、認知、規劃、行動與 Agentic 系統的底層問題。

而這篇綜述最重要的一點，或許正是它反復強調的那句話：

在具身智能時代，安全應當與能力同步設計，而不是事后打補丁。

如果你也在關注機器人、自動駕駛與智能體如何真正走進現實世界，那么這篇綜述，值得收藏。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.