![]()
具身智能(Embodied AI)正在快速從實驗室走向真實世界。
自動駕駛汽車開始在城市道路中穿梭,機械臂在工廠里自主抓取和裝配,服務機器人逐漸進入醫院、商場與家庭。與傳統大模型不同,這些系統不再只是「在屏幕上說話」——它們正在直接連接傳感器、驅動執行器,并對物理世界產生真實影響。
但與此同時,一個更深層、也更危險的問題正在浮現:當大模型開始驅動物理世界,過去那些「說錯話」的安全風險,將第一次演變成「干錯事」的現實風險。
對于聊天機器人,一段越獄提示詞最壞可能只是生成有害文本;但對于機械臂、自動駕駛或機器人系統,同樣的攻擊卻可能直接轉化為危險動作,甚至對現實世界造成不可逆后果。
近日,來自復旦大學可信具身智能研究院、上海創智學院、香港城市大學、新加坡管理大學、伊利諾伊大學、墨爾本大學、約翰霍普金斯大學、南洋理工大學、中科院自動化所等 13 家機構的 38 位學者,聯合發布了迄今最系統的具身智能安全技術綜述,全文70+頁,覆蓋近480+篇研究論文。
![]()
- 論文標題:Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses
- 論文鏈接:
- https://arxiv.org/abs/2605.02900
- 項目倉庫:
- https://github.com/x-zheng16/Awesome-Embodied-AI-Safety
- 項目網站:
- https://x-zheng16.github.io/Awesome-Embodied-AI-Safety/
綜述將具身智能劃分為一個逐層遞進的「五層能力圈」:感知、認知、規劃、行動與交互,以及 Agentic 系統,并提出了一個貫穿全文的核心洞察——
「能力—風險」二象性(Capability-Risk Duality)
每增加一層能力,就會新增一層攻擊面;能力越強,風險面也越廣。
感知
這也構成了整篇綜述的核心組織邏輯。沿著五層能力圈,具身智能系統的風險正在從「數字世界」逐步演化為「物理世界」:
- 在感知層(例如人臉門禁系統),攻擊者主要操縱傳感器輸入;
- 當系統具備認知能力(例如博物館導覽機器人),攻擊面進一步擴展到語言理解與視覺推理;
- 當系統具備規劃與閉環決策能力(例如自動駕駛),攻擊者甚至可以干擾路徑決策、軌跡預測與實時控制;
- 當系統進一步具備復雜物理交互能力(例如機械臂、人形機器人),錯誤決策將直接轉化為現實世界中的危險動作與物理傷害;
- 而當系統演化為具備記憶、工具調用、自主規劃與持續進化能力的Agentic 系統后,內層任意一個漏洞,都可能沿著能力棧逐層級聯放大。
換句話說,過去那些被孤立討論的「對抗樣本」「后門攻擊」「越獄攻擊」,在具身智能時代將不再只是單點安全事件。
它們會沿著「感知—認知—規劃—行動」的能力鏈條不斷傳遞與放大,最終從一次模型錯誤,演變為一次真實世界中的系統性事故。
![]()
圖 1:「能力—風險」二象性。能力棧每多一層,攻擊面擴大一圈。
五層威脅,一圖看懂具身智能安全
綜述進一步將分散的攻擊與防御研究統一到同一套能力框架中,系統梳理了不同能力層對應的核心攻擊面與現實風險:
能力層
代表性攻擊
真實世界后果
感知層
對抗樣本、后門攻擊、傳感器欺騙
障礙物漏檢、停止標志誤判、雷達欺騙
認知層
思維鏈劫持、推理后門
空間理解錯誤、上下文誤解、錯誤語義推理
規劃層
任務越獄、軌跡中毒、決策操縱
不安全路徑規劃、違反控制指令、機器人闖入禁區
行動與交互層
控制對抗、人機交互后門
機械臂撞人、車輛失控、繞過安全協議
Agentic 系統層
工具 / 技能濫用、記憶投毒、記憶泄漏、級聯失效
持久不安全行為、隱私泄漏、跨任務污染、自進化對齊崩塌
![]()
圖 2:具身智能 5 層能力棧中的攻擊面與威脅分布。
這篇綜述與已有工作不同在哪里?
具身安全這兩年涌現了一批綜述(VLA Safety, Trustworthy EAI, World-Model Safety, LLM Robotics Security 等)。但絕大多數只看其中一層——
- 有的只研究 VLA 模型的對抗魯棒性;
- 有的只看導航場景下的穩健性;
- 有的只關注 LLM 控制機器人時的提示注入;
- 還有的把安全當作「IoT 系統中的一個組件」。
而這篇綜述堅持一個核心立場:
必須端到端地看整個 embodied pipeline,因為攻擊會跨層級聯。
它不僅整合了 embodied-specific 的工作,還從 vision、language、multimodal 基礎模型安全研究中篩選出與具身高度相關的工作,把「具身智能安全」放回更大的 AI 安全圖景里。
被低估的幾個研究空白
讀這篇綜述最值得收藏的部分,是它指出的幾條幾乎沒人系統研究的開放問題:
- 多模態融合的脆弱性——融合越多模態,安全越復雜,但目前幾乎沒有針對融合層的攻防分析;
- 規劃層在越獄攻擊下的穩定性——LLM 當 planner,越獄后果不再是「輸出有害文本」,而是「機器人開始執行有害任務」;
- 開放場景下的人機交互可信度——傳統 HRI 安全假設交互是閉合的,但真實世界里的對話是開放的;
- Agentic 系統的級聯失效路徑——記憶、工具、技能、自進化之間如何相互污染,目前缺少形式化框架。
這些每一條都足以撐起一個獨立的研究方向。
不只是綜述,更是一套社區資源
團隊同時維護了完整的開放資源生態,包括:
- Awesome-Embodied-AI-Safety GitHub 倉庫(已收錄 480+ 篇文章,按層級 + 子類組織,持續更新);
- 項目網站:提供分類瀏覽、研究統計與結構化閱讀視圖;
- arXiv 雙月更新機制:團隊以雙月節奏同步最新 arXiv 工作,目前已納入 HazardArena、RedVLA、JailWAM、IPI-in-Wild、MCP Function Hijacking、Skill Safety 等最新研究。
對于關注具身智能安全的研究者而言,這篇綜述不僅是一份文獻整理,更像是一張進入整個領域的「導航地圖」。
具身智能正在重新定義 AI 與現實世界的連接方式。
當一個模型不再只是「在屏幕上說話」,而開始真正進入物理世界——開始抓取、行走、操控、駕駛、交互、長期記憶,甚至自主進化——安全問題也正在發生根本性變化。
過去,模型「說錯一句話」,后果往往仍停留在數字空間;
而在具身智能時代,一次感知偏差、一次規劃錯誤、一次越獄攻擊,都可能最終演化為真實世界中的危險動作與系統性事故。
這意味著,安全已經不再只是某一種攻擊、某一個 Benchmark、某一篇論文能夠單獨解決的問題。
它正在成為貫穿感知、認知、規劃、行動與 Agentic 系統的底層問題。
而這篇綜述最重要的一點,或許正是它反復強調的那句話:
在具身智能時代,安全應當與能力同步設計,而不是事后打補丁。
如果你也在關注機器人、自動駕駛與智能體如何真正走進現實世界,那么這篇綜述,值得收藏。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.