網易首頁 > 網易號 > 正文申請入駐

普渡大學Aniket Bera教授：可靠自主機器人的「安全閥」，藏在“可檢查接口”里 | ICRA 2026

2026-06-08 19:38:49　來源: AI科技評論

廣東舉報

分享至

拆掉“溫室”腳手架，讓機器人直面真實世界。

作者丨吳思夢

編輯丨周蕾、岑峰

2026年6月2日，國際機器人與自動化會議（ICRA 2026）在奧地利維也納進入第二天。普渡大學（Purdue University）計算機科學系教授、IDEAS Lab實驗室主任Aniket Bera發表了題為"RobotsSafe Navigation in Unstructured & Human-Centered Environments"（在非結構化與以人為中心環境中安全導航）的主題演講，系統闡述了他對魯棒自主機器人系統的一整套方法論。

他的核心論斷直指當前自主系統研發中的結構性缺陷：今天絕大多數“成功”的自主系統，本質上是因為我們把世界變簡單了，而不是機器人真正理解了世界。工廠里的機械臂被圍欄隔離、倉庫中的AGV依賴地面標記、自動駕駛依賴高精地圖——這些人為鋪設的外部條件，本質上都是幫助系統起步的腳手架。而真正的自主性，恰恰要求最終拆掉它們。

對此，他提出了貫穿其實驗室研究的核心框架——“學習負責提議，結構負責決策”（Learning proposes, Structure decides）。

在這一范式下，任何學習型模塊——無論是視覺感知還是大語言模型——都不應該直接輸出最終控制指令，而是必須先通過一道“可檢查接口”（Checkable Interface）：這是一種可被形式化方法驗證、由約束求解器審查的結構化輸出。這條原則貫穿了IDEAS實驗室的四大支柱研究：

? 感知與世界模型：感知模塊的輸出必須是類型化的狀態（Typed State）——包含物體身份、位姿、語義和不確定性，而非黑箱式的嵌入向量。FlashSLAM、GoSLAM、TransLocNet等工作正是圍繞“讓地圖可查詢、可驗證”這一目標展開。

? 可信自主（Dependability）：大語言模型不應充當“無監督的決策者”，而應被降格為“受約束的提案機制”。代表作SELP（ICRA 2025最佳論文入圍）通過在生成過程中實時屏蔽違反時序邏輯規范的token，讓LLM的輸出天然安全。

? 人類行為建模：人不是移動障礙物。機器人必須預測人的社交互動、群體動力學、人-物交互，在幾何約束之外疊加行為約束。

? 多機器人協作：去中心化團隊中，每個機器人必須基于局部觀測和有限通信做出安全決策。

總結而言，Aniket Bera給出了一條清晰的路線圖：學習賦予機器人靈活性，但結構賦予它們可靠性。二者不是對立的技術路線，而是同一系統中不可分割的兩面——而這正是將自主機器人從實驗室"溫室"推向真實"荒野"的必由之路。

以下是Aniket Bera在ICRA 2026大會發表的演講精編稿，AI科技評論基于原英文演講內容進行了不改原意的翻譯編輯：

《Toivard Behaviorally-Intelligent RobotsSafe Navigation in Unstructured &Human-Centered Enironments》

主講人：Aniket Bera，普渡大學（Purdue University）計算機科學系，IDEAS實驗室

成功的假象：我們不是在"造聰明機器人"，而是在"造溫室"

我是Aniket Bera，普渡大學計算機科學系的教授，領導IDEAS實驗室。我們實驗室橫跨機器人學、計算機視覺、機器學習和以人為中心的自主系統，共同的主線是：我們喜歡造智能的機器人。具身系統如何感知這個混亂的世界？如何推理人類和其他智能體的行為，同時在真實世界中實時執行安全的動作？

我先從一個“成功自主系統”的失效模式講起。我們把世界變簡單了，以為這樣機器人就好辦了——給機械臂圍上圍欄，在倉庫地板上貼標記，給車輛裝高精地圖，在工廠里寫死固定腳本。這些系統能工作，不是因為機器人真正理解環境，而是因為我們把環境精心設計成了機器人能應付的樣子。

而我和我實驗室關心的場景，恰恰是要拆掉這些腳手架。機器人可能沒有GPS，沒有先驗地圖，沒有穩定的工作流程——而一個錯誤動作的代價可能是實實在在的物理損失。幾周前我實驗室就發生過一次，代價昂貴。

核心框架：學習負責提案，結構負責決策

正因如此，我把自主系統的問題框架化表述為：在語義約束、社交約束和安全約束下的閉環決策。

人們常問：你用的是傳統經典機器人方法，還是基于學習的方法？我認為這個問題本身就是錯的。真正有用的問題是——學習型模塊向自主系統其余部分暴露的“接口”是什么？

感知模塊不應該只輸出特征向量，它應該輸出物體、位姿、尺寸和不確定性。同樣，大語言模型不應該直接輸出機器人的控制指令——它應該輸出某種可以被監控、可以被約束求解器檢查的東西。這就是我所說的“可檢查接口”（Checkable Interfaces）。

學習負責提出更豐富的表征、更豐富的候選方案；而結構負責決策哪些可以被信任、哪些需要被執行。這就是我們實驗室工作的底層邏輯。

感知：從"好看的地圖"到"可用的狀態"

在機器人能夠推理或行動之前，它需要一個狀態估計——這個狀態必須是幾何的、語義的、可定位的，并且對下游任務有用。機器人需要持久化的物體表征、語義含義、不確定性——即一種可以被底層規劃器查詢的表示。而最難的部分是：所有這些必須實時完成。

核心問題是：你的感知棧輸出的是什么？如果它輸出的是原始像素或某種黑箱嵌入向量，整個系統棧的其余部分就無法做出安全論證。反之，如果它輸出的是一個類型化的狀態（Typed State），那么規劃和驗證層就能真正使用它。我們需要知道機器人在哪里、場景中有哪些物體、這些物體之間的關系是什么，以及所有這些估計有多不確定。

近年來，神經渲染領域（如3D高斯濺射）的工作為建圖、定位和SLAM提供了強大的表示。它能給出稠密、照片級真實、可連續優化的地圖。但這里有兩個問題：第一，通過渲染-比較-優化光度誤差來估計相機位姿的管線，對于像無人機這樣需要快速閉環控制的場景來說太慢太脆弱；第二，一幅視覺上完美的高斯地圖，并不自動等同于一個規劃狀態——它不包含物體身份、開放詞匯語義，或校準過的不確定性。

我們的FastSLAM項目正是針對這個延遲問題。我們把位姿估計問題從“渲染-優化”轉變為“匹配-剛體注冊”：將當前幀與活躍關鍵幀進行匹配，反投影得到兩個3D點集，然后求解SE(3)上的最小二乘對齊——SVD解法直接從互協方差矩陣給出旋轉量。位姿變成一個快速的幾何計算，而重建質量可以異步提升。我們已經在搭載NVIDIA Jetson的無人機上部署了這個系統，在茂密森林中實現實時定位與建圖。

沿著同樣的思路，GoSLAM解決的是“如何讓重建的物體具有可指稱性和開放詞匯語義”——讓規劃器可以通過物體名稱查詢地圖，而不是只能通過像素坐標。TransLocNet則解決“無GPS環境下如何將局部地圖全局錨定”——通過將地面觀測與航拍影像進行跨視角、跨季節的配準。想象一下，森林里大雪紛飛，樹葉落盡，而你的衛星圖是夏天拍的。這需要超越像素和坐標層面的表征理解。

所有這些不同的技術問題，被同一條主線縫合在一起：感知必須產出一個可查詢、可定位、可被關注的類型化狀態。

可信自主：大模型不是決策者，而是被審查的提案者

接下來進入第二大支柱：可信自主（Dependability）。在這里，科學論證變得更加明確。一個學習型模塊可以非常有用，但同時仍然危險——它會在分布偏移下失效，它的置信度可能被錯誤校準；在語言模型的場景中，它可能生成一個聽上去完美、實則違反任務級約束的計劃。

所以問題是：什么是一個“可檢查的對象”？對感知來說，答案是類型化狀態；對規劃來說，答案必須是一個可容許的計劃或動作。

我們的項目SELP（ICRA 2025最佳論文入圍）正是為此而生。它的核心思想是：將大語言模型的角色從"無約束的規劃器"轉變為"受約束的提案機制"。

SELP的工作方式是這樣的：將一個機器人任務翻譯成時序邏輯規范（Temporal Logic Specification），然后在生成過程中約束每一步——在每個token被采樣之前，系統先檢查“如果加上這個token，部分計劃是否仍然可行”。

如果不可行，這個token在采樣前就被屏蔽。大語言模型仍然是有用的先驗知識來源（幫助生成高效的計劃），但它不再是安全問題的最終權威。

這意味著什么？它意味著約束不是“事后補救”——不是在模型輸出之后再貼一層安全檢查；約束被嵌入到生成過程本身。形式化規范不是護欄，而是搜索空間的邊界。

沿著同樣的哲學，我們還開發了CAsForD（Context-Aware Safety For Decision-making，上下文感知決策安全）——當用戶指令不安全時，系統不只說“不”，而是識別不安全成分并選擇安全修復方案。

還有我們實驗室的其他工作，通過讓模型產生數學優化程序來表達運動規劃的時間約束。一以貫之的原則是：學習型模塊永遠不獲得未經審查的權威，它產生的計劃、修復和控制必須可驗證、可約束、可認證。

人不是移動障礙物：行為感知導航與多機器人協作

在第三和第四支柱中，我們的工作延伸到更復雜的社交和協作場景。

在人類行為建模方面，我們研究的問題包括：在密集社交場景中預測人類運動、建模群體層面的動力學、人-物交互，以及當場景中的物體需要被移動或重新布置時的規劃。核心主題是：人不僅僅是移動的障礙物——他們互相交互，他們與物體交互，他們與環境交互，圍繞機器人形成了一個耦合的、不確定的動力學系統。機器人必須預測人類行為，推理以物體為中心的上下文，并在幾何約束不足以保障安全時采取行動。

在多機器人協作方面，我們研究了協作主動重建、多智能體信息路徑規劃、可擴展的多智能體SLAM等問題。核心主題是去中心化的團隊自主性：每個機器人必須基于局部觀測和有限通信采取行動。我們的策略是，在訓練階段使用集中式學習來獲取優勢，但在部署階段以去中心化方式運行——在部分可觀測、通信受限、多智能體動態交互的條件下。

結語：讓機器人走出"溫室"

回到最初的四大支柱，我想留給大家一個核心理念：安全的自主系統不是一個單獨的模塊，它是整個系統棧編織在一起的結果。學習賦予機器人靈活性，但結構賦予它們可靠性。真正的目標是——當世界變得混亂：沒有GPS、地圖不完整、物體在移動、處處都是不確定性——機器人仍然能夠以安全的方式行動。

Q&A 問答環節

聽眾A：感謝精彩的演講。我覺得工業界存在一個很大的脫節——我們在追逐KPI數字，和真正部署可驗證、安全的系統之間。我想問，您如何看待基于物理的方法與神經渲染（如高斯濺射）在驗證與安全方面的關系？

Aniket Bera：這個問題切中要害。所有的神經模型都需要——人們常說的——“護欄”（guardrails）。但護欄的問題在于，它是一種事后補救：你把機器學習模型建好了，然后貼上一層基于物理的約束或真實世界約束來限制輸出，讓它在做出危險行為之前被攔住。我認為這是極其錯誤的做法。

這些約束——無論是物理先驗還是來自其他領域的先驗知識——應該被“嵌入”到學習空間本身中去。這就是為什么我們要把問題轉化為形式化方法規范：讓我們能夠獨立地約束空間中的每一個輸出，從一開始就保證生成結果的可靠性和可信性。目標不是“全押”在學習方法上，而是找到一種智能的組合——在何處植入形式化方法規范、在何處植入物理約束、在何處植入特定應用所需的其他約束。

聽眾A（追問）：您說的是應該“內置”（in）而不是“后置”（post）。我的問題是：作為一個社區，我們有時候在追逐KPI數字，但真正部署物理系統需要考慮的遠不止一個數字。我們如何才能讓這兩者更接近？

Aniket Bera：我要說一些可能不太受歡迎的話。在與工業界合作、尤其是與制造業和國防領域的工程合作伙伴打交道的過程中，我理解為什么很多工程方案傾向于更傳統的控制方法——因為學術界常常把"學習"包裝成一種萬能神諭，仿佛它能解決下游的一切。

我認為彌合這兩個世界的方法，也是讓工程界對基于學習的方法建立信心的方式，就是從一開始就給學習型問題賦予約束、賦予意義。我們不應該只看“教科書數字”，而應該關注系統在哪里失敗、下游的可靠性指標是什么。這正是這兩個領域需要更頻繁對話的地方。

聽眾B：您談到了讓機器人行為更具社交性。我的問題是如何將這些行為信號傳導到操作層面（manipulation level）？比如在布置餐桌的任務中，用戶可能期望先放杯子再放盤子，這種對齊如何傳導到運動規劃層面？

Aniket Bera：這是一個很有意思的問題。我認為，如果你能夠在任務層面用更好的物理約束來約束生成過程——確保步驟序列物理上可行，不會導向災難狀態或倫理失效——那么，形式化方法的技巧就能幫上忙。你可以將基于學習的方法剖分成子模塊，判斷每一步是否仍在規劃邊界之內，還是已經進入了安全關鍵區域。

不過，安全約束和文化/行為約束的性質不同。如果你能把每一種約束都建模出來，嵌入到像SELP這樣的形式化方法規范中，我認為只要在安全范圍內，沒有理由不能處理文化線索和行為線索。這個問題我們可以在會后繼續聊。

去哪看 ICRA 核心【演講/論文】詳解？

為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨，雷峰網已全面上線【ICRA 2026 深度專區】。

專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續更新前方記者的第一手會議動態。

與全球 8000 名頂尖大腦同步呼吸，搶先透視具身智能的下一個五年！

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.