![]()
拆掉“溫室”腳手架,讓機器人直面真實世界。
作者丨吳思夢
編輯丨周蕾、岑峰
2026年6月2日,國際機器人與自動化會議(ICRA 2026)在奧地利維也納進入第二天。普渡大學(Purdue University)計算機科學系教授、IDEAS Lab實驗室主任Aniket Bera發表了題為"RobotsSafe Navigation in Unstructured & Human-Centered Environments"(在非結構化與以人為中心環境中安全導航)的主題演講,系統闡述了他對魯棒自主機器人系統的一整套方法論。
他的核心論斷直指當前自主系統研發中的結構性缺陷:今天絕大多數“成功”的自主系統,本質上是因為我們把世界變簡單了,而不是機器人真正理解了世界。 工廠里的機械臂被圍欄隔離、倉庫中的AGV依賴地面標記、自動駕駛依賴高精地圖——這些人為鋪設的外部條件,本質上都是幫助系統起步的腳手架。而真正的自主性,恰恰要求最終拆掉它們。
對此,他提出了貫穿其實驗室研究的核心框架——“學習負責提議,結構負責決策”(Learning proposes, Structure decides)。
在這一范式下,任何學習型模塊——無論是視覺感知還是大語言模型——都不應該直接輸出最終控制指令,而是必須先通過一道“可檢查接口”(Checkable Interface):這是一種可被形式化方法驗證、由約束求解器審查的結構化輸出。這條原則貫穿了IDEAS實驗室的四大支柱研究:
![]()
? 感知與世界模型:感知模塊的輸出必須是類型化的狀態(Typed State)——包含物體身份、位姿、語義和不確定性,而非黑箱式的嵌入向量。FlashSLAM、GoSLAM、TransLocNet等工作正是圍繞“讓地圖可查詢、可驗證”這一目標展開。
? 可信自主(Dependability):大語言模型不應充當“無監督的決策者”,而應被降格為“受約束的提案機制”。代表作SELP(ICRA 2025最佳論文入圍)通過在生成過程中實時屏蔽違反時序邏輯規范的token,讓LLM的輸出天然安全。
? 人類行為建模:人不是移動障礙物。機器人必須預測人的社交互動、群體動力學、人-物交互,在幾何約束之外疊加行為約束。
? 多機器人協作:去中心化團隊中,每個機器人必須基于局部觀測和有限通信做出安全決策。
總結而言,Aniket Bera給出了一條清晰的路線圖:學習賦予機器人靈活性,但結構賦予它們可靠性。二者不是對立的技術路線,而是同一系統中不可分割的兩面——而這正是將自主機器人從實驗室"溫室"推向真實"荒野"的必由之路。
以下是Aniket Bera在ICRA 2026大會發表的演講精編稿,AI科技評論基于原英文演講內容進行了不改原意的翻譯編輯:
《Toivard Behaviorally-Intelligent RobotsSafe Navigation in Unstructured &Human-Centered Enironments》
主講人:Aniket Bera,普渡大學(Purdue University)計算機科學系,IDEAS實驗室
01
成功的假象:我們不是在"造聰明機器人",而是在"造溫室"
我是Aniket Bera,普渡大學計算機科學系的教授,領導IDEAS實驗室。我們實驗室橫跨機器人學、計算機視覺、機器學習和以人為中心的自主系統,共同的主線是:我們喜歡造智能的機器人。具身系統如何感知這個混亂的世界?如何推理人類和其他智能體的行為,同時在真實世界中實時執行安全的動作?
我先從一個“成功自主系統”的失效模式講起。我們把世界變簡單了,以為這樣機器人就好辦了——給機械臂圍上圍欄,在倉庫地板上貼標記,給車輛裝高精地圖,在工廠里寫死固定腳本。這些系統能工作,不是因為機器人真正理解環境,而是因為我們把環境精心設計成了機器人能應付的樣子。
而我和我實驗室關心的場景,恰恰是要拆掉這些腳手架。機器人可能沒有GPS,沒有先驗地圖,沒有穩定的工作流程——而一個錯誤動作的代價可能是實實在在的物理損失。幾周前我實驗室就發生過一次,代價昂貴。
02
核心框架:學習負責提案,結構負責決策
正因如此,我把自主系統的問題框架化表述為:在語義約束、社交約束和安全約束下的閉環決策。
![]()
人們常問:你用的是傳統經典機器人方法,還是基于學習的方法?我認為這個問題本身就是錯的。真正有用的問題是——學習型模塊向自主系統其余部分暴露的“接口”是什么?
感知模塊不應該只輸出特征向量,它應該輸出物體、位姿、尺寸和不確定性。同樣,大語言模型不應該直接輸出機器人的控制指令——它應該輸出某種可以被監控、可以被約束求解器檢查的東西。這就是我所說的“可檢查接口”(Checkable Interfaces)。
學習負責提出更豐富的表征、更豐富的候選方案;而結構負責決策哪些可以被信任、哪些需要被執行。這就是我們實驗室工作的底層邏輯。
03
感知:從"好看的地圖"到"可用的狀態"
在機器人能夠推理或行動之前,它需要一個狀態估計——這個狀態必須是幾何的、語義的、可定位的,并且對下游任務有用。機器人需要持久化的物體表征、語義含義、不確定性——即一種可以被底層規劃器查詢的表示。而最難的部分是:所有這些必須實時完成。
核心問題是:你的感知棧輸出的是什么? 如果它輸出的是原始像素或某種黑箱嵌入向量,整個系統棧的其余部分就無法做出安全論證。反之,如果它輸出的是一個類型化的狀態(Typed State),那么規劃和驗證層就能真正使用它。我們需要知道機器人在哪里、場景中有哪些物體、這些物體之間的關系是什么,以及所有這些估計有多不確定。
![]()
近年來,神經渲染領域(如3D高斯濺射)的工作為建圖、定位和SLAM提供了強大的表示。它能給出稠密、照片級真實、可連續優化的地圖。但這里有兩個問題:第一,通過渲染-比較-優化光度誤差來估計相機位姿的管線,對于像無人機這樣需要快速閉環控制的場景來說太慢太脆弱;第二,一幅視覺上完美的高斯地圖,并不自動等同于一個規劃狀態——它不包含物體身份、開放詞匯語義,或校準過的不確定性。
我們的FastSLAM項目正是針對這個延遲問題。我們把位姿估計問題從“渲染-優化”轉變為“匹配-剛體注冊”:將當前幀與活躍關鍵幀進行匹配,反投影得到兩個3D點集,然后求解SE(3)上的最小二乘對齊——SVD解法直接從互協方差矩陣給出旋轉量。位姿變成一個快速的幾何計算,而重建質量可以異步提升。我們已經在搭載NVIDIA Jetson的無人機上部署了這個系統,在茂密森林中實現實時定位與建圖。
沿著同樣的思路,GoSLAM解決的是“如何讓重建的物體具有可指稱性和開放詞匯語義”——讓規劃器可以通過物體名稱查詢地圖,而不是只能通過像素坐標。TransLocNet則解決“無GPS環境下如何將局部地圖全局錨定”——通過將地面觀測與航拍影像進行跨視角、跨季節的配準。想象一下,森林里大雪紛飛,樹葉落盡,而你的衛星圖是夏天拍的。這需要超越像素和坐標層面的表征理解。
所有這些不同的技術問題,被同一條主線縫合在一起:感知必須產出一個可查詢、可定位、可被關注的類型化狀態。
04
可信自主:大模型不是決策者,而是被審查的提案者
接下來進入第二大支柱:可信自主(Dependability)。在這里,科學論證變得更加明確。一個學習型模塊可以非常有用,但同時仍然危險——它會在分布偏移下失效,它的置信度可能被錯誤校準;在語言模型的場景中,它可能生成一個聽上去完美、實則違反任務級約束的計劃。
所以問題是:什么是一個“可檢查的對象”?對感知來說,答案是類型化狀態;對規劃來說,答案必須是一個可容許的計劃或動作。
我們的項目SELP(ICRA 2025最佳論文入圍)正是為此而生。它的核心思想是:將大語言模型的角色從"無約束的規劃器"轉變為"受約束的提案機制"。
![]()
SELP的工作方式是這樣的:將一個機器人任務翻譯成時序邏輯規范(Temporal Logic Specification),然后在生成過程中約束每一步——在每個token被采樣之前,系統先檢查“如果加上這個token,部分計劃是否仍然可行”。
如果不可行,這個token在采樣前就被屏蔽。大語言模型仍然是有用的先驗知識來源(幫助生成高效的計劃),但它不再是安全問題的最終權威。
這意味著什么?它意味著約束不是“事后補救”——不是在模型輸出之后再貼一層安全檢查;約束被嵌入到生成過程本身。 形式化規范不是護欄,而是搜索空間的邊界。
沿著同樣的哲學,我們還開發了CAsForD(Context-Aware Safety For Decision-making,上下文感知決策安全)——當用戶指令不安全時,系統不只說“不”,而是識別不安全成分并選擇安全修復方案。
還有我們實驗室的其他工作,通過讓模型產生數學優化程序來表達運動規劃的時間約束。一以貫之的原則是:學習型模塊永遠不獲得未經審查的權威,它產生的計劃、修復和控制必須可驗證、可約束、可認證。
05
人不是移動障礙物:行為感知導航與多機器人協作
在第三和第四支柱中,我們的工作延伸到更復雜的社交和協作場景。
在人類行為建模方面,我們研究的問題包括:在密集社交場景中預測人類運動、建模群體層面的動力學、人-物交互,以及當場景中的物體需要被移動或重新布置時的規劃。核心主題是:人不僅僅是移動的障礙物——他們互相交互,他們與物體交互,他們與環境交互,圍繞機器人形成了一個耦合的、不確定的動力學系統。 機器人必須預測人類行為,推理以物體為中心的上下文,并在幾何約束不足以保障安全時采取行動。
在多機器人協作方面,我們研究了協作主動重建、多智能體信息路徑規劃、可擴展的多智能體SLAM等問題。核心主題是去中心化的團隊自主性:每個機器人必須基于局部觀測和有限通信采取行動。我們的策略是,在訓練階段使用集中式學習來獲取優勢,但在部署階段以去中心化方式運行——在部分可觀測、通信受限、多智能體動態交互的條件下。
06
結語:讓機器人走出"溫室"
回到最初的四大支柱,我想留給大家一個核心理念:安全的自主系統不是一個單獨的模塊,它是整個系統棧編織在一起的結果。 學習賦予機器人靈活性,但結構賦予它們可靠性。真正的目標是——當世界變得混亂:沒有GPS、地圖不完整、物體在移動、處處都是不確定性——機器人仍然能夠以安全的方式行動。
07
Q&A 問答環節
聽眾A:感謝精彩的演講。我覺得工業界存在一個很大的脫節——我們在追逐KPI數字,和真正部署可驗證、安全的系統之間。我想問,您如何看待基于物理的方法與神經渲染(如高斯濺射)在驗證與安全方面的關系?
Aniket Bera:這個問題切中要害。所有的神經模型都需要——人們常說的——“護欄”(guardrails)。但護欄的問題在于,它是一種事后補救:你把機器學習模型建好了,然后貼上一層基于物理的約束或真實世界約束來限制輸出,讓它在做出危險行為之前被攔住。我認為這是極其錯誤的做法。
這些約束——無論是物理先驗還是來自其他領域的先驗知識——應該被“嵌入”到學習空間本身中去。這就是為什么我們要把問題轉化為形式化方法規范:讓我們能夠獨立地約束空間中的每一個輸出,從一開始就保證生成結果的可靠性和可信性。目標不是“全押”在學習方法上,而是找到一種智能的組合——在何處植入形式化方法規范、在何處植入物理約束、在何處植入特定應用所需的其他約束。
聽眾A(追問):您說的是應該“內置”(in)而不是“后置”(post)。我的問題是:作為一個社區,我們有時候在追逐KPI數字,但真正部署物理系統需要考慮的遠不止一個數字。我們如何才能讓這兩者更接近?
Aniket Bera:我要說一些可能不太受歡迎的話。在與工業界合作、尤其是與制造業和國防領域的工程合作伙伴打交道的過程中,我理解為什么很多工程方案傾向于更傳統的控制方法——因為學術界常常把"學習"包裝成一種萬能神諭,仿佛它能解決下游的一切。
我認為彌合這兩個世界的方法,也是讓工程界對基于學習的方法建立信心的方式,就是從一開始就給學習型問題賦予約束、賦予意義。我們不應該只看“教科書數字”,而應該關注系統在哪里失敗、下游的可靠性指標是什么。這正是這兩個領域需要更頻繁對話的地方。
聽眾B:您談到了讓機器人行為更具社交性。我的問題是如何將這些行為信號傳導到操作層面(manipulation level)?比如在布置餐桌的任務中,用戶可能期望先放杯子再放盤子,這種對齊如何傳導到運動規劃層面?
Aniket Bera:這是一個很有意思的問題。我認為,如果你能夠在任務層面用更好的物理約束來約束生成過程——確保步驟序列物理上可行,不會導向災難狀態或倫理失效——那么,形式化方法的技巧就能幫上忙。你可以將基于學習的方法剖分成子模塊,判斷每一步是否仍在規劃邊界之內,還是已經進入了安全關鍵區域。
不過,安全約束和文化/行為約束的性質不同。如果你能把每一種約束都建模出來,嵌入到像SELP這樣的形式化方法規范中,我認為只要在安全范圍內,沒有理由不能處理文化線索和行為線索。這個問題我們可以在會后繼續聊。
去哪看 ICRA 核心【演講/論文】詳解?
為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨,雷峰網已全面上線【ICRA 2026 深度專區】。
專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。
![]()
與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.