![]()
近日清華大學于IEEE TPAMI發表論文,探討了真機強化學習的安全性保障問題,提出了一套「安全探索均衡」新型機制,揭示了安全探索的理論最大邊界,并攻克了其收斂性證明難題。該論文通訊作者為清華大學車輛學院、人工智能學院教授李升波;共同第一作者為清華大學博士生楊雨杰、鄭志龍。
當下,具身智能正經歷著爆發式的演進。強化學習是其背后的核心驅動算法。然而,想要讓智能體真正走出虛擬仿真,在物理世界中落地應用,真機強化學習(Real-World RL)是繞不開的終極考驗。
與在仿真器里無限次試錯不同,真實世界沒有「重來」的按鈕。如果在物理環境中進行無限制的探索,極易導致機器損壞甚至人員傷亡。這就引出了真機強化學習中最核心的難題:安全探索(Safe Exploration)。
安全探索不僅要求最終學到的策略是安全的,更苛刻的是,它要求在整個訓練過程中,所有的中間策略都必須嚴格安全,智能體與真實環境的每一次交互都不能突破約束邊界。
![]()
論文連接:https://ieeexplore.ieee.org/document/11419867
步步為營:安全探索的基本思想
如何在充滿未知的現實世界里做到百分之百的安全?現有的主流方法給出了一個直觀的思路:將探索嚴格限制在一個「可行區域(Feasible Zone)」 內。
這個可行區域,是由預先建立的「環境模型」推算得到的。由于真實世界十分復雜,最初始的環境模型往往存在誤差(即不確定性)。但算法會對模型進行最壞情況的打算,得到的可行區域對模型誤差具有魯棒性。因此,只要待在這個區域內,真實環境下的絕對安全就能得到保證。
在這個邏輯下,智能體的學習過程就變成了一個「滾雪球」的良性循環:在現有的可行區域內收集交互數據用這些數據擬合環境模型并降低其誤差依靠更精準的模型推算出更大的可行區域。
巨人的盲區:雪球會越滾越大,但終點在哪?
這一「邊探索、邊建模、邊擴圈」的路徑,吸引了眾多國際頂尖學者的目光。
例如,瑞士工程科學院院士、ACM/IEEE Fellow Andreas Krause 教授團隊提出了一系列利用李雅普諾夫函數表示可行區域、用高斯過程擬合環境模型的方法;美國工程院院士、IEEE/IFAC Fellow Claire Tomlin 教授團隊則借助哈密頓 - 雅可比(HJ)可達性分析攻克可行區域的求解難題。
然而,沿著這條路線前行,前人卻留下了一個極其關鍵卻始終懸而未決的難題:這個不斷擴圈的探索過程究竟會不會收斂?如果會,它最終會收斂到哪里?我們理論上究竟能探索到多大的極限區域?
這篇由清華大學李升波教授團隊最新發表于 IEEE TPAMI 2026的論文,首次對這個問題給出了擲地有聲的解答:這個過程必然會收斂,且收斂點被嚴格定義為安全探索的「均衡(Equilibrium)」。
撥云見日:何為「安全探索均衡」?
要理解這個概念,我們可以把可行區域和環境模型看作一對相互依存的雙子星:更準確的模型能解鎖更大的區域,而更大的區域能提供更多的數據,進而孕育出更準確的模型。
所謂「均衡」,就是這對雙子星共舞的完美不動點:當探索到達這個點時,區域已經擴張到了極限,再也無法提供能進一步降低模型誤差的新數據;同時模型也精準到了極限,再也無法支撐區域進一步拓展。
在這個不動點上,兩者達到了完美平衡。它包含兩個核心要素:
- 最大可行區域(Maximum Feasible Zone):在當前模型認知下,智能體能拓展出的最廣闊的安全地盤。
- 最小不確定模型(Least Uncertain Model):在給定區域內,利用所有已知數據將誤差降到理論最低的極限模型。
![]()
安全探索過程示意:模型精度逐步提升,可行區域逐步擴大,直至抵達均衡點
大道至簡:兩步交替的 SEE 算法
尋找這個均衡點聽起來高深,但團隊提出了一種極其直觀的算法框架 —— 安全均衡探索(SEE, Safe Equilibrium Exploration)。
摒棄復雜的推導,SEE 的工作原理只需要兩步交替迭代:
- 第一步(求區域):固定當前的環境模型,通過求解風險貝爾曼方程(Risky Bellman Equation),精準算出它所能支撐的「最大可行區域」。
- 第二步(求模型):固定剛找到的可行區域,把尋找「最小不確定模型」的問題轉化為圖論中的團判定問題(Clique Decision Problem),并在多項式時間內進行近似求解。
只需不斷交替這兩步,研究團隊通過嚴密的數學理論證明了其優美的性質:在迭代過程中,模型誤差會單調減小,可行區域會單調擴展,并且最終一定會收斂到那個完美的「安全探索均衡」點。
扎實的數值驗證:收斂性與安全性的統一
這套理論在數值仿真中得到了扎實的驗證。團隊在三個經典的控制任務上對 SEE 算法進行了測試,包括:2D 線性雙積分器調節、2D 非線性倒立擺平衡,以及 3D 非線性獨輪車避障任務。
![]()
雙積分器調節任務可行區域單調擴展過程
![]()
獨輪車避障任務可行區域單調擴展過程
實驗結果清晰地展示了算法的理論特性:SEE 算法在探索未知環境的全過程中,不僅實現了嚴格零約束違反,并且在效率上表現優異,僅僅經過寥寥幾次迭代(如獨輪車任務僅需 10 次迭代,區域召回率即達 95.78%),就能迅速逼近理論上的最大極限區域,抵達安全探索的均衡點。
結語:拋磚引玉,共筑真機 RL 的安全底座
本文的核心價值,絕不僅僅是為一個古老的數學問題提供了一個確切的證明,團隊更希望這項工作能成為真機強化學習領域的一塊「引玉之磚」。
這篇論文首次厘清了「安全探索到底在探索什么」這一根本目標,并將「安全探索均衡」這一概念清晰地立在了大家面前。它傳遞了一個明確的信號:在物理世界做強化學習訓練,區域擴張與模型更新絕非孤立的兩個任務,而是通向同一均衡點的雙向奔赴。
無論未來的研究者是引入更復雜的神經網絡進行函數逼近,還是將其泛化部署到自由度極高的人形機器人上,這一「均衡」范式都為智能體的探索提供了數學上的安全底座。這篇論文并非一個終點,而是一個全新的起點。期待這一視角能為廣大同行提供新的破局思路,讓具身智能的真機強化學習迎來真正的爆發。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.