網易首頁 > 網易號 > 正文申請入駐

韓國KAIST破解機器人學習不穩定難題：讓AI既勇于探索又不忘本

2026-06-11 17:03:23　來源: 科技行者

北京舉報

分享至

這項由韓國科學技術院（KAIST）與首爾國立大學聯合完成的研究，于2026年5月發表在arXiv預印本平臺，論文編號為arXiv:2605.27079。感興趣的讀者可以通過該編號查詢完整論文。

機器人要學會一項新技能，就像一個從小學鋼琴的孩子要改學爵士樂一樣。孩子已經打下了扎實的古典樂基礎，彈奏姿勢和樂理知識都很不錯，但爵士樂有自己的風格和即興發揮的要求。關鍵問題在于：如何讓孩子把古典功底用上，同時又真正學會爵士樂，而不是彈出一堆不倫不類的東西？更糟糕的情況是，孩子太激進地改變彈法，把原來的古典底子也毀了，反而連基本曲子都彈不好了。

AI機器人訓練領域面臨的，正是這個幾乎一模一樣的困境。研究團隊通過一種被他們命名為"信賴域Q伴隨匹配"（Trust Region Q-Adjoint Matching，簡稱TRQAM）的方法，為這個問題給出了一個精妙的解答。

一、先搞清楚問題的根源

要理解這項研究的價值，得先明白機器人是怎么學動作的。近年來，一種叫做"流匹配策略"的方法越來越流行。這種方法可以理解為：機器人不是直接輸出一個動作指令，而是經過十幾個小步驟，像雕刻家一樣從一團隨機的"泥巴"（噪聲信號）出發，一步步雕刻出最終的動作。這種多步驟的生成過程讓機器人能夠表達非常豐富、多樣化的動作，就像雕刻比直接用模具壓制能產生更精細的作品一樣。

在機器人學會了一些基礎動作（比如通過大量示范數據訓練出的預訓練策略）之后，下一步就是通過強化學習讓它進一步優化，學會完成具體任務。這個過程叫做"離線強化學習微調"。這里用一個"評委打分"的框架來理解：機器人執行動作，一個叫做"評論家"（critic）的模塊給動作打分，機器人據此調整，爭取獲得更高的分數。

然而，這個過程有個要命的弱點。評論家不是完美的裁判，它的打分本身也有誤差。更糟糕的是，在強化學習中，評論家是靠著自己上一輪的打分來訓練下一輪打分的，錯誤會像滾雪球一樣越來越大。當這個打分誤差驅動機器人調整動作時，可能會把機器人推向一個極端、錯誤的方向，遠遠偏離原來學到的好的基礎動作，最終整個策略崩潰，任務完成率從80%以上直接掉到接近零。

在這項研究出現之前，一個叫做QAM（Q-learning with Adjoint Matching，Q學習伴隨匹配）的方法嘗試解決多步驟采樣的不穩定問題，但它并沒有解決評論家誤差放大的問題。QAM的開發者們也承認，需要一個更有原則性的方法，而不是靠簡單的"梯度裁剪"（一種粗暴的手段，相當于強制規定每一步不許走太大，但并不能從根本上保證方向是對的）來湊合。

研究團隊在Robomimic（一個機械臂操縱基準測試平臺）上驗證了這個崩潰現象的嚴重性：無論把QAM的超參數調成什么樣，在大多數設置下，訓練損失都會爆炸式增長到10的20次方以上，任務成功率隨之崩潰。這不是偶爾出現的小問題，而是一個系統性的結構性缺陷。

二、評論家誤差為什么會被指數級放大

研究團隊用嚴格的數學推導解釋了崩潰的機制，但這里可以用生活化的語言來理解。

回到鋼琴孩子的比喻。假設有一位不太靠譜的評委，他對某首曲子的判斷有一定誤差，可能把實際得8分的曲子打成了10分，或者把實際得6分的打成了4分。這時候，孩子有多努力地按照這位評委的反饋來調整，就有多大風險走偏。如果孩子對評委的反饋極其敏感（學術上叫做"高逆溫度β"），哪怕評委的誤差只有一點點，孩子的彈法也可能發生翻天覆地的變化，因為他在用指數級的力度回應這個誤差信號。

研究團隊將這個現象正式證明為"定理"，其核心結論是：當評論家打分有誤差ε時，機器人策略偏離原來策略的程度，在總變差距離這個指標上，會以e的2βε次方這種指數級的幅度增長。β越大，意味著機器人越聽評論家的話，誤差的放大效果也就越恐怖。而在QAM這樣的方法中，β是一個固定值，不能隨著評論家質量的變化而自適應調整，這正是其脆弱性的根源。

三、核心創新：把"安全繩"編進動作生成的DNA

TRQAM的核心思路是：與其在最終的優化目標上加一個懲罰項來約束機器人"別走太遠"，不如把這個約束直接編織進機器人生成動作的每一個步驟之中。

這是一個非常本質的區別。用烹飪來類比的話，兩種方法的區別就像這樣：一種方法是先讓廚師隨意發揮，最后嘗一口如果太咸就扣分；另一種方法是在廚師每次加鹽的時候，直接控制鹽罐子的開口大小。前者（外部懲罰）只能事后追責，如果廚師加鹽的手太重，菜已經毀了，扣分也晚了。后者（內部控制）從源頭上就限制了鹽的用量，菜根本沒有機會被放壞。

具體來說，研究團隊在機器人生成動作的隨機微分方程（可以理解為描述"泥巴如何一步步被雕刻成動作"的數學方程）中，引入了一個參數λ（希臘字母lambda，讀作"拉姆達"）。通過將擴散系數乘以√λ（λ的平方根），他們證明了一個極其精妙的性質：機器人當前策略與原始預訓練策略之間的偏離程度，可以被表達為λ的一個精確數學函數。換句話說，調節λ就能精確控制機器人走了多遠。

支撐這一結論的數學工具是一個叫做"吉爾薩諾夫定理"的概率論定理。這個定理可以通俗地理解為：如果你改變了一個隨機過程的"漂移方向"（就像在河里加一個電機，改變水流方向），那么新的漂流路徑和原來自然漂流路徑之間的差異，可以用一個精確的公式來計算。研究團隊利用這個定理，推導出了路徑空間KL散度（一種衡量兩條隨機路徑有多不同的指標）與控制代價之間的等式關系，其中λ作為倒數系數明確出現。

這意味著：λ越大，路徑空間KL散度越小，機器人生成的動作路徑就越接近預訓練策略；λ越小，機器人越可以大膽探索，生成與原來差異更大的動作。此外，研究團隊還證明了終端動作分布的KL散度不超過路徑空間的KL散度，因此控制路徑就能同時控制最終動作的偏離范圍。三個結論串聯起來，形成了一條從λ到評論家誤差放大程度的完整控制鏈。

四、如何讓λ自動調節：對偶下降法

既然λ控制著安全距離，那么如何設定一個合適的λ？如果λ太大，機器人永遠不敢邁步，學不到新東西；如果λ太小，機器人又可能因為跑得太野而摔跤。

研究團隊的答案是：不需要手動設定一個固定的λ，而是給定一個KL預算εKL（這是唯一需要用戶設定的關鍵超參數，代表允許機器人與原始策略偏離多遠），然后讓λ通過一種叫做"投影對偶下降"的自動優化方法持續調整自己。

這個調整邏輯非常直觀，就像一個智能空調系統：測量一下當前室溫，如果比設定溫度高，就加大制冷力度；如果比設定溫度低，就減小制冷力度。在TRQAM中，每一輪訓練都會估算當前策略與預訓練策略之間的實際KL散度，然后與目標上限εKL比較。如果實際偏離超出了預算，就增大λ，讓動作生成過程更保守；如果實際偏離低于預算，就減小λ，讓機器人大膽一點。

實際估算KL散度的方法也很聰明：每次生成動作時，對比在每一步上"當前策略想走的方向"和"預訓練策略想走的方向"之間的差異，把所有步驟的差異加總起來，就得到了路徑空間KL散度的一個可靠估算值。為了減少隨機波動帶來的干擾，還對這個估算值做了指數移動平均處理（相當于不看單次測量，而是看近期的平均趨勢）。

五、內部控制與外部懲罰的本質區別

研究團隊特別花了一節內容對比兩種看起來相似但實際上截然不同的方案：把KL散度約束加進優化目標（外部懲罰），對比把λ編進動作生成過程（內部控制，即TRQAM）。

表面上看，兩種方案都用了對偶下降法來調節λ，區別好像只是技術細節。但實際上，外部懲罰方案中的λ只是一個損失函數里的權重系數，評論家的梯度信號和KL懲罰信號在同一個優化步驟中競爭，當評論家信號很強時，KL懲罰就會被"淹沒"，實際偏離程度仍然可以遠超預算上限。這就回到了前面那道"事后咸了再扣分"的困境。

而TRQAM的內部控制方案中，√λ·σ(τ)這個擴散系數被OT調度（一種固定的數學函數）鎖定，調整λ意味著同時改變σ(τ)，這會重塑整個隨機微分方程，包括其漂移項。增大λ就是物理地縮小了每一步采樣時的隨機擾動幅度，從而物理地拉近了受控過程與原始過程之間的距離。由吉爾薩諾夫定理保證，路徑空間KL散度是λ的精確函數，對偶更新會直接通過采樣動態來執行信賴域約束，而不是和評論家梯度在損失層面打架。

實驗結果非常清晰地展示了這種區別。在Robomimic平臺的三個任務（lift、can、square）上，跨越六個不同的εKL目標值（0.01到1.5），TRQAM在整個離線到在線訓練過程中始終將實際KL散度緊貼在目標附近，而外部KL懲罰方案在每一個目標值下都讓實際偏離大幅超出預算，伴隨著任務成功率的相應下滑。

六、實驗結果：在50個任務上全面領跑

研究團隊在OGBench平臺的50個任務上進行了主實驗對比。OGBench是一個覆蓋了長距離導航、多物體操控和組合規劃等多種難度類型的標準測試集，包括antmaze-large（螞蟻迷宮大型）、antmaze-giant（螞蟻迷宮巨型）、humanoidmaze-medium和humanoidmaze-large（人形機器人迷宮中型和大型）、scene（場景操控）、puzzle-3×3和puzzle-4×4（拼圖類組合規劃）、cube-double、cube-triple、cube-quadruple（2到4個方塊的多步操控）這10個任務類型，每類5個子任務。

對比方法涵蓋了當前主流的幾種流策略強化學習方向：FQL（直接蒸餾為一步策略）、CGQL-Linex（分類器引導采樣）、DSRL（在噪聲空間做強化學習）、IFQL（隱式Q學習加拒絕采樣）以及同系列的QAM和QAM-E。

TRQAM在離線強化學習階段（訓練100萬步時）的整體成功率達到了68%，而次優方法DSRL和QAM-E分別只有46%和45%，差距超過22個百分點。相比QAM本身，TRQAM高出了33個百分點。在具體任務類型上，TRQAM在puzzle-4x4上達到99%、puzzle-3x3上達到100%、antmaze-large上達到89%、humanoidmaze-medium上達到84%，在幾乎所有任務上都優于所有對比方法，在長距離規劃和組合難度高的任務上優勢尤為顯著。

一個特別有意思的對比實驗揭示了預訓練的重要性。研究團隊把TRQAM、QAM和QAM-E分別從預訓練策略出發和從零開始訓練，在humanoidmaze-medium任務上進行對比。結果是：QAM和QAM-E無論從哪里出發，學習曲線幾乎重合，預訓練完全沒有帶來任何好處，仿佛預訓練的知識被后續的不穩定優化徹底抹掉了。而TRQAM從預訓練策略出發的版本比從零出發的版本快得多，而且最終成功率也更高，這說明TRQAM真正做到了在提升性能的同時保留預訓練知識。

在離線到在線的過渡階段（之后追加50萬步在線交互訓練），TRQAM同樣保持了領先優勢，所有任務類型的學習曲線都在其他方法之上持續改善。

七、εKL這個旋鈕該怎么撥

由于TRQAM精確執行KL預算，εKL成為了唯一需要用戶調節的關鍵超參數，而且它的含義非常直觀：它就是機器人被允許偏離預訓練策略多遠。實驗顯示，εKL對任務成功率的影響是平滑且可預測的，不會出現"突然崩潰"這種讓調參者抓狂的現象，而是隨著εKL的變化，成功率曲線平緩地上移或下移。

研究團隊在humanoidmaze-medium、humanoidmaze-large、cube-double和cube-triple四個代表性任務上，掃描了εKL從0.5到4.0的8個取值，發現緊一些的預算（較小的εKL）在這四個任務上普遍更好，而對于狀態空間更大的puzzle-4x4任務，更大的εKL反而單調地帶來更好的效果，因為這類任務需要機器人大范圍探索新狀態。這種規律與任務的結構特征完全吻合，給了用戶一個非常可操作的調參指導原則：狀態空間大、探索需求高的任務，放大εKL；需要精細操控、應該緊貼示范的任務，收緊εKL。

在antmaze-giant這種狀態空間特別巨大的任務上，研究團隊還展示了一個額外技巧：在離線階段用較小的εKL（0.5）穩定訓練，切換到在線階段時將εKL提升到3.0，讓機器人有更大的探索自由度。TRQAM對這種動態預算完全支持，切換后實際KL散度幾乎立即跟上新目標，不會引發任何不穩定。這相當于給了用戶一個"變速器"，可以在訓練的不同階段靈活切換策略的激進程度。

歸根結底，TRQAM做的事情用一句話來總結就是：把信賴域約束從"嘴上說說的規矩"變成了"物理上無法逾越的圍欄"。傳統方法說"不要偏離太多"，但當評論家給出強烈的錯誤信號時，這句話形同虛設。TRQAM則通過改變動作生成過程本身的物理參數，從根本上確保偏離的幅度可以被精確控制。

這項研究對于實際部署機器人系統有著直接的意義。當你有一個已經學會基本操作的機器人，想讓它通過與真實環境的交互來進一步優化，現在終于有了一種方法可以在保留其已有能力的前提下進行穩定的改進，而不用擔心它在某一天突然忘記怎么做最簡單的事情。對于追求既能適應新任務又不會退步的通用機器人這個長期目標，這是一塊相當扎實的基石。

當然，正如研究團隊自己指出的，TRQAM也有局限性：計算伴隨匹配損失需要在反向傳播過程中對速度場做向量-雅可比乘積，計算量隨模型規模線性增長，對于非常大的策略模型可能帶來較高的計算開銷。這也為未來的改進指出了一個明確方向。

如果對這些技術細節感興趣，可以通過arXiv編號2605.27079查閱完整論文。

Q&A

Q1：TRQAM和QAM有什么區別？

A：QAM在生成動作時沒有自動控制偏離程度的機制，評論家打分誤差可能被指數級放大，導致策略崩潰。TRQAM在動作生成的隨機微分方程中引入了參數λ，通過數學證明將路徑空間KL散度表達為λ的精確函數，再用對偶下降法自動調節λ，使實際偏離始終貼近用戶設定的預算上限εKL，從根本上避免了崩潰。

Q2：εKL這個參數應該怎么設置？

A：εKL代表允許機器人策略與預訓練策略偏離多遠。研究發現，操控類任務和需要精細示范的任務適合較小的εKL（如0.5），而狀態空間很大、需要大范圍探索的任務（如puzzle-4x4）適合較大的εKL（如4.0）。可以在離線訓練階段用小值保持穩定，切換在線階段時再適當放大。

Q3：TRQAM在實際任務上的表現如何？

A：在OGBench的50個標準任務上，TRQAM的整體成功率為68%，而次優方法DSRL和QAM-E分別只有46%和45%。在puzzle-4x4任務上達到99%，puzzle-3x3上達到100%，antmaze-large上達到89%。在Robomimic機械臂操控任務上，QAM和QAM-E在大多數超參數設置下都會崩潰，而TRQAM在所有測試設置中保持穩定。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.