網易首頁 > 網易號 > 正文申請入駐

機器人大神Sergey Levine詳解：VLA+強化學習會催生更強大的系統

2025-07-28 20:44:23　來源: RoboX

北京舉報

分享至

Sergey Levine簡介/Physical Intelligence (PI)聯合創始人、加州理工大學伯克利分校（UC Berkeley）副教授。他以流匹配架構與混合專家模型，突破機器人控制瓶頸，并以VLA融合模型重新定義了通用機器人的學習范式。

7月27日，在2025 WAIC上，由智元機器人主辦的「智啟具身論壇」如期舉辦。在其重量級嘉賓陣容中，RoboX首先編譯整理了Sergey Levine的演講內容，供大家參考：

開端：RT-2的「視覺問答」

“幾年前，基于首個機器人基礎模型，我的學生凱文·布萊克發送了一個指令——‘把茄子放進鍋里’。當時的基礎模型運行在遠程服務器上，且運行的是一個我們沒有開發、也不太清楚工作原理的模型。凱文能夠向這個模型發送指令，然后機器人就完成了任務。”

在演講的開頭，Levine回憶道，像這樣簡單的任務，卻已經讓凱文研究了很長一段時間。因此，這一指令的成功，讓他們看到了新型系統勢的能力，以及其不可阻擋的趨勢：

“隨著我們開發出可遠程調用的機器人基礎模型，這將釋放出一種力量，使任何機器人都能執行任何任務。”

他介紹稱，首個機器人VLA模型是RT-2（谷歌DeepMind于2023年7月推出）。RT-2其實是一個非常簡單的模型，它基于能夠處理圖像的大語言模型，并進一步訓練以實現機器人控制，所以它仍屬于語言模型，并可以處理「視覺問答」類任務——向它們展示一張圖片，問一個問題，模型就會嘗試回答問題。

“為了使模型適應機器人操控，我們只需將機器人的規控表述為一個問題，而問題的答案就是應該發送給機器人的電機指令。RT-2基于PaLI-X和PaLM-E兩種預訓練的VLM，構建出一個相當復雜的VLA模型，它可以執行各種基礎的語言指令。”Levine說道。

但是，要充分釋放機器人基礎模型的潛力，還需要一些其他條件——合適的數據集。

RT-X帶來質變

“我認為，朝著這一目標邁出的另一步意義重大，那就是RT-X數據集的開發。”（編者注：DeepMind于2023年發布了RT-X通用大模型，并開放了訓練數據集Open X-Embodiment。）

Levine表示，RT-X的數據集是一個跨具身數據集，其數據來自34個不同的研究實驗室、22種不同類型的機器人。

在這一數據集中，可以看到各種各樣不同的機械臂、場景及任務。如今，這個數據集具備了訓練機器人基礎模型所需的多樣性和可變性的雛形。

“我們通過RT-X發現的一個非常有趣的現象是，基于這些數據訓練的通用模型，其表現能夠優于那些專門針對特定場景進行調整的專業模型。”

Levine表示，平均而言，跨具身模型在這些實驗室中的表現比各自單獨研發的模型要好約50%。

“這相當令人振奮，因為每個實驗室都在研發最適合自身場景的模型。而這個包含來自所有其他機器人數據的跨具身模型，表現反而更出色。所以，這在一定程度上體現了我們在自然語言處理和計算機視覺等其他領域所期望看到的通用性優勢的開端。”

他指出，對于分布外指令（即訓練數據中未涵蓋的指令），RT-X的表現比僅基于單個機器人數據訓練的模型好約3倍。

VLA的模型的迭代

RT-2實際上是第一代VLA模型，它的設計方法很簡單，只是將機器人控制問題構建成問答問題，這是一種相當直接簡單的實現方式。

現在，行業已經有了性能好得多的模型，它們能夠更出色地處理復雜且多樣的任務。Levine對于這些模型也進行了介紹——

首先，從語言模型說起：語言模型是一個大型的Transformer，用于預測文本中后續的Token。

為了讓大語言模型也能處理圖像，可以將圖像嵌入到與文本相同的嵌入空間中，這樣就得到了視覺語言模型。

而第一代VLA模型，是簡單地將視覺語言模型的輸出后綴，替換為用離散Token的機器人指令，來進行訓練。

“第一代VLA模型的架構與VLM的架構完全相同。而在開發第二代的VLA模型時，人們意識到動作并非離散Token，而是連續的。因此，第二代VLA模型采用了連續動作分布，通常由高容量的多模態模型來表示，例如擴散模型或流匹配模型。”

這些模型能夠利用基礎VLM的內部表示，同時生成連續動作，通常是以動作片段的時間跨度形式生成，這意味著它們能同時生成多個未來動作步驟，從而顯著提升了性能。

第二代VLA的設計方法

如今，第二代VLA模型有著多種不同的設計方法。但它們有個共同點——都采用了單獨的生成機制，這種機制更適合生成連續動作，通常適用于實現更高頻率和更靈活精細的控制。

它們擁有專門的連續采樣機制，能夠專門針對運動控制進行優化，就像是一種虛擬的運動皮層。

在此背景下，Levine向大家介紹了PI（Physical Intelligence）的第二代VLA模型——π0，它基于擁有30億參數的Polyglot – LLM（多語言大語言模型）開發，并在此基礎上增加了動作專家模塊。

而且，它們可以采用專家混合模型，即利用不同的權重為不同的Token生成輸出。

在π0模型中，有一個獨立的動作專家模塊，不過這個模塊比專門用于生成連續動作片段的基礎VLM要小很多。

π0模型的輸入根據機器人的具體形態而定，包括1-3張圖像和一條語言指令。動作專家模塊會關注基礎語言模型中的所有內部激活狀態，同時處理像關節角度這樣的連續信息，并輸出一個包含50個時間步的動作片段，其維度足夠高，能夠控制數據集中的任何機器人.

π0的數據集

現在，π0的模型只是機器人基礎模型整體設計中的一小部分，另一部分則是用于訓練π0的數據集。

“我們已經收集了一個規模非常大的數據集，包含來自各種不同機器人的約10,000小時數據，并將其與之前收集的數據集（如RT-X的數據集）進行合并。一旦在這個數據集上進行訓練，我們就能快速將模型微調至新任務，包括非常復雜的任務。”

Levine展示了一個相關的任務示例——將一個盒子進行折疊，使其完全組裝好。從視頻來看，只需將盒子放在機器人面前，它便開始工作。

這是一個極具挑戰性的任務，因為它需要機器人具備極高的靈活性。而且，在折疊盒子時，機器人需要利用桌面來支撐盒子，并且在恰當的時機正確施力。

不過，Levine坦言，這一方案遠非完美，所以有時也會犯錯。但它確實能在多種不同的位置成功折疊盒子。根據實際測試，在三項任務中的兩項里，通過預訓練獲得了非常大的性能提升。

據他介紹，現在，π0還能執行較為復雜的任務，例如折疊衣物：它能相當可靠地折疊各種衣物，包括短褲、T恤等等。它會犯一些錯誤，但最終能恢復過來并正確折疊衣物。

并能在多種不同的環境中完成這項任務，也能用不同的機器人來完成。

“真正令人興奮的一點是，它能從預訓練中吸收大量知識，這意味著它能夠從干擾中恢復過來。”

在一些視頻中可以看到，在機器人折疊衣物時，旁邊的人會在桌上添加衣物、或者去擺弄衣物，但機器人最終都能從干擾中恢復過來。

基于π0的機器人，可以將多個不同的任務，組合成一個連續的的執行過程。例如，機器人可以先把衣物從烘干機里拿出來，帶到折疊桌旁，然后按順序折疊所有的衣物。

π0.5：可執行長期持續任務

至于最新的版本——π0.5，也融合了許多其他功能。

據Levine介紹，π0.5的設計目標，是在全新環境中執行非常長期的任務。例如清理臥室——讓機器人進入全新的家中，收拾地上衣物、扔掉垃圾以及整理床鋪等。

為了這些長期任務，PI對π0.5增加了高層和低層推理的能力——與直接收簡單指令、輸出動作的π0不同，π0.5可以接收類似「打掃臥室」這樣的高層指令，然后進行高層推理，在任務執行的當前節點選擇合適的子步驟；接著，它將這個低層指令傳遞給模型的其余部分，繼續選擇合適的動作。

“這也是一種從海量網絡數據中進行訓練、從而更有效地遷移知識的方法。因為推斷這些語義步驟是VLM應該非常擅長的。我們為π0.5使用了非常復雜的任務組合，其中包含了許多不同機器人的數據。同時，我們采用了多種訓練目標，包括對問答問題、邊界框檢測問題以及機器人任務（如預測語義子步驟和預測動作）進行訓練。”

在進行總結后，Levine還指出了一點：移動操作類數據僅占π0.5訓練數據集的3%。這類數據很難獲取，因為這些機器人都很復雜。

實際上，絕大多數數據（97%）來自非移動機器人形態，包括可以放置在各種不同位置的更簡單的機械臂、在實驗室收集的機器人數據等等。

盡管如此，π0.5卻能在現實場景中進行廣泛應用。例如，在真實的廚房里疊毛巾、進行清潔工作等等。這些實驗都是在訓練數據中未出現過的場景中進行的，是全新的住宅環境。

未來的VLA：與強化學習結合

盡管現在的機器人已經有了通用模型，且該模型在一系列復雜的任務中表現出色，但仍存在一些不足之處。

其中一點不足在于，這個模型完全是通過模仿學習進行訓練的，它并沒有真正直接針對任務成功、魯棒性和速度進行優化。

“更具前瞻性的是即將出現的強化學習技術，我們可以將其納入未來的VLA模型，以大大提高其魯棒性和性能。”

Levine打了個比方，在訓練標準基礎模型(比如LLMs和VLMs)時，通常分兩個階段進行：

首先，是預訓練階段，也就是從網絡上收集大量數據。這個階段的目的并非讓模型真正地執行任務，而是將大量知識融入模型中。

接著，是后訓練階段，也叫對齊階段——使用高質量的監督微調（SFT）數據集，或者采用某種強化學習方法。這一階段的目的不一定是獲取新知識，而是專門教導模型如何執行用戶的任務，以及如何穩健、高效地執行這些任務。

“我認為，在機器人基礎模型中，我們也會看到同樣的階段劃分，會有預訓練階段和后訓練階段。在后訓練階段，目標是利用強化學習和高質量數據，讓機器人能夠出色地完成各項任務。”

Levine表示，經過過去幾年的研究，他們發現現實世界中的強化學習，能夠通過「帶先驗數據的RLPD算法」變得非常高效。

它是一種離策略（off - policy）的演員-評論家（Actor - Critic）方法，且通過示范數據進行初始化。

例如，主要觀測數據來自機械臂腕部攝像頭的原始圖像，使用預訓練的視覺編碼器至關重要。

而獎勵機制由一個圖像分類器構成，該分類器只需判斷機器人是否成功完成任務，因此這是一個非常稀疏的獎勵。

因此，為了提高效率，也可以將人工干預納入系統，即當機器人任務失敗時，人員可以介入并提出修正建議，這既能提供額外的獎勵信號，也能提供額外的數據。訓練過程中的人工干預，能讓學習過程高效得多。

這就像一位老師，在指導機器人如何執行任務的同時，也讓它自己嘗試完成任務。這套系統在學習各種單個任務時非常有效。

Levine指出，VLA是一種通用型架構，而強化學習（RL，Reinforcement Learning）系統實際上是一個用于訓練「專家」的系統，不過它也能為各種廣泛的任務訓練出非常出色的專家。

這些任務包括給齒輪安裝正時皮帶、組裝家具、翻煎蛋，還有一些高度動態的任務。這些都是相當復雜、難以學習的任務。

將VLA與DLA整合互補

VLA的這種能力與DLA（Deep Learning Architecture）具有很強的互補性，PI真正想做的是將它們整合在一起。這樣，專家數據就可以指導通用型體系，使其變得更出色。

從視頻演示來看，當機器人給齒輪安裝正時皮帶時，即便面對干擾，機器人也恢復得相當專業。

“目前，如何將這些專家整合到一個通用型體系中，仍然是一個尚未解決的問題。不過，我們已經朝著解決這個問題邁出了初步的步伐。”

其中一步所采用的方法，即為RLDG（編者注：Robotic Generalist Policy Distillation via Reinforcement Learning，一種通過強化學習蒸餾提升機器人通才策略的方法）。該方法直接利用強化學習Agent，來生成用于訓練VLA的數據。

“我認為，就這類研究而言，目前仍處于早期階段，但我認為它極具潛力。在我們的RLDG原型中，成功訓練出了用于插入各種連接器的專才策略，比如VGA連接器、USB連接器等等。”

之后，Levine利用來自這些「專家數據」對VLA進行訓練，結果發現，VLA能夠將這些所學知識泛化到全新的Agent上。類似疊衣服、搭盒子那樣的任務，只是初步的進展。

“未來，我們會在將強化學習與VLA相結合，并取得大量進展。這或許會催生出性能更可靠、更出色的系統。”

他認為，目前已經出現了非常高效的強化學習算法，以及將強化學習技能提煉到VLA中的方法，但仍存在一些尚未解決的問題。

“我們仍然沒有一套穩定、有效且可靠的端到端訓練流程，用于借助強化學習訓練VLA。我認為，在借助VLA促進探索和隨機應變能力，以切實輔助強化學習上，我們還有大量的系統構建工作有待完成。”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.