網易首頁 > 網易號 > 正文申請入駐

具身智能來時路：谷歌RT1、2，SayCan作者Ted Xiao復盤機器人學習

2026-05-11 09:52:22　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

你可能覺得今年人形機器人的 demo 已經看麻了。但 Ted Xiao 說，哪怕是最粗糙的那一條，放在兩年前都能讓全場研究者驚掉下巴，因為那時候沒人相信這事真能成。

Ted Xiao曾任 Google DeepMind Staff Research Scientist 及技術負責人，一待就是 8 年，參與了RT-1、RT-2、SayCan 以及 Open X-Embodiment等具有行業定義意義的機器人基礎模型項目。如今，他已加入由亞馬遜創始人杰夫?貝佐斯親自掌舵的新型 AI 初創公司 —— Project Prometheus，致力于突破具身智能在大規模環境下的推理與控制難題。

在最近的一次訪談中（來自 RoboPapers），Ted Xiao 以親歷者視角，系統回顧了過去近十年來具身智能領域的變革，復盤了每個關鍵決策背后的思考過程 —— 那些在論文里看不到的猶豫、轉折與頓悟時刻。

視頻鏈接：http://youtube.com/watch?v=etPqBphTgmE&t=1101s

這篇文章整理了 Ted 講的機器人學習三個時代：存在性證明時代、基礎模型時代、Scaling 時代

Ted 會告訴你，為什么他們團隊曾經陷入「Code Yellowish」狀態，一年半不發論文，只悶頭收集數據；在強化學習被寄予厚望的時期，為什么他們會大膽推進當時不被看好的模仿學習；以及為什么把視覺語言模型直接當機器人策略骨架的 VLA 路線，他們本可以早至少一年動手，卻硬是晚了一步？

如果你關心 AI，關心機器人，或者只是好奇「這波浪潮是怎么起來并持續演進的」，這個故事值得細讀。

存在性證明時代：

端到端學習，真的能行嗎？

2015、2016 年，DQN（Deep Q-Networks）和 AlphaGo 相繼問世，證明了端到端數據驅動方法的驚人普適性。與此同時，機器人硬件其實早已成熟 —— 斯坦福幾十年前的雙臂移動操作系統已能完成各種家務，瓶頸始終是背后那個必須介入的人類智能。

于是一個聽起來很瘋狂的問題出現了：將強化學習等數據驅動方法直接應用于真實機器人系統，會發生什么？

Ted 就是被這個問題吸引進來的。他加入了當時不到 20 人的 Google Brain 機器人團隊，做一件聽起來很枯燥的事：把一批 KUKA 機械臂擺進房間，讓它們 24 小時不間斷抓取物體，跑在線強化學習。

這件事的難點，比想象中要大得多。

Atari 和 Go 的成功，依賴于清晰離散的動作空間 —— 游戲手柄上那幾個按鍵，棋盤上有限的落子位置。而真實機械臂面對的，是一個高維、連續的動作空間：六七個關節的角度、末端執行器的位姿、夾爪的力度…… 加上從攝像頭以較高頻率傳入的圖像觀測，無論是狀態空間還是動作空間的維度，都遠超游戲場景。直接套用為 Atari 設計的 value-based RL 方法，是行不通的。

團隊提出的解法是QT-Opt—— 用交叉熵方法（CEM）來近似求解 Bellman 更新中的 Q 值最大化問題，從而處理機器人連續動作空間。QT-Opt 不僅僅是算法創新，還需要構建一整套系統：24 小時運行的機械臂農場（arm farm）、評估系統、控制棧等。例如，他們實現了「并發 RL」（concurrent RL），讓機器人在執行動作的同時進行推理，而不是「停頓 - 觀察 - 推理 - 執行」的串行模式。為了縮小仿真與真實環境的域差異，他們訓練了 CycleGAN 將仿真圖像轉換為逼真的真實風格圖像，使策略能在仿真中訓練后較好地遷移到真實世界。

這套「機械臂農場」系統最終證明了一件事：端到端機器人學習在真實世界里不是玩具，它能 work。

抓取跑通之后，下一個問題自然來了：能不能同時學會多個任務？

這一時期團隊展開了一批方向各異的探索：

BC-Z是其中一項代表工作 —— 第一個大規模、多任務、語言條件化的模仿學習策略。

MT-OPT則是 QT-Opt 的多任務擴展，嘗試把大量技能壓縮進同一套神經網絡權重里，探索一個網絡能否同時「記住」多種行為。

另一條更有野心的路線是Learning from Play。它的出發點是：能不能讓人類隨心所欲地操作機器人，不設定明確目標，只是「玩」—— 然后用 Hindsight Experience Relabeling 從這些無結構的軌跡中提取有意義的經驗？Ted 形容這個方向在當時非常好玩。

探索越多，一個問題變得越來越清晰：強化學習這條路正在遭遇收益遞減

Ted 展示了一張學習曲線圖：RL 線確實在往右上爬，但背后是整個分布式系統的運維噩夢 —— 一部分數據來自仿真，一部分來自真實機器人，策略 checkpoint 會過期，控制器代碼一旦改了某個 bug，之前采的數據就可能報廢�！窻L is Painful」。與此同時，模仿學習雖然開箱即用，但準確率始終卡在 60%、70%、80%，死活上不去。

兩條路都不對勁。團隊進入了一種被稱為「Code Yellowish」的狀態 —— 不是危及存亡的 Code Red，而是「研究方向出問題了，得停下來還研究債」。

于是，團隊做了一個在當時看來極其反主流的決定：停掉所有論文發表，花一年半時間，什么都不做，只攢數據。他們雇了近 10 名專業操作員，用遠程操控（teleop）方式，在微型廚房環境里收集了幾百種不同任務的高質量專家演示，最終攢下約 87,000 條軌跡。這在今天看來或許規模不大，但在當時是一個孤注一擲的賭注 —— 賭的是「離線高質量數據 + 監督學習」這條被整個領域視為「第一章玩具」的路，能不能在真實機器人上 scale。

之所以說反主流，是因為當時的學術信仰很明確。Ted 回憶，2016 年伯克利的第一門機器人學習課上，老師首先講 BC，然后就是「為什么 BC 不行」——compounding errors、分布偏移，結論是：BC 只能解決玩具問題，其余都得靠 RL。這種「BC 到 70%，RL 才能帶你到 90%」的信念，幾乎就是當時的鐵律。

但就在那段「Code Yellowish」的沉寂期里，團隊的一位基礎設施大神 Yao Lu 把整個訓練器從底層重寫了一遍。重寫之后，BC 突然不再撞墻了 —— 它從 80% 的天花板一路沖到 90%、95%，而且隨著真實世界數據的增加，還在繼續提升。

那一刻，數據說話了。大規模模仿學習不僅能 work，而且就是他們要的那張「配方」（recipe）。團隊由此退出 Code Yellowish，帶著信心把 teleop 數據規模再推一個數量級，目標是在微型廚房里解決數千種任務。

這個階段可以被總結為「slowing down to speed up」：放慢發 paper 的速度，還清技術債，反而為后面的爆發攢下了最稀缺的資產 —— 不是某個算法，而是高質量、可 scale 的真實機器人數據。

至此，第一個時代「存在性證明」完成了它的使命。它證明了端到端學習在真實機械臂上能跑通，也證明了數據才是當時的真正瓶頸。這個認知，直接把機器人學習推進了下一個時代：基礎模型時代。

基礎模型時代：

借 LLM 的東風

2022 年前后，機器人學習領域遭遇了一場來自外部的「完美風暴」—— 大語言模型和視覺語言模型開始展現出真正的通用性與涌現能力。對機器人研究者而言，這是一類「外星技術」—— 前所未有，但顯然可以利用。

與此同時，機器人學習本身也正在完成一次范式遷移：從在線強化學習（機器人邊運行邊積累經驗）轉向離線大規模模仿學習（人類示范 → 監督學習）。這兩個趨勢的疊加，創造了將基礎模型引入機器人領域的歷史性窗口。

率先發布的工作是SayCan—— 語言模型與機器人的第一次正式「握手」。

核心思路是將語言模型用作規劃器：給定一個指令（比如「把蘋果放到桌上」），語言模型負責生成合理的高層計劃，而機器人則通過一個習得的價值函數來評估哪些子步驟在當前環境下實際可行。兩者的輸出相互加權：語言模型提供常識推理，價值函數提供落地約束，最終產出「既合理又可執行」的行動計劃。

這篇論文在時機上堪稱絕佳 —— 它在 ChatGPT 發布前幾個月內落地，正逢 LLM 熱潮席卷公眾視野。SayCan 演示視頻（由團隊成員 Fei Xia 親自拍攝）精良，整個辦公室把它打印出來貼在墻上。這是第一個信號：基礎模型或許真的能為機器人帶來質變。

如果說 SayCan 是「用語言模型輔助機器人」，RT-1則是邁出了更大的一步：讓機器人策略本身也變成一個 Transformer。

設計邏輯簡潔而激進 —— 將語言指令和圖像觀測全部 tokne 化，輸出同樣是離散化的機器人動作詞元，整個系統以 3Hz 頻率運行，參數量約為 5000 萬。在這 8.7 萬條軌跡（覆蓋約 500 種任務）的數據集上訓練后，RT-1 輕松超越了此前所有基于 ResNet-18 的行為克隆基線。

RT-1 的意義不僅是性能，更是一套可復用的研究基礎設施：有了這個穩定的起點，后續的新想法可以快速接入、快速驗證。

既然 VLM 可以用來規劃，那能不能用來造數據？團隊接下來做了 DIAL：用視覺語言模型給那八萬七千條軌跡重新打標簽，把幾百個任務的語言描述擴展到數百萬條，讓模型在語言泛化上更進一步。這有點像當年 hindsight relabeling 的思路，只不過這次是在語言空間里做。

將語言模型用作規劃器，或用作數據標注工具，這只是外圍的整合。更激進的問題是：能否直接把視覺語言模型當作策略骨干本身？

這正是RT-2（視覺 - 語言 - 動作模型，VLA）所做的事。研究團隊將機器人動作預測重構為視覺問答（VQA）任務，將 VLM 從外部工具變成核心引擎，訓練了從 5B 到 55B 參數規模的一系列模型。結果是驚人的：相比 RT-1，涌現出大量此前從未見過的推理能力和泛化行為。

回頭來看，這一跳躍本可以更早發生。Ted Xiao 坦承，在 RT-1 階段，大量精力花在了從零搭建各種模塊（視覺編碼器、token 壓縮、條件注意力……）上，而 RT-2 的邏輯其實是相反的 —— 直接信任 VLM，做最小化的適配。這種「全部拿來，最小改動」的思路，可能本可提前一年付諸實施。

嘗到規�；奶痤^之后，團隊開始思考更激進的擴展方向：數據不僅可以跨任務，能不能跨機器人形態？

Open X-Embodiment項目聯合了全球 34 家研究機構，將各自收集的機器人數據整合進統一格式并開源。訓練結果表明，在一種機器人上習得的技能，確實可以遷移到另一種機器人上 —— 尤其是那些與語言描述相關的行為（「推到旁邊」、「放入容器」……）。這是跨本體泛化的早期存在性證明。

有了 RT1 和 RT2 這樣的基座，后續研究像搭積木一樣快。團隊很快嘗試了各種動作表征：邊界框、分割掩碼、思維鏈、affordance、第一人稱姿態追蹤…… 以前需要從零造輪子的算法探索，現在可以基于一個扎實基線快速迭代。Ted 說，這就是「臨界質量」的魔力 —— 一旦起點足夠好，新想法的驗證速度會指數級加快�；A模型的時代，本質上是用外部的智能放大器，解了機器人學里「從零造一切」的困局。

從 8.7 萬條人工示范軌跡，到 VLA 的涌現推理，再到跨形態的知識遷移 —— 基礎模型時代的核心洞見，是停止把機器人當作一個孤立系統來精心調教，而是開始借用語言與視覺領域一切可用的智識積累，以最小的代價將其對接到物理世界。

這個時代留下的問題，正是下一個時代 —— 規模化時代 —— 試圖回答的：當數據和模型都足夠大，機器人能學到什么？

Scaling 時代：

all in scaling

進入第三個時代，導火索是 VLA 證明了這條路能走通，但天花板還遠。于是世界開始超大規模 Scaling—— 參數、數據、本體復雜度，同時爆發。

Ted 把這一階段稱為 Scaling。如果說上一個時代是借別人的智能放大器，這個時代就是往各個維度瘋狂加碼，直到涌現出新東西。

這一時代，DeepMind 的第一個標志性工作是 2025 年 3 月發布的Gemini Robotics。從 RT-2 到 Gemini Robotics，中間隔了一年半，但外部生態已經天翻地覆。Physical Intelligence、Generalist AI 等創業公司成立，資本涌入，所有人都意識到：VLA 是范式，現在該拼的是誰能把它 scale 到物理極限。

硬件端首先變了。斯坦福的 ALOHA 平臺帶來了關鍵洞察：真正高頻、高質量的數據，才能解鎖靈巧操作的極限。雙臂系統、高頻率控制、直覺式遙操作，能做到以前單臂移動平臺根本想象不到的動作。Google DeepMind 團隊很快擁抱了更復雜的本體 —— 從 ALOHA 到人形機器人，動作空間的復雜度遠超當年的 Kuka。

Gemini Robotics 的主干直接 fork 自 Gemini 2.0。Ted 評價，Gemini 在多模態理解上一直很強，而機器人團隊這次拿到的數據量，已經遠超當年一年半攢下的八萬七千條軌跡。規模一上來，第一件事就是突破 RT-2 的「黑箱」思路。

RT-2 時代，團隊把 VLM 當黑箱搬進來，沒有細看內部。但 Gemini Robotics 團隊有機會直接看「香腸廠里面是怎么做的」—— 他們發現，外界抱怨 VLM 缺乏物理常識、空間推理、時間推理，這些問題在 Gemini 內部是可以被定向解決的。

于是有了Gemini Robotics ER（Embodied Reasoning）。這不是一個機器人策略，而是一個被專門增強過具身推理能力的 VLM：它能做 3D 物體檢測、2D 指向、預測抓取角度。先把視覺語言模型的具身推理能力補齊，再把它喂給下游的 VLA 策略，機器人的泛化性和靈巧度自然上了一個臺階。

隨后發布的Gemini Robotics 1.5則將推理時代的紅利引入具身智能。彼時，DeepSeek R1、OpenAI o1等模型已讓業界意識到：在推理階段引入「思考」過程，能夠顯著提升語言模型的表現。Gemini Robotics 1.5 將這一范式移植到機器人領域：策略在執行前先用自然語言「想一想」，將長時域任務分解為短時域指令，再逐步執行。

更值得關注的是動作遷移（Motion Transfer）能力：同一個神經網絡，可以將在某種機器人上采集的運動經驗，零樣本遷移到運動學截然不同的其他平臺 —— 包括仿人機器人、Franka 機械臂和 Aloha 雙臂系統。這與早期「跨具身訓練」時代將多個形態相近的單臂機器人數據合并訓練，已是本質上的不同。

Scaling 時代并非單一方向的線性推進，而是多個維度并行爆發。

模型性能維度，以 Pi 0.6 為代表的后訓練（Post-training）范式逐漸成形：先訓練一個泛化能力強的通用策略，再針對長時域、高精度任務進行專項微調。

評估體系維度，隨著模型聲稱的能力日益寬泛，評估本身成為一大挑戰。當前涌現出多種解法：基于仿真的 Sim-to-Real 評估、以 RoboArena 為代表的分布式跨機構評估，以及利用世界模型進行策略驗證的方法。

數據維度，Generalist AI 放出五十萬小時交互數據做預訓練，第一人稱人類數據（egocentric）成了「當紅炸子雞」，NVIDIA、Pi 、Georgia Tech 都在卷。這些工作表明：大規模采集人類第一視角操作數據，并設計能夠消化此類數據的訓練方法，是突破機器人數據瓶頸的重要路徑。

商業化與數據飛輪維度，特斯拉式的閉環邏輯開始在機器人領域隱現：當機器人真正部署到真實場景，數據采集的成本由服務價值本身來攤薄，長尾罕見場景的數據也隨之自然積累。

Ted 認為，這個時代最迷人的不是某個單一突破，而是研究熵的暴漲。社區不再擠在一條漏斗里，而是多路并進：

World Models / Video Action Models：用生成式模型理解物理；
人類數據與不依賴機器人本體的數據：egocentric 視頻、傳感器化的人類操作；
可驗證獎勵訓練：把 NLP 里的 RLHF/verifiable reward 邏輯搬進物理世界；
Locomotion vs. Manipulation 的哲學分野。

盡管今天大多數討論集中在操控（Manipulation），運動控制（Locomotion）領域同樣經歷了一場靜悄悄的革命。會跳舞、能后空翻的機器人已近乎「商品化」，背后是一套與操控截然不同的方法論：零樣本 Sim-to-Real 遷移 + 在線強化學習 + 小型網絡。

這一對比催生了一個深刻的隱喻：操控更像是大腦皮層的工作 —— 需要示例學習、專家數據、監督信號；而運動控制更像是小腦或脊髓的工作 —— 反射性的、本能的。如何將兩者融合，進而與長時域推理能力三者合一，是當前機器人學習領域最核心的開放問題之一。

機器人的 ChatGPT 時刻還沒到

但拼圖正在完整

訪談最后，主持人問：機器人的 ChatGPT 時刻什么時候來

Ted 把它拆成兩半。產品層面，它不會是一個 demo，而是一個真正通用、消費級的操作系統，像當年的 ChatGPT 一樣，讓普通人覺得「好用、驚喜、離不開」。他認為這可能在一兩年內發生，也可能需要更久 —— 更像自動駕駛從爆發到落地的那十年。

技術層面，沒有單一突破，而是多個拼圖同時到位：架構、視頻動作模型、高級全身反應系統、后訓練、數據飛輪。Ted 的個人賭注押在視頻動作模型和第一人稱人類數據上。

更多內容請參見原視頻。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.