无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

UC Berkeley Ken Goldberg 教授：具身數據規模落后十萬年，你仍然相信數據萬能嗎？| ICRA 2026

2026-06-05 10:38:27　來源: AI科技評論

廣東舉報

0

分享至

數據還是工程，答案也許是全要。

作者丨梁丙鑒

編輯丨馬曉寧

數以十億計的資金涌入具身智能行業，與此同時，這些機器人真正完成的有效工作卻屈指可數。落地壓力的迫近之下，VLA 等無模型方案和傳統 Model-Based 路線之間的分歧是如此強烈，以至于某種程度上，甚至帶上了意識形態的色彩。

這成為了本屆國際機器人與自動化會議（ICRA）現場最引人關注的話題。在會議第二天，UC Berkeley 教授 Ken Goldberg 發表了題為《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》的演講，發表了他對具身數據采集、數據飛輪、GAP 系統，以及有關具身落地種種的看法。雷峰網·AI科技評論在現場發回報道。

過去幾年，隨著 ChatGPT、視覺語言動作模型（VLA）和人形機器人熱潮興起，依靠海量數據、深度學習和大模型驅動的 Model-Free 路線幾乎成為行業主旋律，人們無比相信 Scaling Law 將再次帶我們抵達具身智能的 GPT 時刻，乃至真正的通用機器人。

對此，Ken Goldberg 提出了靈魂之問：什么時候？

“如果按照人類平均閱讀速度計算，閱讀完今天訓練大型語言模型所使用的全部數據，大約需要10萬年。而換算到機器人領域，我們目前積累的數據總量，大概只相當于幾年的規模?！?/strong>

具身智能數據鴻溝的抽象討論背后，是一組恐怖的對比數據。Ken Goldberg 相信，這已經足夠成為我們對“數據萬能論”保持警惕的充分理由。而海量數據的反面是工程，在一條更可靠的具身落地路徑上，工程架構、模塊設計和物理建模仍然不可替代。

在演講中，Ken Goldberg 回顧了自己團隊著名的 Dex-Net 項目。從利用概率模型評估抓取成功率，到構建大規模仿真數據集，再到訓練神經網絡完成真實世界抓取，這個近十年前的嘗試對于今天的具身智能仍有啟示，那就是數據與工程方法的深度結合，效果遠勝單純的數據堆砌。當下對數據飛輪的討論同樣可以納入這一框架，大規模商業部署，首先關注的必然是讓機器人做出有用的事情，這離不開對工程層面的關注。

數據還是工程？對于這個困擾行業已久的問題，Ken Goldberg 認為答案或許不是二選一。當前炙手可熱的 VLA 模型擁有驚人的泛化潛力，卻容易在環境發生細微變化時失效。傳統工程系統雖然缺乏通用性，但可靠性見長的特點卻讓二者看起來像是天作之合。

讓大語言模型不直接控制機器人，而是生成可解釋、可驗證的計算圖，再由多個智能體協同構建和優化系統。這就是 Ken Goldberg 在仿真、世界模型、遙操作之外，提出的一種全新融合思路。

以下是 Ken Goldberg 在 ICRA 2026 大會發表的演講精編稿，AI 科技評論基于原英文演講內容進行了不改原意的翻譯編輯：

《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》

主講人：Ken Goldberg, UC Berkeley

01

GOFE 和代碼即策略，

能否彌合機器人操作領域長達十萬年的數據鴻溝？

今天我想講的是“兩種文化的故事”。

大概7歲的時候，我經常熬夜看《Jetsons》。有些人可能還記得，那是一部很棒的動畫片。里面有一個機器人，她會做所有家務，然后陪孩子們玩。我當時覺得太棒了，從小我就一直想擁有這樣的機器人。事實上，我父親和我真的一起造過一個機器人。那是給他的鉻電鍍公司做的，一個機器人吊運機。它其實從來沒有真正成功運行過，不過說實話，我們當時做的很多東西都沒成功。

正如 Alex 提到的那樣，我小時候同時對科學和藝術感興趣。隨著年齡增長，我越來越意識到這兩者之間存在著一道鴻溝。這讓我想起 C. P. Snow 所描述的“兩種文化”——科學家和藝術家看待世界的方式截然不同。

后來我去了卡內基梅隆大學，投入到了科學研究中，專注于解決問題。我至今仍然記得某個時刻，當所有事情突然串聯起來時的感覺。那種感覺真的很奇妙，仿佛宇宙中有某種力量在推動這一切發生。與此同時，晚上我還會偷偷在實驗室里用機器人創作藝術作品。我的導師 Matt Mason 后來發現了這件事，因為我把油漆灑在了地板上，所以不得不承認自己在干什么。

結果他說：“好吧，繼續做下去?！彼浅ＶС治?。這件事讓我非常開心。

幾年后，我們完成了一個叫做 Telegarden 的項目。在互聯網發展的早期階段，我們把機器人接入網絡，人們可以在線操控機器人來照料花園。再后來，我和 Katie Kuan 合作完成了一個項目。她畢業于斯坦福大學機器人學博士項目，同時也是一位職業舞者。我們一起做了一場舞蹈表演，當然跳舞的不是我，而是一臺小機器人。可以說，我一直試圖在科學與藝術這兩種文化之間搭建橋梁。

但正如 Alex 所說，還有另外兩種文化，是我后來逐漸研究并不斷思考的：機器人學內部的文化，以及機器人學外部的文化。有人曾開玩笑說，一臺機器人叫 Robotics（機器人學），十臺月球機器人就是 Roger Biller 說的 Automation（自動化）。

我曾參與創辦《IEEE Transactions on Automation Science and Engineering》，它是《IEEE Transactions on Robotics》的補充。如今這兩個期刊都發展得很好?，F在我們還有一個新的組織叫做 CASER，這是 Jim Hutchinson 命名的委員會，目的是探索自動化與機器人之間的協同效應。這個工作至今仍在繼續，他們周四也有會議。

好了，說到“兩種文化”，今天我真正想討論的是另外一組文化。這是我在 ICRA 社區中看到的兩種文化：一種是 Model-Based（基于模型），另一種是 Model-Free（無模型）。

我認為前者可以追溯到牛頓時代。這是我們在大學里學習了很久，并且今天依然在教授的內容。它構成了機器人操作（manipulation）的核心基礎，也支撐著諸如《Algorithmic Foundations of Robotics》等會議和大量學術成果。

然而到了2012年，情況發生了變化。以深度學習為代表的 Model-Free 方法取得了重大突破。最早是深度學習，然后是 Transformer，再后來是 Diffusion Model。到了2021年，人們又開始重新討論人形機器人。

大家可能還記得，第一款“人形機器人”就是在 Tesla AI Day 上發布的。當然，它并沒有真正騙過任何人。不過 Elon Musk 當時承諾：“未來 Tesla Bot 會來到這里?！蹦鞘?021年。

這件事吸引了大量關注。隨后到了2022年底，我們迎來了 ChatGPT 時刻。那天早上醒來時，我們突然意識到，圖靈測試也許沒有被正式宣布解決，但它實際上已經被通過了。

接下來發生了一系列重大進展。到了2023年，VLA（Vision-Language-Action）模型迅速出現。同樣的思想被擴展到了機器人領域，攝像頭和傳感器作為輸入，中間是一個大型神經網絡，輸出則是機器人動作，這是一個端到端系統。

我認為這真正催生了兩種文化。許多人對右邊這條路線——Model-Free、VLA 路線——充滿熱情。如果我現在做個現場投票，我相信會有大量聽眾支持這一方向。所以我想借今天的時間，稍微深入討論一下這個問題。

首先從機器人數據鴻溝開始。必須承認，自2025年以來，這個領域的發展勢頭越來越強。Jensen Huang 曾站在舞臺上展示大量人形機器人。今年他更進一步，不僅展示人形機器人，還展示各種機器設備。他提出了“Physical Intelligence（物理智能）”和“Physical AI（物理人工智能）”的概念，并表示這將是一個價值50萬億美元的市場。這幾乎相當于全球勞動力成本的一半。

因此大量資本正在涌入。所有人都在問，機器人領域什么時候會迎來屬于自己的 ChatGPT 時刻？很多人的回答是，大數據解決了視覺問題，大數據解決了語言問題，因此，大數據也會解決機器人問題。對此我基本同意。

但我真正想問的問題是，這件事什么時候會發生？我知道它終將發生，但我不知道具體時間。

視覺本質上是二維狀態空間，語言可以看作一維 Token 序列，而機器人系統的狀態空間維度極高。如果討論一個人形機器人，僅僅是一雙25自由度的手，加上手臂，很快就達到50維以上。與此同時，我們還沒有像互聯網那樣的大規模機器人訓練數據。那么這個類比究竟如何成立？

因此我們做了一項分析，部分基于 Michael Black 的工作。結果發現，機器人領域擁有的數據量極其微小。與大語言模型相比，幾乎微不足道。于是我們提出了“機器人數據鴻溝”這個概念。

如果按照人類平均閱讀速度計算，閱讀完今天訓練大型語言模型所使用的全部數據，大約需要10萬年。而換算到機器人領域，我們目前積累的數據總量，大概只相當于幾年的規模。這就是巨大的差距。

當然，也有人會說，數據就是一切。但我想對此提出一點質疑。以 Waymo 和 Tesla 為例。Tesla 長期積累的數據量大約達到90億英里駕駛數據。粗略估計，比 Waymo 多出約50倍。具體數字可能略有偏差，但數量級就是如此。然而在脫離接管率（disengagement）等指標上，Waymo 的表現往往更好。

當然，你可以說這與激光雷達有關。但我想借此提出一個問題：數據真的是唯一需要的東西嗎？我和 Waymo 的朋友聊過這個問題。他們告訴我：“是的，我們使用了大量數據訓練車輛，但系統內部仍然包含大量傳統工程技術?！?/p>

所謂傳統工程技術，意味著系統由許多模塊組成。這些模塊使用卡爾曼濾波器、優化器以及各種數學模型。它們被組合起來，共同完成任務。模塊化系統具有明確接口，可以組合、分析和驗證，這與端到端 VLA 系統形成了鮮明對比。

這正是我所說的“兩種文化”，一邊是基于模型的方法，另一邊是無模型方法。

很多人其實同時屬于這兩個陣營，比如我本人。我是 Open X-Embodiment 那篇論文的共同作者之一，那篇論文有150位作者參與。如果你去看那篇論文，它提出了一個非常重要的觀點：通過在16萬個不同任務上進行訓練，模型正在走向通用性（generality）。

但我對此有一點疑問。如果你對這些任務做一個統計分析，看看用于描述任務的語言分布，會發現最常見的詞是“pick（抓取）”、“move（移動）”、“push（推動）”。這些詞出現的頻率遠遠高于其他詞。換句話說，這16萬個任務中的絕大部分，其實最終都可以歸結為一個非常簡單的任務，把物體0拿起來，放到物體1上。而有趣的是，這正是 John Craig 機器人學教材第三章講的內容。

那本書寫于 VLA 出現之前很多年，它給出了大量經典工程方法來解決這個任務。只要你有一個視覺模塊找到目標，有一個抓取模塊，有一個運動規劃模塊，然后整個系統就能完成任務。所以我想說的是，我非常喜歡這些 VLA 系統。它們非常有趣，也非常令人興奮。但很多時候，傳統工程方法依然能夠把工作完成得很好。

再回到這兩種文化。坦率地說，兩者之間存在某種緊張關系，甚至帶有一點意識形態色彩，有些人堅定站在某一邊。我想稍微深入討論一下。

接下來講一個關于 Covariant Robotics 的故事。實際上，在過去45年里，我一直在研究同一個問題，機器人如何抓取物體。有人說這是因為我小時候特別笨手笨腳，這是我母親的理論。但無論如何，人類在抓取方面確實極其擅長。

到了2012年，深度學習革命開始了。正如大家都知道的，海量數據、強大的計算能力、新的訓練算法……當時我和 Shankar Sastry、Pieter Abbeel 以及幾位研究生一起開設了一門機器人操作課程。課程內容基本還是傳統機器人學教材里的經典工程方法，但與此同時，我們也在關注計算機視覺領域發生的事情，尤其是在圖像分類和標注方面取得的巨大進展。

這些成果很大程度上來源于 ImageNet。Fei-Fei Li 系統性地收集了海量標注圖像數據，于是我們開始思考，能不能把同樣的思路用于抓取問題？

因此我們啟動了 Dex-Net 項目。為了向 Fei-Fei Li 致敬，我們也希望建立一個大型數據集。不過不是圖像標注數據。而是三維物體模型，以及針對這些物體的大量抓取方案。

幸運的是，我的博士生 Jeff Mahler 對這個項目非常投入。他開始從互聯網各處收集三維模型，許多學生也加入進來。他們清理模型、統一格式、構建數據庫。一個典型的 CAD 模型可能包含上千個三角面片。對于平行夾爪而言，一次抓取對應兩個接觸點，也就是兩個面片。因此一個物體可能對應數百萬種抓取方式。

接下來我們思考，如何建模抓取過程中的不確定性？我們建立了一個概率圖模型，把所有變量都看作隨機變量，它們之間存在條件概率關系。最終我們關心的問題是，某一次抓取成功的概率是多少？

舉個例子。對于某個標稱抓取姿態，我們知道現實中一定存在誤差。我們不知道真實接觸點在哪里，因為物體位姿有誤差，夾爪位姿有誤差，物體形狀有誤差，質心位置也有誤差。因此我們從這些概率分布中不斷采樣，統計成功和失敗次數，然后利用蒙特卡洛積分計算成功概率。

結果如圖所示：左邊那個抓取成功率約為22%，右邊那個抓取成功率約為92%。

這其實非常符合直覺。左邊的抓取非常脆弱，一點點誤差就會失敗，右邊則具有自校正能力，即使存在誤差，依然能夠成功。這才是現實中真正想要的魯棒抓取。

接下來我們關注感知問題。我們決定使用深度傳感器，因為我們關心的是物體的三維幾何形狀，而不是顏色或紋理。深度信息對此非常有幫助，但深度傳感器本身噪聲很大。如果大家使用過，就會知道，尤其面對反光表面或透明物體時，噪聲會非常明顯。

我們建立了一個傳感器噪聲模型。我們知道物體的三維 CAD 模型，于是模擬深度相機觀察該物體時的結果，并加入噪聲，這樣我們得到一個觀測值 y。它符合真實傳感器的統計特性，然后把這個觀測值與具體抓取動作和成功概率對應起來，這樣就得到一個訓練樣本。接著利用云計算平臺大規模生成數據。我們擁有約15000個物體模型，對數百萬個抓取方案進行評估，最終獲得一個巨大數據集。其中既包含大量成功樣本，也包含大量失敗樣本。

然后我們訓練神經網絡。當時這是一個非常大的網絡，參數規模接近十億級。訓練最終收斂，在保留測試集上表現良好。換句話說，給它一張帶噪聲的深度圖像，再給定一個抓取姿態，它能夠預測抓取成功概率，而且泛化能力很好。

接下來我們把它用于真實控制。流程是先輸入一個雜亂堆放物體的料箱圖像，生成大量候選抓取，利用神經網絡快速評估每個抓取的成功概率，然后選擇成功率最高的方案執行。

這就是2017至2018年左右的 Dex-Net 系統。左邊展示的是吸盤抓取器，右邊展示的是平行夾爪。如果仔細觀察會發現，它并不是每次都成功，但成功率已經高得驚人，在當時屬于世界領先水平。我們經常找來數百個訓練集中從未出現過的物體，這些東西來自家里、車庫、各種地方，系統依然能夠穩定清空整個料箱。

后來這項工作獲得了不少關注，甚至引起 Jeff Bezos 的興趣。當時他是 Amazon 的 CEO，他邀請我們到現場展示系統。所有做機器人研究的人都知道，實驗室里的機器人能運行是一回事，把它運到別的地方演示是另一回事，這非常讓人緊張。我們必須把整套系統打包運輸，而此前它從未離開過實驗室。

我們擔心無數問題，運輸損壞、燈光變化、環境變化，還有各種不可預見情況。但幸運的是，一切居然正常工作。我們帶去了三箱測試物體，Jeff Bezos 來到現場，開始親自擺弄那些物體。

一開始系統表現得非常好，直到出現一個意外。他的助手 Ty Brady 脫下自己的鞋，走上前說，能試試抓我的鞋嗎？我要告訴大家，當時我們從來沒有用鞋測試過，從來沒有。

當時我整個人都僵住了，但還能怎么辦呢？于是他說，來吧，然后把鞋扔進料箱。我屏住呼吸，因為 Jeff Bezos 就站在那里。機器人伸出手臂，緩緩移動過去，夾住那只鞋，成功抓起。

我可以坦白說，那一刻可能是我人生中最美好的時刻之一。

高壓演示環境下，一切居然成功了。第二天，我們受到巨大鼓舞。Jeff Mahler 和另外三位即將畢業的學生一起創辦了公司，我也是聯合創始人之一，這家公司后來發展成為 Ambi Robotics。

Ambi Robotics 的發展是一段漫長的旅程，我們持續構建和擴展整個系統，而就在這個過程中，新冠疫情爆發了。幸運的是，我們當時研究的問題——包裹分揀——被認定為關鍵基礎設施業務，因此我們獲準繼續開展研發工作。后來我們開發出了一套系統，叫做 AmbiSort。

AmbiSort 的核心思想依然來自 Dex-Net。它從料箱中抓取物體，只不過這里的物體不再是零件，而是包裹。大家可以想象這個問題有多復雜，系統首先獲取深度圖像，然后工業機器人伸出機械臂抓取包裹，接著掃描包裹上的郵編信息。最后根據目的地，把包裹放入對應的分揀箱。

這是我們最早的一段演示視頻。當時我們的愿景是，把這樣的系統部署到全國各地的物流中心，因為這是幾乎所有物流配送中心都會遇到的問題。很高興的是，我們后來真的做到了。

如今系統已經部署在美國各地。我們與主要物流公司合作，他們使用 AmbiSort 系統完成自動化分揀。

這時你可能會說，等等，你剛才不是在質疑數據至上嗎？Dex-Net 不就是一個依靠大量數據訓練出來的系統嗎？

是的，這里確實用了大量數據。但我要強調的是，僅靠數據遠遠不夠。真正讓系統運行起來的是數據 + 傳統工程，大量工程設計、大量模塊化系統、大量細致調試。

其中一個關鍵模塊就是運動規劃，因為機器人夾爪和手腕結構較大，它必須在非常狹窄的空間中完成復雜運動。尤其是在料箱越來越深的時候，運動規劃變得極其困難。

大家都知道運動規劃是機器人學里的經典問題。但當你要求它在極短時間內完成，而且環境非常擁擠時，問題就變得十分棘手。后來 Jeff Mahler 和 Jackie 提出一個非常聰明的想法，利用神經網絡為運動規劃提供 Warm Start。先用神經網絡預測一個好的初始解，然后再進行規劃，結果效果非常好，規劃時間顯著下降。隨后又有另一批博士生創辦了新公司 Jacobi Robotics，他們專門開發運動規劃軟件，現在已經商業化運營。

接下來我想回到“兩種文化”的討論。因為我知道，很多人此刻可能在想，這個人有點老派，他是不是不了解《The Bitter Lesson》？

其實我非常了解《The Bitter Lesson》，我也完全認同它。它的核心觀點是，長期來看，計算能力最終會勝出。我并不是在否認這一點，我的問題始終只有一個，什么時候？這才是我整場演講真正想討論的問題。

因為現實擺在這里，機器人領域與大語言模型之間仍然存在五個數量級的數據差距。這就是我們面對的現實。那么數據從哪里來？我們怎樣獲得足夠的數據？

目前主要有幾條路徑。第一條路徑是仿真，這對于無人機來說效果非常好。你可以在仿真中訓練，然后遷移到現實世界。仿真與現實之間的差距非常小，甚至已經能夠擊敗世界級無人機競速冠軍。對于運動控制（Locomotion）也是如此。例如機器狗，今天大家看到的大量成果，都是在仿真環境中訓練出來，然后成功遷移到真實世界的。對于全身運動控制而言，仿真到現實的差距相對較小，因此我們也看到了令人驚嘆的成果。

但在操作（Manipulation）領域情況完全不同，這里的仿真與現實差距非常大。原因很多，包括接觸力持續變化，摩擦持續變化，物體會發生形變。尤其在人類服務場景中，大量物體都是可變形的，而操作本身又容易受到微小碰撞影響。因此經常會出現的情況是，仿真里表現完美，現實中完全失效。這就是操作領域面臨的巨大挑戰。

另一條路徑是世界模型，過去一年大家都在討論它。例如 Cosmos 這樣的系統，它們利用海量視頻進行訓練。視頻數據確實很多，互聯網擁有豐富的視頻資源。但問題在于，世界模型經常出現幻覺。例如機器人抓取任務中，模型有時會憑空生成第三根手指，或者創造根本不存在的結構，這種情況并不少見。

從視覺效果上看，世界模型似乎合理，但實際上并不理解物理世界。當然，我知道很多人在研究這個方向。未來也許會解決，但目前還沒有。

第三條路徑是人類遙操作。很多團隊都在讓人類直接操控機器人，這樣可以獲得高質量演示數據，如今已經形成一個龐大的產業。但坦率地說，我并不覺得這是令人向往的工作。整天坐在那里遙操作機器人，我的學生們并不喜歡做這件事。而且問題依然存在，這樣究竟能收集多少數據？

于是我想提出第四條路徑。討論相對較少，但我認為非常重要，那就是真實生產環境，讓機器人真正投入工作，然后從工作過程中收集數據。

以 Ambi Robotics 為例，去年我們的系統累計分揀包裹突破1億件。這意味著什么？意味著我們記錄了近1億次抓取操作。系統會保存每一次成功和失敗，我們擁有統一監控平臺，監控所有部署系統，進行預測性維護，發現堵塞、故障、異常。與此同時，也在持續積累數據。截至目前，我們累計獲得了約22年的機器人運行數據。注意，這22年不是自然時間，而是所有機器人工作時間累加后的總量。

這些數據是在過去4年里積累出來的，但即便如此，22年數據依然不算多，因為公司規模還不夠大。我們甚至沒有足夠預算去處理全部數據，于是我們選取了一小部分數據進行實驗，訓練通用抓取模型，然后測試一種全新場景，抓取物流袋。

這與 Dex-Net 時期完全不同。袋子高度可變形，充滿褶皺，而 Dex-Net 原本訓練的是剛體物體。結果我們發現，真實生產數據訓練出來的模型效果極好，遠遠優于原有數據集。

于是我們提出一個概念，Data Flywheel（數據飛輪）。先讓系統投入運行，獲得數據，利用數據提升性能，性能提升后賣出更多系統，部署更多機器人，收集更多數據，再進一步提升性能，形成正反饋循環。

后來我和 Leslie Kaelbling 討論這個問題。她指出，如果系統持續增長，其實已經不僅僅是飛輪，更像是一種指數增長過程。所以我現在更愿意稱之為Data Avalanche（數據雪崩）。我認為，這才是機器人獲取大規模數據的核心路徑。

接下來我要講的是最近六個月一直在思考的新內容，就從“通用機器人（General Robotics）”開始。這是現在最熱門的話題之一，Jensen Huang 在談，Elon Musk 在談，大量公司都在談。核心目標是構建一個能夠適應所有場景的通用機器人模型，這個愿景非常吸引人。

但一個月前，Dyna 創始人 Yu Gang 發了一篇很有意思的文章，我建議大家去看看。他指出，通用機器人公司已經融資數十億美元，超過140家公司獲得投資，估值極高。但如果看真正完成的有效工作量，幾乎可以忽略不計。這說明什么？說明還有一個問題沒有解決，那就是專家系統（Specialist）與通才系統（Generalist）之間的矛盾。

通用機器人希望自上而下解決問題，而專家系統則是一次解決一個具體問題，逐步擴展能力。有趣的是，如果你想通過真實生產環境獲得數據，那么生產環境天然更接近專家系統。因為現實中的工作往往不是無限開放的，而是帶有一定結構和重復性的。例如咖啡機器人，每天都在做咖啡，訂單不同，杯子位置不同，但總體流程相似。再例如物流分揀，每天都在分包裹，包裹不同，但任務本質相同。我把這種情況稱為 Variational Automation（變體自動化）。不是固定自動化，也不是完全通用智能，而是在同一個任務中處理各種變化，我認為這是非常重要的中間層。

我一直在用這個視角重新思考近年來提出的各種 VLA 基準測試（Benchmark）。例如經典的任務：把桌上的物體拿起來，放進籃子里。如果換一個角度來看，我們完全可以把它理解成，在超市倉庫里完成訂單揀選。訂單不斷到來，機器人需要從貨架上找到對應商品并放入訂單籃中，這本質上仍然是同一個問題。

而且，這類問題其實已經可以通過傳統工程方法解決，傳統工程方法已經存在很多年了。我們來比較一下兩種路線，對于傳統工程方案，人類工程師手工設計系統，每個場景單獨開發，通用性較差，而且需要大量系統集成工作。但它已經可以投入生產，可解釋性強，可靠性高。今天工業自動化領域大部分系統都是這樣工作的。

而另一邊是 VLA，它代表了一種完全不同的愿景，希望構建一個高度通用的系統，像大語言模型一樣，同一個模型完成各種任務。但目前它還沒有真正成熟，它不可解釋，我們無法清楚知道系統為什么做出某個決策。更重要的是，它是否足夠可靠？是否可靠到能夠真正投入生產？這正是兩種文化沖突的核心。

我并不是想挑起對立。恰恰相反，我想尋找一種融合方式。在此之前，我們先看看目前 VLA 面臨的問題。

去年秋天發布的 LIBERO-Pro Benchmark 做了一項有趣實驗。某個 VLA 模型在標準測試環境中達到100%成功率，但如果只是把易拉罐移動幾厘米，成功率立刻下降到17%左右。類似現象在許多任務中都出現了。也就是說，當環境變化稍微超出訓練分布時，模型性能會迅速崩潰。斯坦福、DeepMind 和布里斯托大學最近的一篇論文也指出，當前模型其實并沒有大家想象中那么通用，只要變化超出非常有限的范圍，系統就會失效。

那么怎么辦？這里我認為，兩種文化或許終于有機會真正結合起來。我一直在思考，有沒有一種方法能夠把它們統一起來，而不是讓兩邊繼續對立，于是我開始關注 Agentic Coding。

其實早在2023年就有人提出了 Code as Policies。核心思想是，利用大語言模型生成機器人控制代碼，輸入任務描述，模型自動編寫程序，執行任務。許多團隊都在探索這一方向。有趣的是，它提供了一種全新的范式。因為這里仍然使用生成式 AI，利用預訓練大語言模型，不需要額外機器人數據，而且輸出的是代碼，因此具有可解釋性，你可以檢查，可以分析，可以驗證。

于是我們開始研究這種方法。今年夏天我們將在 ICML 發表一篇論文，項目名叫 CAP-X。我們建立了一整套測試框架，利用現有機器人 Benchmark 系統評估 Agentic Coding。最初，我們實現了一個簡單 Agent，輸入英文任務描述，Agent 自動生成代碼，然后執行，結果大約達到32%的成功率，遠低于人工編程水平。隨后我們加入強化學習，讓系統在失敗后自動修改代碼，不斷迭代，結果性能顯著提高，在特定 Benchmark 上成功率達到80%以上，已經明顯優于許多 VLA 系統。

但真正讓我興奮的是另一件事，那就是過去半年迅速興起的多智能體系統。自去年12月以來，這個方向幾乎爆發式增長。Copilot、Cursor、Claude Code、OpenAI Codex、NVIDIA Nemo 等各種系統不斷出現，整個領域發展非?？臁２贿^多智能體系統有一個問題，它們很難管理大型代碼庫，而機器人系統恰恰擁有極其復雜的軟件結構。

于是我們開始重新思考。我的學生 Eric Chen 提出，為什么不嘗試用 Rust 重寫部分系統？因為 Rust 的類型系統和結構化特征非常適合管理復雜程序。后來我們意識到，等等，機器人領域其實早就擁有一種成熟的結構，那就是圖（Graph）。

機器人本來就在使用各種計算圖，行為樹（Behavior Tree）、ROS 節點圖、任務圖、運動規劃圖。這些東西已經存在很多年。于是我們產生了一個想法，既然 Code as Policies 可以生成代碼，為什么不能生成圖？于是我們提出Graph as Policies（GAP）。核心思想是，不是讓 Agent 直接生成代碼，而是生成計算圖。圖結構天然具有很多優勢，可以分解，可以組合，可以驗證，可以擴展。一個節點負責感知，一個節點負責抓取，一個節點負責運動規劃，另一個節點負責任務管理。然后多個 Agent 分別負責不同節點，彼此協作，驗證輸入輸出接口，檢查約束條件，確保整個系統能夠正確組裝。這樣就形成了一個大型圖結構，例如感知子圖、運動規劃子圖、抓取子圖、執行子圖等等。

接下來我們正式定義問題。我們關注的是 Variational Automation Task，其輸入包括任務語言描述、環境信息、機器人配置、傳感器配置、目標物體集合、狀態空間、信念空間（Belief Space）及獎勵函數。輸出則是一個計算圖，圖由節點和邊構成，這個圖最終成為機器人執行策略。

整個系統架構如下，我們設計了一個稱為 Harness 的框架。之所以叫 Harness（韁繩），是因為你必須有辦法控制這些強大的 Agent，否則它們會到處亂跑。Harness 負責接收環境幾何信息、任務定義、自然語言描述，然后利用大語言模型把任務拆解，構建初始計算圖，接著根據具體環境實例化參數，然后進入自我學習循環，不斷執行，不斷評估，不斷修改圖結構。

Agent 特別擅長這種迭代優化過程。最終得到表現最好的圖，然后部署到真實機器人上。部署階段不再需要龐大 GPU，只需要輕量級執行器即可運行。換句話說，訓練階段復雜，執行階段高效。

接下來我們測試了8個 Variational Automation Benchmark，其中部分來自 LIBERO，部分來自真實工業場景。下面看看結果。

第一個任務叫 Make Popcorn。機器人需要把平底鍋放到爐灶上，完成爆米花制作流程。GAP 最終達到98%成功率，而且能夠通過自我學習不斷提升性能。隨后我們把它部署到真實機器人平臺，使用 Franka 機械臂，甚至真的使用 Jiffy Pop 爆米花，系統成功完成任務。

接著我們與 Bosch 合作，研究一個工業裝配任務。機器人需要把工件正確放入料框，存在大量位置和姿態變化。目前 GAP 成功率已經達到95%。作為對比，人工工程師設計的系統成功率約99%，兩者已經非常接近。

然后是數據中心任務，機器人需要插拔網線，這是一個很困難的問題。利用 GAP，我們達到100%成功率，而且只使用機械臂自帶力傳感器，沒有額外硬件。

接下來回到剛才提到的超市訂單任務。VLA 模型 OpenVLA 0.5 的成功率約為20%，而 GAP 在同一 Benchmark 上達到97%，而且是在大量商品種類和環境變化條件下實現的。我們還測試了真實場景，結果同樣非常穩定。因為一旦圖結構生成完成，系統就具有天然泛化能力，改變相機位置或者改變目標物體位置，系統仍然能夠正常工作。

隨后我們測試 Pack Order 任務，目標是把任意物體裝入箱子，不需要識別具體類別，只需要正確裝箱。這個問題有點類似 Dex-Net，結果同樣非常可靠。

不過最讓我興奮的實驗是下面這個。我們把 OpenVLA 0.5 和 GAP 結合起來。怎么結合？很簡單。先讓 GAP 負責把相機和夾爪移動到理想位置，讓目標物體處于最佳觀察狀態，然后再調用 VLA。結果發生了什么？成功率幾乎翻倍甚至三倍提升。因為 GAP 把問題限制在了 VLA 最擅長的分布范圍內。這讓我意識到，未來真正有前景的方向也許不是二選一，而是融合。GAP 可以幫助系統穩定工作，同時不斷收集真實數據，這些數據又可以用于訓練未來更強大的 Model-Free 模型。所以我并不是說答案已經確定，我只是認為，這可能是一條值得探索的道路。

以上就是我今天想分享的內容?；氐阶铋_始的話題。兩種文化，Model-Based，Model-Free。也許我們終于來到一個時刻，它們開始真正融合。而這讓我感到非常興奮。謝謝大家。

02

Q&A 環節

提問：我想問一下，您是否考慮過使用 Stellar Laser，以及即將出現的 Java 架構？是否研究過或者考慮過它們？

Ken Goldberg：這是個很好的問題。事實上我們已經開始關注這些方向。只是由于時間節點比較緊，目前還沒有真正做出來。但我們肯定會繼續研究。我認為我們現在真的只是剛剛開始，還有大量開放問題等待解決。所以如果你感興趣，我鼓勵你去嘗試。這正是讓我興奮的地方。我覺得未來幾年我們都會持續研究這些問題。謝謝。

提問：您怎么看待驗證（Verification）問題？現在生成大量代碼已經變得非常容易，即使是在傳統軟件開發中，我們也很難驗證生成的代碼是否真的完成了所有預期功能。那么未來我們是不是也需要用 Agent 來自動完成驗證？還是說必須采用其他更嚴格的方法？

Ken Goldberg：這是一個非常重要的問題。事實上，我已經安排了一次會議。等這次大會結束后，我會和一個專門研究代碼驗證（Code Verification）的團隊討論合作。我們計劃把代碼驗證機制整合到系統中。目前有些事情是比較容易做到的。例如檢查代碼是否能夠成功編譯、自動修復編譯錯誤、驗證圖結構是否符合規范、檢查各個模塊之間的連接是否正確。這些都已經可以實現。

但您說得對，更深層的問題是，如何驗證系統在所有情況下都能正確工作？在我們的框架里，目前采用的方法之一是在內部仿真環境中反復測試。系統會不斷嘗試各種情況。而其中一個非常有趣的發展方向是讓 Agent 自己提出測試案例，特別是那些邊緣情況（Edge Cases）。也就是說，Agent 不只是解決問題，還主動設計最困難的測試來挑戰自己。

我認為多智能體系統具備這種能力，或者至少正在朝這個方向發展。系統能夠越來越嚴格地測試自己，不斷發現潛在問題，然后持續改進。進一步說，如果這種能力能夠遷移到真實世界，就更有意思了。想象一下，機器人能夠自動重置環境，自動設計實驗，自動執行實驗，自動分析結果，然后再優化自己。這具有巨大的潛力。目前已經有人在研究類似方向。因此我對此非常期待。

提問：我很好奇您如何看待另一個趨勢。近年來越來越多人開始研究機械智能（Mechanical Intelligence）和智能結構（Intelligent Structures），通過結構本身適應環境的不確定性。您認為這一方向在您所說的“兩種文化融合”中處于什么位置？它對于縮小機器人數據鴻溝又能發揮什么作用？

Ken Goldberg：這是個非常好的問題。其中一個思路是，利用 VLM（視覺語言模型）或者 LLM（大語言模型）來設計結構和機構，事實上已經有不少人在嘗試這樣做。

我不確定今年大會上是否已經有相關論文，但確實已經出現了一些初步成果。例如讓模型自動設計特定任務對應的機械結構，自動設計機構甚至自動設計機器人本體。這有點類似于今天我們看到的蛋白質設計，或者其他生成式設計任務，目前已經展現出一定潛力。

我認為這是一個非常開放、非常值得探索的研究方向。同時，這也與您剛才提到的數據問題直接相關。因為我一直強調，我們的目標并不是一步到位獲得通用機器人，而是先讓機器人足夠好，好到有人愿意購買它，把它部署到咖啡館，部署到倉庫，部署到工廠，開始創造價值，然后收集數據，利用這些數據不斷提升系統能力。從這個角度來看，機械智能和結構設計同樣能夠幫助機器人更快進入生產環境，進而加速數據積累。這正是我希望看到的發展路徑。

提問：我一直覺得 VLA 最大的弱點之一在于缺乏對物理世界的理解。而您提出的 Graph as Policies 看起來似乎依賴 LLM 編程 Agent。那么您認為這些 LLM 編程 Agent 是否真正擁有物理世界知識？這些圖結構是否真的理解物理規律和世界運行方式？

Ken Goldberg：這是一個非常有趣的問題，而且是一個非常深刻的問題。老實說，我不知道。這其實和關于 LLM 的經典爭論一樣，它們真的理解了嗎？哲學家們至今還在爭論這個問題。不過有一點很有意思，即使它們沒有真正理解，它們似乎也非常擅長“表現得像理解了一樣”。換句話說，我認為它們未必以人類的方式理解世界，這一點我覺得已經很明顯了。但與此同時，它們確實擁有某種關于環境的表征能力。特別是當你觀察這些 Agent 編程時，如果在座有人使用過這些系統，應該會有同樣感受，你會驚訝于它們嘗試解決問題的方式。

我記得有一個團隊分享過他們的實驗。他們的 Agent 在完成抓取任務時卡住了，于是它自動上網搜索相關資料，下載了幾篇機器人抓取論文，閱讀這些論文，然后根據論文中的方法重新設計抓取策略，最終成功解決了問題。這是非常不可思議的事情，系統能夠自主完成這一系列過程，那么這是否意味著它真正理解了？我們完全可以找個酒吧，一邊喝酒一邊討論幾個小時。但對我來說，更重要的問題是，它是否能夠做出有用的事情？在這一點上，我比自互聯網誕生以來任何一次技術浪潮都更加興奮。真的如此，我認為這項技術有可能幫助我們打破過去的分裂，讓兩種文化真正走到一起，并推動機器人領域實現實質性進步。

去哪看 ICRA 核心【演講/論文】詳解？

為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨，雷峰網已全面上線【ICRA 2026 深度專區】。

專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續更新前方記者的第一手會議動態。

與全球 8000 名頂尖大腦同步呼吸，搶先透視具身智能的下一個五年！

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

美國4比1大勝美國主導比賽巴拉圭疲于奔命讓人意外

澎湃新聞 2026-06-13 11:06:27
10993 跟貼 10993
日媒：韓國決定申請加入CPTPP

參考消息 2026-06-13 12:18:28
16680 跟貼 16680

燃油車為沖刺年中銷量加大優惠力度新能源車開始漲價

大象新聞 2026-06-13 15:33:15
3091 跟貼 3091

上海頭部高校重磅！復旦、交大、同濟、華東師大齊宣布：本科擴招！

環球網資訊 2026-06-13 22:01:12
57 跟貼 57
新餐館裝修500把椅子放門口被市民誤認為是不要的直接搬空老板娘喊話：主動歸還者請吃砂鍋

閃電新聞 2026-06-13 12:22:15
1602 跟貼 1602

湖北29歲女碩士帶2歲娃參加畢業典禮，讀研期間一邊帶娃一邊上學

星視頻 2026-06-13 11:02:57
58 跟貼 58

多國嘉賓：在中國，人權不是抽象概念，而是扎根現實的民生福祉

中國日報網 2026-06-13 17:07:04
5453 跟貼 5453
李書福：將有序關停并轉吉利汽車集團有限公司相關冗余主體

紅星資本局 2026-06-13 11:26:05
673 跟貼 673

女子花680元辦山姆會員卡，收到臨期菜：距離過期僅剩不到24小時；客服：不想要臨期可以備注

都市快報橙柿互動 2026-06-13 18:48:30
436 跟貼 436
“張雪機車”再次奪冠

新華社客戶端 2026-06-13 20:36:34
7283 跟貼 7283
臺媒體人柳杰克：我粉絲透過自媒體認識大陸，徹底從深綠轉向001

海峽導報社 2026-06-13 16:50:16
107 跟貼 107
媒體：中國制裁菲防長措辭之嚴厲在外交用語中屬罕見

俠客島 2026-06-13 14:51:42
1012 跟貼 1012
中國男籃隊長調整

極目新聞 2026-06-13 10:53:08
573 跟貼 573
“建議爬山不要買白色雨衣”，熱搜第一！網友：遠看人影飄飄忽忽

環球網資訊 2026-06-14 07:52:29
4 跟貼 4
中國政府債券余額首次突破100萬億元

第一財經資訊 2026-06-13 13:16:38
1184 跟貼 1184
只是技術故障！國際足聯：瑞士造點沒越位，圖像沒能正常顯示

澎湃新聞 2026-06-14 08:36:28
1 跟貼 1
海光信息在漢披露：國產CPU處理器性能已比肩英特爾

支點財經 2026-06-11 21:27:18
174 跟貼 174
游客吐槽無錫國保園林寄暢園像“吸煙室”，古建古樹間煙霧彌漫，景區回應：已全面禁煙

上游新聞 2026-06-13 18:13:12
1177 跟貼 1177
揭秘：為什么不建議老舊家電“超期服役”?

北青網-北京青年報 2026-06-12 12:00:04
309 跟貼 309
賣家忙到凌晨1點，西班牙球衣日銷500件

第一財經資訊 2026-06-13 13:17:53
124 跟貼 124
英格蘭隊“僅剩一個足球沒被偷”

第一財經資訊 2026-06-13 14:54:33
179 跟貼 179
《保衛麥收》丨麥收戰歌，保衛中國糧！ #聚焦2026三夏#

農視網 2026-06-14 10:33:00
1 跟貼 1
網紅“孤獨樹”被村民怒砍，又成“絕版樹”“禿頭樹”？

環球網資訊 2026-06-14 10:00:36
0 跟貼 0
內蒙古巴彥淖爾一產業園庫房起火無人員傷亡

環球網資訊 2026-06-14 10:11:30
0 跟貼 0
東海大橋兩輛集卡追尾傷員送醫救治

上觀新聞 2026-06-14 10:00:45
0 跟貼 0
“事發時聽到爆炸聲，火勢有數層樓高”，最新情況

澎湃新聞 2026-06-14 10:10:16
0 跟貼 0
“五星”巴西首戰戰平德國“戰車”凌晨登場

極目新聞 2026-06-14 08:24:41
0 跟貼 0

這次，孫丞瀟被扒了個底朝天，吳鎮宇的話，終于有人信了

這次，孫丞瀟被扒了個底朝天，吳鎮宇的話，終于有人信了

草莓解說體育

2026-06-13 14:45:45

馬斯克的“造人計劃”：14個孩子和一個讓他心碎的“嫡長子”

馬斯克的“造人計劃”：14個孩子和一個讓他心碎的“嫡長子”

民間胡扯老哥

2026-06-14 07:08:34

一油傳三代，人走油還在，日本一炸雞店一鍋油用了66年拿全國金獎

一油傳三代，人走油還在，日本一炸雞店一鍋油用了66年拿全國金獎

大廠編外實習生

2026-06-12 13:36:01

一輪牛市，科技見頂就是牛市結束，大家被“洗腦”了！

一輪牛市，科技見頂就是牛市結束，大家被“洗腦”了！

郭小凡財經

2026-06-14 09:13:07

15個副省級市已明確，浙江2個，江蘇僅有1個，湖南、河北1個都無

15個副省級市已明確，浙江2個，江蘇僅有1個，湖南、河北1個都無

混沌錄

2026-06-01 21:47:13

村里請我回去投資，剛上桌就被二叔扇臉：你也配上桌，我火速撤資

村里請我回去投資，剛上桌就被二叔扇臉：你也配上桌，我火速撤資

千秋文化

2026-06-10 20:45:49

后防巨大失誤！巴西隊3人看戲：摩洛哥新星精彩破門安帥一臉愁容

后防巨大失誤！巴西隊3人看戲：摩洛哥新星精彩破門安帥一臉愁容

風過鄉

2026-06-14 06:36:51

特朗普出手！Claude Fable 5與Mythos 5全停了，AI專家：中國才是全人類希望

特朗普出手！Claude Fable 5與Mythos 5全停了，AI專家：中國才是全人類希望

智東西

2026-06-13 12:29:15

白酒再次成為關注對象！多名院士發現：常喝白酒的人，有4個變化

白酒再次成為關注對象！多名院士發現：常喝白酒的人，有4個變化

垚垚分享健康

2026-06-13 19:20:07

比恒大還慘！中國第二大民企倒了，負債7500億，創始人被帶走

比恒大還慘！中國第二大民企倒了，負債7500億，創始人被帶走

芳芳歷史燴

2025-12-25 20:32:52

破繭成蝶未來可期！U23國足4-0大勝展現青春風暴

破繭成蝶未來可期！U23國足4-0大勝展現青春風暴

環球體壇啄木鳥

2026-06-13 18:47:30

這組全是許晴年輕舊照！

草莓解說體育

2026-06-05 14:04:24

全線轉跌，超12萬人爆倉

每日經濟新聞

2026-06-12 00:18:19

世界杯熱度不如從前，別看國足缺席，中國反而卻成了最大贏家

世界杯熱度不如從前，別看國足缺席，中國反而卻成了最大贏家

小許論事

2026-06-13 10:42:43

洛佩特吉迎來世界杯首秀：2018年的事，我已放下

洛佩特吉迎來世界杯首秀：2018年的事，我已放下

體壇周報

2026-06-13 17:57:21

震驚！武漢某大學食堂貼出提示稱“燒鵝飯為廣東俗稱，實為烤鴨”

震驚！武漢某大學食堂貼出提示稱“燒鵝飯為廣東俗稱，實為烤鴨”

火山詩話

2026-06-13 08:00:03

守不??！臺灣管控的太平島允許美軍進領海，被越南菲律賓多次欺負

守不??！臺灣管控的太平島允許美軍進領海，被越南菲律賓多次欺負

阿龍聊軍事

2026-06-13 15:19:24

痛快！女子買房被姑姑指“嫁出的女不該分家產”，回懟堪稱教科書

痛快！女子買房被姑姑指“嫁出的女不該分家產”，回懟堪稱教科書

火山詩話

2026-06-13 06:40:12

四人幫被密捕的消息是如何泄露的？北京傳來暗語：老娘心肌梗死

四人幫被密捕的消息是如何泄露的？北京傳來暗語：老娘心肌梗死

談古論今歷史有道

2026-06-03 16:30:03

為什么說閑魚是中國最大的黑市？網友:我直接給跪了！

為什么說閑魚是中國最大的黑市？網友:我直接給跪了！

另子維愛讀史

2026-06-02 10:51:07

點評學術，服務AI

7372文章數 20758關注度

往期回顧全部

科技要聞

Anthropic最強模型被禁，傳亞馬遜通風報信

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤官方公布細節

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤官方公布細節

體育要聞

美國4比1巴拉圭：這統治力真是美國隊？！

娛樂要聞

具俊曄曝大S離世前虛弱照，難怪小s退讓

財經要聞

金價跌至900元關口，大媽又來抄底了！

汽車要聞

深藍S07華為乾崑激光版增程車型上市限時15.49萬元起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

家居

健康

時尚

親子

手機要聞

告別4499元！小米18起售價將突破5000元大關首發高通驍龍8E6

家居要聞

空間微調移形換境

自由流光回溯生活真意
雅奢之序五層別墅
220平對味兒家空間情緒宅

老人、小孩、孕婦，吃粽子有啥風險

伊姐周六熱推：電視劇《南部檔案》；電視劇《意外調查組》......

親子要聞

兩個孩子兩種出路

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版