无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

UC Berkeley Ken Goldberg 教授:具身數據規模落后十萬年,你仍然相信數據萬能嗎?| ICRA 2026

0
分享至


數據還是工程,答案也許是全要。

作者丨梁丙鑒

編輯丨馬曉寧

數以十億計的資金涌入具身智能行業,與此同時,這些機器人真正完成的有效工作卻屈指可數。落地壓力的迫近之下,VLA 等無模型方案和傳統 Model-Based 路線之間的分歧是如此強烈,以至于某種程度上,甚至帶上了意識形態的色彩。

這成為了本屆國際機器人與自動化會議(ICRA)現場最引人關注的話題。在會議第二天,UC Berkeley 教授 Ken Goldberg 發表了題為《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》的演講,發表了他對具身數據采集、數據飛輪、GAP 系統,以及有關具身落地種種的看法。雷峰網·AI科技評論在現場發回報道。

過去幾年,隨著 ChatGPT、視覺語言動作模型(VLA)和人形機器人熱潮興起,依靠海量數據、深度學習和大模型驅動的 Model-Free 路線幾乎成為行業主旋律,人們無比相信 Scaling Law 將再次帶我們抵達具身智能的 GPT 時刻,乃至真正的通用機器人。

對此,Ken Goldberg 提出了靈魂之問:什么時候?

“如果按照人類平均閱讀速度計算,閱讀完今天訓練大型語言模型所使用的全部數據,大約需要10萬年。而換算到機器人領域,我們目前積累的數據總量,大概只相當于幾年的規模?!?/strong>

具身智能數據鴻溝的抽象討論背后,是一組恐怖的對比數據。Ken Goldberg 相信,這已經足夠成為我們對“數據萬能論”保持警惕的充分理由。而海量數據的反面是工程,在一條更可靠的具身落地路徑上,工程架構、模塊設計和物理建模仍然不可替代。

在演講中,Ken Goldberg 回顧了自己團隊著名的 Dex-Net 項目。從利用概率模型評估抓取成功率,到構建大規模仿真數據集,再到訓練神經網絡完成真實世界抓取,這個近十年前的嘗試對于今天的具身智能仍有啟示,那就是數據與工程方法的深度結合,效果遠勝單純的數據堆砌。當下對數據飛輪的討論同樣可以納入這一框架,大規模商業部署,首先關注的必然是讓機器人做出有用的事情,這離不開對工程層面的關注。

數據還是工程?對于這個困擾行業已久的問題,Ken Goldberg 認為答案或許不是二選一。當前炙手可熱的 VLA 模型擁有驚人的泛化潛力,卻容易在環境發生細微變化時失效。傳統工程系統雖然缺乏通用性,但可靠性見長的特點卻讓二者看起來像是天作之合。

讓大語言模型不直接控制機器人,而是生成可解釋、可驗證的計算圖,再由多個智能體協同構建和優化系統。這就是 Ken Goldberg 在仿真、世界模型、遙操作之外,提出的一種全新融合思路。

以下是 Ken Goldberg 在 ICRA 2026 大會發表的演講精編稿,AI 科技評論基于原英文演講內容進行了不改原意的翻譯編輯:

《Can GOFE and Code-as-Policy Close the 100,000-Year “Data Gap” in Robot Manipulation?》

主講人:Ken Goldberg, UC Berkeley

01


GOFE 和代碼即策略,

能否彌合機器人操作領域長達十萬年的數據鴻溝?

今天我想講的是“兩種文化的故事”。

大概7歲的時候,我經常熬夜看《Jetsons》。有些人可能還記得,那是一部很棒的動畫片。里面有一個機器人,她會做所有家務,然后陪孩子們玩。我當時覺得太棒了,從小我就一直想擁有這樣的機器人。事實上,我父親和我真的一起造過一個機器人。那是給他的鉻電鍍公司做的,一個機器人吊運機。它其實從來沒有真正成功運行過,不過說實話,我們當時做的很多東西都沒成功。

正如 Alex 提到的那樣,我小時候同時對科學和藝術感興趣。隨著年齡增長,我越來越意識到這兩者之間存在著一道鴻溝。這讓我想起 C. P. Snow 所描述的“兩種文化”——科學家和藝術家看待世界的方式截然不同。


后來我去了卡內基梅隆大學,投入到了科學研究中,專注于解決問題。我至今仍然記得某個時刻,當所有事情突然串聯起來時的感覺。那種感覺真的很奇妙,仿佛宇宙中有某種力量在推動這一切發生。與此同時,晚上我還會偷偷在實驗室里用機器人創作藝術作品。我的導師 Matt Mason 后來發現了這件事,因為我把油漆灑在了地板上,所以不得不承認自己在干什么。

結果他說:“好吧,繼續做下去?!彼浅VС治?。這件事讓我非常開心。

幾年后,我們完成了一個叫做 Telegarden 的項目。在互聯網發展的早期階段,我們把機器人接入網絡,人們可以在線操控機器人來照料花園。再后來,我和 Katie Kuan 合作完成了一個項目。她畢業于斯坦福大學機器人學博士項目,同時也是一位職業舞者。我們一起做了一場舞蹈表演,當然跳舞的不是我,而是一臺小機器人。可以說,我一直試圖在科學與藝術這兩種文化之間搭建橋梁。

但正如 Alex 所說,還有另外兩種文化,是我后來逐漸研究并不斷思考的:機器人學內部的文化,以及機器人學外部的文化。有人曾開玩笑說,一臺機器人叫 Robotics(機器人學),十臺月球機器人就是 Roger Biller 說的 Automation(自動化)。

我曾參與創辦《IEEE Transactions on Automation Science and Engineering》,它是《IEEE Transactions on Robotics》的補充。如今這兩個期刊都發展得很好?,F在我們還有一個新的組織叫做 CASER,這是 Jim Hutchinson 命名的委員會,目的是探索自動化與機器人之間的協同效應。這個工作至今仍在繼續,他們周四也有會議。

好了,說到“兩種文化”,今天我真正想討論的是另外一組文化。這是我在 ICRA 社區中看到的兩種文化:一種是 Model-Based(基于模型),另一種是 Model-Free(無模型)。


我認為前者可以追溯到牛頓時代。這是我們在大學里學習了很久,并且今天依然在教授的內容。它構成了機器人操作(manipulation)的核心基礎,也支撐著諸如《Algorithmic Foundations of Robotics》等會議和大量學術成果。

然而到了2012年,情況發生了變化。以深度學習為代表的 Model-Free 方法取得了重大突破。最早是深度學習,然后是 Transformer,再后來是 Diffusion Model。到了2021年,人們又開始重新討論人形機器人。

大家可能還記得,第一款“人形機器人”就是在 Tesla AI Day 上發布的。當然,它并沒有真正騙過任何人。不過 Elon Musk 當時承諾:“未來 Tesla Bot 會來到這里?!蹦鞘?021年。


這件事吸引了大量關注。隨后到了2022年底,我們迎來了 ChatGPT 時刻。那天早上醒來時,我們突然意識到,圖靈測試也許沒有被正式宣布解決,但它實際上已經被通過了。

接下來發生了一系列重大進展。到了2023年,VLA(Vision-Language-Action)模型迅速出現。同樣的思想被擴展到了機器人領域,攝像頭和傳感器作為輸入,中間是一個大型神經網絡,輸出則是機器人動作,這是一個端到端系統。

我認為這真正催生了兩種文化。許多人對右邊這條路線——Model-Free、VLA 路線——充滿熱情。如果我現在做個現場投票,我相信會有大量聽眾支持這一方向。所以我想借今天的時間,稍微深入討論一下這個問題。


首先從機器人數據鴻溝開始。必須承認,自2025年以來,這個領域的發展勢頭越來越強。Jensen Huang 曾站在舞臺上展示大量人形機器人。今年他更進一步,不僅展示人形機器人,還展示各種機器設備。他提出了“Physical Intelligence(物理智能)”和“Physical AI(物理人工智能)”的概念,并表示這將是一個價值50萬億美元的市場。這幾乎相當于全球勞動力成本的一半。

因此大量資本正在涌入。所有人都在問,機器人領域什么時候會迎來屬于自己的 ChatGPT 時刻?很多人的回答是,大數據解決了視覺問題,大數據解決了語言問題,因此,大數據也會解決機器人問題。對此我基本同意。


但我真正想問的問題是,這件事什么時候會發生?我知道它終將發生,但我不知道具體時間。

視覺本質上是二維狀態空間,語言可以看作一維 Token 序列,而機器人系統的狀態空間維度極高。如果討論一個人形機器人,僅僅是一雙25自由度的手,加上手臂,很快就達到50維以上。與此同時,我們還沒有像互聯網那樣的大規模機器人訓練數據。那么這個類比究竟如何成立?

因此我們做了一項分析,部分基于 Michael Black 的工作。結果發現,機器人領域擁有的數據量極其微小。與大語言模型相比,幾乎微不足道。于是我們提出了“機器人數據鴻溝”這個概念。

如果按照人類平均閱讀速度計算,閱讀完今天訓練大型語言模型所使用的全部數據,大約需要10萬年。而換算到機器人領域,我們目前積累的數據總量,大概只相當于幾年的規模。這就是巨大的差距。


當然,也有人會說,數據就是一切。但我想對此提出一點質疑。以 Waymo 和 Tesla 為例。Tesla 長期積累的數據量大約達到90億英里駕駛數據。粗略估計,比 Waymo 多出約50倍。具體數字可能略有偏差,但數量級就是如此。然而在脫離接管率(disengagement)等指標上,Waymo 的表現往往更好。

當然,你可以說這與激光雷達有關。但我想借此提出一個問題:數據真的是唯一需要的東西嗎?我和 Waymo 的朋友聊過這個問題。他們告訴我:“是的,我們使用了大量數據訓練車輛,但系統內部仍然包含大量傳統工程技術?!?/p>


所謂傳統工程技術,意味著系統由許多模塊組成。這些模塊使用卡爾曼濾波器、優化器以及各種數學模型。它們被組合起來,共同完成任務。模塊化系統具有明確接口,可以組合、分析和驗證,這與端到端 VLA 系統形成了鮮明對比。

這正是我所說的“兩種文化”,一邊是基于模型的方法,另一邊是無模型方法。


很多人其實同時屬于這兩個陣營,比如我本人。我是 Open X-Embodiment 那篇論文的共同作者之一,那篇論文有150位作者參與。如果你去看那篇論文,它提出了一個非常重要的觀點:通過在16萬個不同任務上進行訓練,模型正在走向通用性(generality)。

但我對此有一點疑問。如果你對這些任務做一個統計分析,看看用于描述任務的語言分布,會發現最常見的詞是“pick(抓取)”、“move(移動)”、“push(推動)”。這些詞出現的頻率遠遠高于其他詞。換句話說,這16萬個任務中的絕大部分,其實最終都可以歸結為一個非常簡單的任務,把物體0拿起來,放到物體1上。而有趣的是,這正是 John Craig 機器人學教材第三章講的內容。


那本書寫于 VLA 出現之前很多年,它給出了大量經典工程方法來解決這個任務。只要你有一個視覺模塊找到目標,有一個抓取模塊,有一個運動規劃模塊,然后整個系統就能完成任務。所以我想說的是,我非常喜歡這些 VLA 系統。它們非常有趣,也非常令人興奮。但很多時候,傳統工程方法依然能夠把工作完成得很好。

再回到這兩種文化。坦率地說,兩者之間存在某種緊張關系,甚至帶有一點意識形態色彩,有些人堅定站在某一邊。我想稍微深入討論一下。

接下來講一個關于 Covariant Robotics 的故事。實際上,在過去45年里,我一直在研究同一個問題,機器人如何抓取物體。有人說這是因為我小時候特別笨手笨腳,這是我母親的理論。但無論如何,人類在抓取方面確實極其擅長。

到了2012年,深度學習革命開始了。正如大家都知道的,海量數據、強大的計算能力、新的訓練算法……當時我和 Shankar Sastry、Pieter Abbeel 以及幾位研究生一起開設了一門機器人操作課程。課程內容基本還是傳統機器人學教材里的經典工程方法,但與此同時,我們也在關注計算機視覺領域發生的事情,尤其是在圖像分類和標注方面取得的巨大進展。

這些成果很大程度上來源于 ImageNet。Fei-Fei Li 系統性地收集了海量標注圖像數據,于是我們開始思考,能不能把同樣的思路用于抓取問題?

因此我們啟動了 Dex-Net 項目。為了向 Fei-Fei Li 致敬,我們也希望建立一個大型數據集。不過不是圖像標注數據。而是三維物體模型,以及針對這些物體的大量抓取方案。


幸運的是,我的博士生 Jeff Mahler 對這個項目非常投入。他開始從互聯網各處收集三維模型,許多學生也加入進來。他們清理模型、統一格式、構建數據庫。一個典型的 CAD 模型可能包含上千個三角面片。對于平行夾爪而言,一次抓取對應兩個接觸點,也就是兩個面片。因此一個物體可能對應數百萬種抓取方式。

接下來我們思考,如何建模抓取過程中的不確定性?我們建立了一個概率圖模型,把所有變量都看作隨機變量,它們之間存在條件概率關系。最終我們關心的問題是,某一次抓取成功的概率是多少?

舉個例子。對于某個標稱抓取姿態,我們知道現實中一定存在誤差。我們不知道真實接觸點在哪里,因為物體位姿有誤差,夾爪位姿有誤差,物體形狀有誤差,質心位置也有誤差。因此我們從這些概率分布中不斷采樣,統計成功和失敗次數,然后利用蒙特卡洛積分計算成功概率。

結果如圖所示:左邊那個抓取成功率約為22%,右邊那個抓取成功率約為92%。

這其實非常符合直覺。左邊的抓取非常脆弱,一點點誤差就會失敗,右邊則具有自校正能力,即使存在誤差,依然能夠成功。這才是現實中真正想要的魯棒抓取。

接下來我們關注感知問題。我們決定使用深度傳感器,因為我們關心的是物體的三維幾何形狀,而不是顏色或紋理。深度信息對此非常有幫助,但深度傳感器本身噪聲很大。如果大家使用過,就會知道,尤其面對反光表面或透明物體時,噪聲會非常明顯。

我們建立了一個傳感器噪聲模型。我們知道物體的三維 CAD 模型,于是模擬深度相機觀察該物體時的結果,并加入噪聲,這樣我們得到一個觀測值 y。它符合真實傳感器的統計特性,然后把這個觀測值與具體抓取動作和成功概率對應起來,這樣就得到一個訓練樣本。接著利用云計算平臺大規模生成數據。我們擁有約15000個物體模型,對數百萬個抓取方案進行評估,最終獲得一個巨大數據集。其中既包含大量成功樣本,也包含大量失敗樣本。

然后我們訓練神經網絡。當時這是一個非常大的網絡,參數規模接近十億級。訓練最終收斂,在保留測試集上表現良好。換句話說,給它一張帶噪聲的深度圖像,再給定一個抓取姿態,它能夠預測抓取成功概率,而且泛化能力很好。

接下來我們把它用于真實控制。流程是先輸入一個雜亂堆放物體的料箱圖像,生成大量候選抓取,利用神經網絡快速評估每個抓取的成功概率,然后選擇成功率最高的方案執行。

這就是2017至2018年左右的 Dex-Net 系統。左邊展示的是吸盤抓取器,右邊展示的是平行夾爪。如果仔細觀察會發現,它并不是每次都成功,但成功率已經高得驚人,在當時屬于世界領先水平。我們經常找來數百個訓練集中從未出現過的物體,這些東西來自家里、車庫、各種地方,系統依然能夠穩定清空整個料箱。

后來這項工作獲得了不少關注,甚至引起 Jeff Bezos 的興趣。當時他是 Amazon 的 CEO,他邀請我們到現場展示系統。所有做機器人研究的人都知道,實驗室里的機器人能運行是一回事,把它運到別的地方演示是另一回事,這非常讓人緊張。我們必須把整套系統打包運輸,而此前它從未離開過實驗室。

我們擔心無數問題,運輸損壞、燈光變化、環境變化,還有各種不可預見情況。但幸運的是,一切居然正常工作。我們帶去了三箱測試物體,Jeff Bezos 來到現場,開始親自擺弄那些物體。

一開始系統表現得非常好,直到出現一個意外。他的助手 Ty Brady 脫下自己的鞋,走上前說,能試試抓我的鞋嗎?我要告訴大家,當時我們從來沒有用鞋測試過,從來沒有。

當時我整個人都僵住了,但還能怎么辦呢?于是他說,來吧,然后把鞋扔進料箱。我屏住呼吸,因為 Jeff Bezos 就站在那里。機器人伸出手臂,緩緩移動過去,夾住那只鞋,成功抓起。

我可以坦白說,那一刻可能是我人生中最美好的時刻之一。

高壓演示環境下,一切居然成功了。第二天,我們受到巨大鼓舞。Jeff Mahler 和另外三位即將畢業的學生一起創辦了公司,我也是聯合創始人之一,這家公司后來發展成為 Ambi Robotics。

Ambi Robotics 的發展是一段漫長的旅程,我們持續構建和擴展整個系統,而就在這個過程中,新冠疫情爆發了。幸運的是,我們當時研究的問題——包裹分揀——被認定為關鍵基礎設施業務,因此我們獲準繼續開展研發工作。后來我們開發出了一套系統,叫做 AmbiSort。

AmbiSort 的核心思想依然來自 Dex-Net。它從料箱中抓取物體,只不過這里的物體不再是零件,而是包裹。大家可以想象這個問題有多復雜,系統首先獲取深度圖像,然后工業機器人伸出機械臂抓取包裹,接著掃描包裹上的郵編信息。最后根據目的地,把包裹放入對應的分揀箱。

這是我們最早的一段演示視頻。當時我們的愿景是,把這樣的系統部署到全國各地的物流中心,因為這是幾乎所有物流配送中心都會遇到的問題。很高興的是,我們后來真的做到了。

如今系統已經部署在美國各地。我們與主要物流公司合作,他們使用 AmbiSort 系統完成自動化分揀。

這時你可能會說,等等,你剛才不是在質疑數據至上嗎?Dex-Net 不就是一個依靠大量數據訓練出來的系統嗎?

是的,這里確實用了大量數據。但我要強調的是,僅靠數據遠遠不夠。真正讓系統運行起來的是數據 + 傳統工程,大量工程設計、大量模塊化系統、大量細致調試。

其中一個關鍵模塊就是運動規劃,因為機器人夾爪和手腕結構較大,它必須在非常狹窄的空間中完成復雜運動。尤其是在料箱越來越深的時候,運動規劃變得極其困難。

大家都知道運動規劃是機器人學里的經典問題。但當你要求它在極短時間內完成,而且環境非常擁擠時,問題就變得十分棘手。后來 Jeff Mahler 和 Jackie 提出一個非常聰明的想法,利用神經網絡為運動規劃提供 Warm Start。先用神經網絡預測一個好的初始解,然后再進行規劃,結果效果非常好,規劃時間顯著下降。隨后又有另一批博士生創辦了新公司 Jacobi Robotics,他們專門開發運動規劃軟件,現在已經商業化運營。

接下來我想回到“兩種文化”的討論。因為我知道,很多人此刻可能在想,這個人有點老派,他是不是不了解《The Bitter Lesson》?


其實我非常了解《The Bitter Lesson》,我也完全認同它。它的核心觀點是,長期來看,計算能力最終會勝出。我并不是在否認這一點,我的問題始終只有一個,什么時候?這才是我整場演講真正想討論的問題。

因為現實擺在這里,機器人領域與大語言模型之間仍然存在五個數量級的數據差距。這就是我們面對的現實。那么數據從哪里來?我們怎樣獲得足夠的數據?

目前主要有幾條路徑。第一條路徑是仿真,這對于無人機來說效果非常好。你可以在仿真中訓練,然后遷移到現實世界。仿真與現實之間的差距非常小,甚至已經能夠擊敗世界級無人機競速冠軍。對于運動控制(Locomotion)也是如此。例如機器狗,今天大家看到的大量成果,都是在仿真環境中訓練出來,然后成功遷移到真實世界的。對于全身運動控制而言,仿真到現實的差距相對較小,因此我們也看到了令人驚嘆的成果。


但在操作(Manipulation)領域情況完全不同,這里的仿真與現實差距非常大。原因很多,包括接觸力持續變化,摩擦持續變化,物體會發生形變。尤其在人類服務場景中,大量物體都是可變形的,而操作本身又容易受到微小碰撞影響。因此經常會出現的情況是,仿真里表現完美,現實中完全失效。這就是操作領域面臨的巨大挑戰。

另一條路徑是世界模型,過去一年大家都在討論它。例如 Cosmos 這樣的系統,它們利用海量視頻進行訓練。視頻數據確實很多,互聯網擁有豐富的視頻資源。但問題在于,世界模型經常出現幻覺。例如機器人抓取任務中,模型有時會憑空生成第三根手指,或者創造根本不存在的結構,這種情況并不少見。

從視覺效果上看,世界模型似乎合理,但實際上并不理解物理世界。當然,我知道很多人在研究這個方向。未來也許會解決,但目前還沒有。

第三條路徑是人類遙操作。很多團隊都在讓人類直接操控機器人,這樣可以獲得高質量演示數據,如今已經形成一個龐大的產業。但坦率地說,我并不覺得這是令人向往的工作。整天坐在那里遙操作機器人,我的學生們并不喜歡做這件事。而且問題依然存在,這樣究竟能收集多少數據?

于是我想提出第四條路徑。討論相對較少,但我認為非常重要,那就是真實生產環境,讓機器人真正投入工作,然后從工作過程中收集數據。

以 Ambi Robotics 為例,去年我們的系統累計分揀包裹突破1億件。這意味著什么?意味著我們記錄了近1億次抓取操作。系統會保存每一次成功和失敗,我們擁有統一監控平臺,監控所有部署系統,進行預測性維護,發現堵塞、故障、異常。與此同時,也在持續積累數據。截至目前,我們累計獲得了約22年的機器人運行數據。注意,這22年不是自然時間,而是所有機器人工作時間累加后的總量。

這些數據是在過去4年里積累出來的,但即便如此,22年數據依然不算多,因為公司規模還不夠大。我們甚至沒有足夠預算去處理全部數據,于是我們選取了一小部分數據進行實驗,訓練通用抓取模型,然后測試一種全新場景,抓取物流袋。

這與 Dex-Net 時期完全不同。袋子高度可變形,充滿褶皺,而 Dex-Net 原本訓練的是剛體物體。結果我們發現,真實生產數據訓練出來的模型效果極好,遠遠優于原有數據集。

于是我們提出一個概念,Data Flywheel(數據飛輪)。先讓系統投入運行,獲得數據,利用數據提升性能,性能提升后賣出更多系統,部署更多機器人,收集更多數據,再進一步提升性能,形成正反饋循環。

后來我和 Leslie Kaelbling 討論這個問題。她指出,如果系統持續增長,其實已經不僅僅是飛輪,更像是一種指數增長過程。所以我現在更愿意稱之為Data Avalanche(數據雪崩)。我認為,這才是機器人獲取大規模數據的核心路徑。

接下來我要講的是最近六個月一直在思考的新內容,就從“通用機器人(General Robotics)”開始。這是現在最熱門的話題之一,Jensen Huang 在談,Elon Musk 在談,大量公司都在談。核心目標是構建一個能夠適應所有場景的通用機器人模型,這個愿景非常吸引人。

但一個月前,Dyna 創始人 Yu Gang 發了一篇很有意思的文章,我建議大家去看看。他指出,通用機器人公司已經融資數十億美元,超過140家公司獲得投資,估值極高。但如果看真正完成的有效工作量,幾乎可以忽略不計。這說明什么?說明還有一個問題沒有解決,那就是專家系統(Specialist)與通才系統(Generalist)之間的矛盾。

通用機器人希望自上而下解決問題,而專家系統則是一次解決一個具體問題,逐步擴展能力。有趣的是,如果你想通過真實生產環境獲得數據,那么生產環境天然更接近專家系統。因為現實中的工作往往不是無限開放的,而是帶有一定結構和重復性的。例如咖啡機器人,每天都在做咖啡,訂單不同,杯子位置不同,但總體流程相似。再例如物流分揀,每天都在分包裹,包裹不同,但任務本質相同。我把這種情況稱為 Variational Automation(變體自動化)。不是固定自動化,也不是完全通用智能,而是在同一個任務中處理各種變化,我認為這是非常重要的中間層。

我一直在用這個視角重新思考近年來提出的各種 VLA 基準測試(Benchmark)。例如經典的任務:把桌上的物體拿起來,放進籃子里。如果換一個角度來看,我們完全可以把它理解成,在超市倉庫里完成訂單揀選。訂單不斷到來,機器人需要從貨架上找到對應商品并放入訂單籃中,這本質上仍然是同一個問題。

而且,這類問題其實已經可以通過傳統工程方法解決,傳統工程方法已經存在很多年了。我們來比較一下兩種路線,對于傳統工程方案,人類工程師手工設計系統,每個場景單獨開發,通用性較差,而且需要大量系統集成工作。但它已經可以投入生產,可解釋性強,可靠性高。今天工業自動化領域大部分系統都是這樣工作的。

而另一邊是 VLA,它代表了一種完全不同的愿景,希望構建一個高度通用的系統,像大語言模型一樣,同一個模型完成各種任務。但目前它還沒有真正成熟,它不可解釋,我們無法清楚知道系統為什么做出某個決策。更重要的是,它是否足夠可靠?是否可靠到能夠真正投入生產?這正是兩種文化沖突的核心。

我并不是想挑起對立。恰恰相反,我想尋找一種融合方式。在此之前,我們先看看目前 VLA 面臨的問題。

去年秋天發布的 LIBERO-Pro Benchmark 做了一項有趣實驗。某個 VLA 模型在標準測試環境中達到100%成功率,但如果只是把易拉罐移動幾厘米,成功率立刻下降到17%左右。類似現象在許多任務中都出現了。也就是說,當環境變化稍微超出訓練分布時,模型性能會迅速崩潰。斯坦福、DeepMind 和布里斯托大學最近的一篇論文也指出,當前模型其實并沒有大家想象中那么通用,只要變化超出非常有限的范圍,系統就會失效。

那么怎么辦?這里我認為,兩種文化或許終于有機會真正結合起來。我一直在思考,有沒有一種方法能夠把它們統一起來,而不是讓兩邊繼續對立,于是我開始關注 Agentic Coding。

其實早在2023年就有人提出了 Code as Policies。核心思想是,利用大語言模型生成機器人控制代碼,輸入任務描述,模型自動編寫程序,執行任務。許多團隊都在探索這一方向。有趣的是,它提供了一種全新的范式。因為這里仍然使用生成式 AI,利用預訓練大語言模型,不需要額外機器人數據,而且輸出的是代碼,因此具有可解釋性,你可以檢查,可以分析,可以驗證。

于是我們開始研究這種方法。今年夏天我們將在 ICML 發表一篇論文,項目名叫 CAP-X。我們建立了一整套測試框架,利用現有機器人 Benchmark 系統評估 Agentic Coding。最初,我們實現了一個簡單 Agent,輸入英文任務描述,Agent 自動生成代碼,然后執行,結果大約達到32%的成功率,遠低于人工編程水平。隨后我們加入強化學習,讓系統在失敗后自動修改代碼,不斷迭代,結果性能顯著提高,在特定 Benchmark 上成功率達到80%以上,已經明顯優于許多 VLA 系統。

但真正讓我興奮的是另一件事,那就是過去半年迅速興起的多智能體系統。自去年12月以來,這個方向幾乎爆發式增長。Copilot、Cursor、Claude Code、OpenAI Codex、NVIDIA Nemo 等各種系統不斷出現,整個領域發展非??臁2贿^多智能體系統有一個問題,它們很難管理大型代碼庫,而機器人系統恰恰擁有極其復雜的軟件結構。

于是我們開始重新思考。我的學生 Eric Chen 提出,為什么不嘗試用 Rust 重寫部分系統?因為 Rust 的類型系統和結構化特征非常適合管理復雜程序。后來我們意識到,等等,機器人領域其實早就擁有一種成熟的結構,那就是圖(Graph)。

機器人本來就在使用各種計算圖,行為樹(Behavior Tree)、ROS 節點圖、任務圖、運動規劃圖。這些東西已經存在很多年。于是我們產生了一個想法,既然 Code as Policies 可以生成代碼,為什么不能生成圖?于是我們提出Graph as Policies(GAP)。核心思想是,不是讓 Agent 直接生成代碼,而是生成計算圖。圖結構天然具有很多優勢,可以分解,可以組合,可以驗證,可以擴展。一個節點負責感知,一個節點負責抓取,一個節點負責運動規劃,另一個節點負責任務管理。然后多個 Agent 分別負責不同節點,彼此協作,驗證輸入輸出接口,檢查約束條件,確保整個系統能夠正確組裝。這樣就形成了一個大型圖結構,例如感知子圖、運動規劃子圖、抓取子圖、執行子圖等等。


接下來我們正式定義問題。我們關注的是 Variational Automation Task,其輸入包括任務語言描述、環境信息、機器人配置、傳感器配置、目標物體集合、狀態空間、信念空間(Belief Space)及獎勵函數。輸出則是一個計算圖,圖由節點和邊構成,這個圖最終成為機器人執行策略。

整個系統架構如下,我們設計了一個稱為 Harness 的框架。之所以叫 Harness(韁繩),是因為你必須有辦法控制這些強大的 Agent,否則它們會到處亂跑。Harness 負責接收環境幾何信息、任務定義、自然語言描述,然后利用大語言模型把任務拆解,構建初始計算圖,接著根據具體環境實例化參數,然后進入自我學習循環,不斷執行,不斷評估,不斷修改圖結構。

Agent 特別擅長這種迭代優化過程。最終得到表現最好的圖,然后部署到真實機器人上。部署階段不再需要龐大 GPU,只需要輕量級執行器即可運行。換句話說,訓練階段復雜,執行階段高效。

接下來我們測試了8個 Variational Automation Benchmark,其中部分來自 LIBERO,部分來自真實工業場景。下面看看結果。

第一個任務叫 Make Popcorn。機器人需要把平底鍋放到爐灶上,完成爆米花制作流程。GAP 最終達到98%成功率,而且能夠通過自我學習不斷提升性能。隨后我們把它部署到真實機器人平臺,使用 Franka 機械臂,甚至真的使用 Jiffy Pop 爆米花,系統成功完成任務。


接著我們與 Bosch 合作,研究一個工業裝配任務。機器人需要把工件正確放入料框,存在大量位置和姿態變化。目前 GAP 成功率已經達到95%。作為對比,人工工程師設計的系統成功率約99%,兩者已經非常接近。

然后是數據中心任務,機器人需要插拔網線,這是一個很困難的問題。利用 GAP,我們達到100%成功率,而且只使用機械臂自帶力傳感器,沒有額外硬件。

接下來回到剛才提到的超市訂單任務。VLA 模型 OpenVLA 0.5 的成功率約為20%,而 GAP 在同一 Benchmark 上達到97%,而且是在大量商品種類和環境變化條件下實現的。我們還測試了真實場景,結果同樣非常穩定。因為一旦圖結構生成完成,系統就具有天然泛化能力,改變相機位置或者改變目標物體位置,系統仍然能夠正常工作。

隨后我們測試 Pack Order 任務,目標是把任意物體裝入箱子,不需要識別具體類別,只需要正確裝箱。這個問題有點類似 Dex-Net,結果同樣非常可靠。

不過最讓我興奮的實驗是下面這個。我們把 OpenVLA 0.5 和 GAP 結合起來。怎么結合?很簡單。先讓 GAP 負責把相機和夾爪移動到理想位置,讓目標物體處于最佳觀察狀態,然后再調用 VLA。結果發生了什么?成功率幾乎翻倍甚至三倍提升。因為 GAP 把問題限制在了 VLA 最擅長的分布范圍內。這讓我意識到,未來真正有前景的方向也許不是二選一,而是融合。GAP 可以幫助系統穩定工作,同時不斷收集真實數據,這些數據又可以用于訓練未來更強大的 Model-Free 模型。所以我并不是說答案已經確定,我只是認為,這可能是一條值得探索的道路。

以上就是我今天想分享的內容?;氐阶铋_始的話題。兩種文化,Model-Based,Model-Free。也許我們終于來到一個時刻,它們開始真正融合。而這讓我感到非常興奮。謝謝大家。

02


Q&A 環節

提問:我想問一下,您是否考慮過使用 Stellar Laser,以及即將出現的 Java 架構?是否研究過或者考慮過它們?

Ken Goldberg:這是個很好的問題。事實上我們已經開始關注這些方向。只是由于時間節點比較緊,目前還沒有真正做出來。但我們肯定會繼續研究。我認為我們現在真的只是剛剛開始,還有大量開放問題等待解決。所以如果你感興趣,我鼓勵你去嘗試。這正是讓我興奮的地方。我覺得未來幾年我們都會持續研究這些問題。謝謝。

提問:您怎么看待驗證(Verification)問題?現在生成大量代碼已經變得非常容易,即使是在傳統軟件開發中,我們也很難驗證生成的代碼是否真的完成了所有預期功能。那么未來我們是不是也需要用 Agent 來自動完成驗證?還是說必須采用其他更嚴格的方法?

Ken Goldberg:這是一個非常重要的問題。事實上,我已經安排了一次會議。等這次大會結束后,我會和一個專門研究代碼驗證(Code Verification)的團隊討論合作。我們計劃把代碼驗證機制整合到系統中。目前有些事情是比較容易做到的。例如檢查代碼是否能夠成功編譯、自動修復編譯錯誤、驗證圖結構是否符合規范、檢查各個模塊之間的連接是否正確。這些都已經可以實現。

但您說得對,更深層的問題是,如何驗證系統在所有情況下都能正確工作?在我們的框架里,目前采用的方法之一是在內部仿真環境中反復測試。系統會不斷嘗試各種情況。而其中一個非常有趣的發展方向是讓 Agent 自己提出測試案例,特別是那些邊緣情況(Edge Cases)。也就是說,Agent 不只是解決問題,還主動設計最困難的測試來挑戰自己。

我認為多智能體系統具備這種能力,或者至少正在朝這個方向發展。系統能夠越來越嚴格地測試自己,不斷發現潛在問題,然后持續改進。進一步說,如果這種能力能夠遷移到真實世界,就更有意思了。想象一下,機器人能夠自動重置環境,自動設計實驗,自動執行實驗,自動分析結果,然后再優化自己。這具有巨大的潛力。目前已經有人在研究類似方向。因此我對此非常期待。

提問:我很好奇您如何看待另一個趨勢。近年來越來越多人開始研究機械智能(Mechanical Intelligence)和智能結構(Intelligent Structures),通過結構本身適應環境的不確定性。您認為這一方向在您所說的“兩種文化融合”中處于什么位置?它對于縮小機器人數據鴻溝又能發揮什么作用?

Ken Goldberg:這是個非常好的問題。其中一個思路是,利用 VLM(視覺語言模型)或者 LLM(大語言模型)來設計結構和機構,事實上已經有不少人在嘗試這樣做。

我不確定今年大會上是否已經有相關論文,但確實已經出現了一些初步成果。例如讓模型自動設計特定任務對應的機械結構,自動設計機構甚至自動設計機器人本體。這有點類似于今天我們看到的蛋白質設計,或者其他生成式設計任務,目前已經展現出一定潛力。

我認為這是一個非常開放、非常值得探索的研究方向。同時,這也與您剛才提到的數據問題直接相關。因為我一直強調,我們的目標并不是一步到位獲得通用機器人,而是先讓機器人足夠好,好到有人愿意購買它,把它部署到咖啡館,部署到倉庫,部署到工廠,開始創造價值,然后收集數據,利用這些數據不斷提升系統能力。從這個角度來看,機械智能和結構設計同樣能夠幫助機器人更快進入生產環境,進而加速數據積累。這正是我希望看到的發展路徑。

提問:我一直覺得 VLA 最大的弱點之一在于缺乏對物理世界的理解。而您提出的 Graph as Policies 看起來似乎依賴 LLM 編程 Agent。那么您認為這些 LLM 編程 Agent 是否真正擁有物理世界知識?這些圖結構是否真的理解物理規律和世界運行方式?

Ken Goldberg:這是一個非常有趣的問題,而且是一個非常深刻的問題。老實說,我不知道。這其實和關于 LLM 的經典爭論一樣,它們真的理解了嗎?哲學家們至今還在爭論這個問題。不過有一點很有意思,即使它們沒有真正理解,它們似乎也非常擅長“表現得像理解了一樣”。換句話說,我認為它們未必以人類的方式理解世界,這一點我覺得已經很明顯了。但與此同時,它們確實擁有某種關于環境的表征能力。特別是當你觀察這些 Agent 編程時,如果在座有人使用過這些系統,應該會有同樣感受,你會驚訝于它們嘗試解決問題的方式。

我記得有一個團隊分享過他們的實驗。他們的 Agent 在完成抓取任務時卡住了,于是它自動上網搜索相關資料,下載了幾篇機器人抓取論文,閱讀這些論文,然后根據論文中的方法重新設計抓取策略,最終成功解決了問題。這是非常不可思議的事情,系統能夠自主完成這一系列過程,那么這是否意味著它真正理解了?我們完全可以找個酒吧,一邊喝酒一邊討論幾個小時。但對我來說,更重要的問題是,它是否能夠做出有用的事情?在這一點上,我比自互聯網誕生以來任何一次技術浪潮都更加興奮。真的如此,我認為這項技術有可能幫助我們打破過去的分裂,讓兩種文化真正走到一起,并推動機器人領域實現實質性進步。

去哪看 ICRA 核心【演講/論文】詳解?

為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨,雷峰網已全面上線【ICRA 2026 深度專區】。

專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。

與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這次,孫丞瀟被扒了個底朝天,吳鎮宇的話,終于有人信了

這次,孫丞瀟被扒了個底朝天,吳鎮宇的話,終于有人信了

草莓解說體育
2026-06-13 14:45:45
馬斯克的“造人計劃”:14個孩子和一個讓他心碎的“嫡長子”

馬斯克的“造人計劃”:14個孩子和一個讓他心碎的“嫡長子”

民間胡扯老哥
2026-06-14 07:08:34
一油傳三代,人走油還在,日本一炸雞店一鍋油用了66年拿全國金獎

一油傳三代,人走油還在,日本一炸雞店一鍋油用了66年拿全國金獎

大廠編外實習生
2026-06-12 13:36:01
一輪牛市,科技見頂就是牛市結束,大家被“洗腦”了!

一輪牛市,科技見頂就是牛市結束,大家被“洗腦”了!

郭小凡財經
2026-06-14 09:13:07
15個副省級市已明確,浙江2個,江蘇僅有1個,湖南、河北1個都無

15個副省級市已明確,浙江2個,江蘇僅有1個,湖南、河北1個都無

混沌錄
2026-06-01 21:47:13
村里請我回去投資,剛上桌就被二叔扇臉:你也配上桌,我火速撤資

村里請我回去投資,剛上桌就被二叔扇臉:你也配上桌,我火速撤資

千秋文化
2026-06-10 20:45:49
后防巨大失誤!巴西隊3人看戲:摩洛哥新星精彩破門 安帥一臉愁容

后防巨大失誤!巴西隊3人看戲:摩洛哥新星精彩破門 安帥一臉愁容

風過鄉
2026-06-14 06:36:51
特朗普出手!Claude Fable 5與Mythos 5全停了,AI專家:中國才是全人類希望

特朗普出手!Claude Fable 5與Mythos 5全停了,AI專家:中國才是全人類希望

智東西
2026-06-13 12:29:15
白酒再次成為關注對象!多名院士發現:常喝白酒的人,有4個變化

白酒再次成為關注對象!多名院士發現:常喝白酒的人,有4個變化

垚垚分享健康
2026-06-13 19:20:07
比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

芳芳歷史燴
2025-12-25 20:32:52
破繭成蝶未來可期!U23國足4-0大勝展現青春風暴

破繭成蝶未來可期!U23國足4-0大勝展現青春風暴

環球體壇啄木鳥
2026-06-13 18:47:30
這組全是許晴年輕舊照!

這組全是許晴年輕舊照!

草莓解說體育
2026-06-05 14:04:24
全線轉跌,超12萬人爆倉

全線轉跌,超12萬人爆倉

每日經濟新聞
2026-06-12 00:18:19
世界杯熱度不如從前,別看國足缺席,中國反而卻成了最大贏家

世界杯熱度不如從前,別看國足缺席,中國反而卻成了最大贏家

小許論事
2026-06-13 10:42:43
洛佩特吉迎來世界杯首秀:2018年的事,我已放下

洛佩特吉迎來世界杯首秀:2018年的事,我已放下

體壇周報
2026-06-13 17:57:21
震驚!武漢某大學食堂貼出提示稱“燒鵝飯為廣東俗稱,實為烤鴨”

震驚!武漢某大學食堂貼出提示稱“燒鵝飯為廣東俗稱,實為烤鴨”

火山詩話
2026-06-13 08:00:03
守不??!臺灣管控的太平島允許美軍進領海,被越南菲律賓多次欺負

守不??!臺灣管控的太平島允許美軍進領海,被越南菲律賓多次欺負

阿龍聊軍事
2026-06-13 15:19:24
痛快!女子買房被姑姑指“嫁出的女不該分家產”,回懟堪稱教科書

痛快!女子買房被姑姑指“嫁出的女不該分家產”,回懟堪稱教科書

火山詩話
2026-06-13 06:40:12
四人幫被密捕的消息是如何泄露的?北京傳來暗語:老娘心肌梗死

四人幫被密捕的消息是如何泄露的?北京傳來暗語:老娘心肌梗死

談古論今歷史有道
2026-06-03 16:30:03
為什么說閑魚是中國最大的黑市?網友:我直接給跪了!

為什么說閑魚是中國最大的黑市?網友:我直接給跪了!

另子維愛讀史
2026-06-02 10:51:07
2026-06-14 10:43:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7372文章數 20758關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細節

頭條要聞

陜西橋梁垮塌致25輛車墜河62人死亡失蹤 官方公布細節

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

手機
家居
健康
時尚
親子

手機要聞

告別4499元!小米18起售價將突破5000元大關 首發高通驍龍8E6

家居要聞

空間微調 移形換境

老人、小孩、孕婦,吃粽子有啥風險

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調查組》......

親子要聞

兩個孩子兩種出路

無障礙瀏覽 進入關懷版