![]()
采訪過半的時候,我們問羅劍嵐:從最早做真機強化學習到現在,已經十多年了,這中間有沒有哪段失敗經歷,讓你對這個方向產生過懷疑?
他幾乎沒有停頓:“每天都在失敗。經常失敗,有時又會覺得有希望。”
“但從來沒有懷疑過?”
“那倒也不是,也會懷疑吧,也覺得可能會成功。但我到今天都沒覺得我很成功,因為最終的目標還沒達到。”
這個“最終的目標”,他在一個小時的訪談里反復回到同一句話上:機器人不能只在靜態數據集上學會模仿,它必須知道自己執行一個動作之后會發生什么。在他看來,強化學習、世界模型、VLA,全都只是服務這個命題的工具。
羅劍嵐是上海創智學院副教授、智元機器人首席科學家。他博士畢業于加州大學伯克利分校,先后在 Google 和伯克利人工智能實驗室擔任研究員和博士后, 曾獲 ICRA Best Paper、《麻省理工科技評論》“35 歲以下創新 35 人”(TR35)中國區等獎項。
2026 年 5 月底,他的團隊發布了τ0-WM:一個在約 2.73 萬小時異構數據上預訓練的機器人世界模型,把動作生成、視頻預測和執行前的動作評價統一到一個框架里,并開源了核心代碼和權重。在此之前,團隊今年已陸續發布 SOP 和 LWD 兩項工作,分別對應真機后訓練的基礎設施和部署中學習的方法。
![]()
圖丨相關論文(來源:arXiv)
圍繞τ0-WM,以及它背后那條走了十余年的路線,DeepTech 和羅劍嵐進行了一次對話。
機器人必須知道,執行一個動作之后會發生什么
DeepTech:τ0-WM 剛發布,外界很關注它作為大規模預訓練機器人世界模型的意義。你自己覺得這篇工作最核心的技術創新點是什么?
羅劍嵐:它的意義不只是模型更大或者數據更多。現在大家對世界模型的解讀有很多,我們的核心要素是把機器人的控制問題、機器人基礎模型的問題,變成了視頻和動作的聯合建模問題。
最核心的一點是預測未來的能力:預測我現在要執行的這個動作,會對這個世界造成什么影響,然后用它去做規劃。所以τ0-WM 同時學習未來的視覺狀態表征和動作狀態表征,把視覺動力學學習和面向實際部署的控制策略連接起來。
它有三個組件。一個是視頻動作模型(Video Action Model, VAM),能夠生成動作,也能預測未來。另一個是動作條件視頻仿真器(Action-Conditioned Video Simulator, ACVS),也就是以動作為條件的視頻仿真器,能做動作的預演。這兩個模塊結合起來,再通過 test-time computation(測試時計算),就能在執行前比較不同的候選動作。三個組件合起來,形成了一個從機器人動作預測、動力學建模,到測試時動作優化的完整方案。
DeepTech:我感覺它和其他世界模型不太一樣的地方在于,其他世界模型是做預測,但你這里還涉及推理時的在線評價和動作糾正。
羅劍嵐:對,它是一個閉環系統。如果只是做預測,就相當于是開環。我們更多是在執行前推理、預測,然后再去執行;執行后到達一個新的狀態,再根據新狀態和此前預測之間的差別,繼續做新的預測。而不是在一個點上預測很長一段動作,然后把這段動作一次性執行完。這就是開環控制和閉環控制的區別。
DeepTech:這個項目最早是什么時候決定立項的?有沒有某個契機讓你決定推動這項工作?
羅劍嵐:從我個人來說,我一直在做類似的事情,只不過現在大家叫它世界模型。我之前的工作,包括強化學習、HIL-SERL、SOP 和 LWD,歸根結底和模仿學習的差別在于:模仿學習是看到一個觀測值,預測一個動作,它是開環的,是簡單映射。就像 ImageNet 一樣,你看到一張貓的圖片,預測它是貓的概率是多少。
我們堅持的一個理念是,機器人不能只在數據集上學會模仿。它必須能夠預測自己執行一個動作之后的后果,必須知道自己執行一個動作之后會發生什么。我在很多工作里、很多場合也說過,解決這個問題的方法可能有很多,強化學習是一種,學習動力學模型也是一種。世界模型其實就是學習某一種動力學模型:你根據現在的狀態和動作,預測下一個和控制相關的量,可以是某種 latent state,可以是某種觀測值,也可以是某種效用值、某種評分函數。
所以τ0-WM 一開始的目標,就是讓機器人在執行前具備預演未來的能力。這是我們過去幾年在這條路線上堅持的核心理念:機器人不能只在靜態數據集上學會模仿,它必須知道執行一個動作之后會發生什么。世界模型是它的一個容器,也是一種具體實現。具體什么時候開始做,我們已經做了一段時間,整體上是這個思路比較自然的延續。
DeepTech:能不能按機器人執行一次任務的順序,系統講講 VAM、ACVS 和 test-time computation 這三個模塊各自什么時候介入、輸出什么?
羅劍嵐:VAM 是根據圖像和當前信息去預測一個動作,這個控制指令可以直接下發給機器人執行。ACVS 是仿真器,根據當前觀測值和給定動作,預測未來會發生什么,就跟大家看到的 Google Genie 這類世界模型類似。這兩個模塊本身是獨立的,可以分開直接用。它們共享一個視頻 backbone,也就是一個 diffusion transformer,有些權重是共享的,但作為兩個模塊,功能上可以互相配合。
把這兩個模塊串起來的,是 test-time computation(測試時計算)。這個概念現在大家說得比較多,比如大語言模型里 o1、DeepSeek-R1 在測試時會“thinking”。在一些簡單任務上,VAM 就夠了,不用想太多;稍微復雜一點的任務,流程是這樣:先從 VAM 里采樣出一組候選動作,這些候選動作會被送到 ACVS 里,由 ACVS 對它們的未來進行推演,并對每個動作產生的軌跡打分。有了打分之后,我們選擇一個最可靠的動作。這個動作不一定是 VAM 一開始概率最高的那個。
![]()
圖丨τ0-WM 整體架構(來源:arXiv)
所以整個流程是:基于當前狀態,VAM 生成候選動作,ACVS 預演并評價未來,最后執行最可靠的動作。三者是這樣一個有機耦合關系。
DeepTech:這一套流程跑一次需要多久?
羅劍嵐:我們做了一些優化,整體一個 forward loop 大概是 180 到 220 毫秒,所以基本能接近 5Hz 的頻率運行。加上測試時計算會稍微慢一點,但慢得不是特別多。我們也在做一些異步優化。因為測試時計算在邏輯上是一個自適應過程,不是每一步都需要推理。
DeepTech:簡單的任務就不需要思考太多。
羅劍嵐:對。就跟 GPT 一樣,遇到一個簡單問題,它也是簡單思考一下就直接輸出了。
“根本是你自己變強”
DeepTech:這項研究涉及很多不同類型的數據,包括 17,000 多小時的真機數據,6,000 多小時的 UMI 數據等等。不同的數據在模型訓練中分別承擔什么作用?
羅劍嵐:首先最重要的,是真機數據用來打底。我們的數據里真機數據最多。它和機器人本體沒有 gap:動作空間、接入過程,還有真實的物理反饋。它是模型能夠真正控制機器人的基礎。
UMI 數據我們也用得很多。它主要的價值是視覺多樣性,能提供比較好的魯棒性,提升模型對物體、動作模式以及環境變化的泛化能力。因為真機采集通常還是在一些固定場景里,但 UMI 設備可以去到任何地方,進入真實家庭也很方便,它提供的視覺魯棒性會好很多。
我們也有一些 ego-centric 的人類視頻數據,它提供的是人類交互先驗,讓模型看到更大規模、更自然的物體操作過程。
但這有一個前提:我們是先有了足夠多的真機數據之后,才能把這些其他來源的非本體數據用好。隨著真機數據 scale up,我們使用其他來源數據的能力也在增強。而不是反過來,拿大量別的數據,再拿少量真機數據去微調。這在我們的實驗里不太成立。
DeepTech:還有一些團隊的思路是先用非常大量的互聯網數據給模型提供基礎能力,最后再用相對較小的真機數據做后訓練。你怎么看這種思路?
羅劍嵐:說 VLA 或者 world model 的時候,有一點值得注意:如果你用了 VLM 的基模,或者你的世界模型里用了別人的視頻預訓練基模,它里面其實已經包含互聯網數據了。我們現在用的大規模 VLM,都用了巨大規模的互聯網 QA 數據;視頻基模也一樣,里面有幾千萬小時的互聯網視頻數據,已經訓練過了。有可能你再加上去的這些數據,原本就已經被包含在里面。當然,你說額外再加一些有沒有用,可能也有用。
但整體來講,關鍵是你自己要有更強的 base model。你自身的基礎能力上升了,使用其他數據的能力才會增強。
舉一個例子,可能不是特別嚴謹。假設你是個嬰兒,再假設你是個二十七八歲的成年人,你使用這個世界上其他知識的能力肯定不一樣。究其原因,是你自己的能力在變強。小時候不識字,或者只認識幾個字,更不要說從視頻里學什么東西。長大了、上完大學,你可以用 ChatGPT,可以看視頻,諸如此類,你使用其他數據的能力會顯著增強。根本上,是你自己變強。
DeepTech:消融實驗里顯示加了 UMI 和 ego 數據之后,zero-shot(零樣本)成功率明顯提高。最終不同數據的比例大概是 6:2:1,還有一些失敗軌跡等。這個比例是一開始就有初步設計,還是在不斷實驗中定下來的?
羅劍嵐:有一些嘗試,一些不同的試驗。但這肯定還不是一個最終的結果,目前看來真機的比例是最多的。嚴謹來說,我覺得還可以有更好的結果,我們還在不斷實驗。
DeepTech:數據集中還包括一部分失敗軌跡,這部分數據對成功率的提高大概有多大幫助?
羅劍嵐:非常重要。τ0-WM 是一個預測模型,根據狀態和動作去預測下一步;包括 simulator(仿真器)在內,這些東西都需要具備反事實能力。
我覺得世界模型的一個核心瓶頸,是反事實推斷:我現在如果不執行這個動作,會發生什么?我現在執行動作 a,把蘋果撿起來了,我確實有觀測,這是客觀發生的事實。那反事實推斷就是,在這個時刻 t,如果我不執行這個動作,這個世界會發生什么?
如果沒有這個能力,瓶頸就在于:我學到的模型始終只會順著“把蘋果撿起來”這一條路走。真實世界肯定不會這樣。只要有一點點偏差,我就會進入沒見過的狀態,那我永遠不知道怎么辦。
解決反事實推斷,大體上有兩個方面。一個是算法機制:有什么樣好的算法能更好地捕捉因果關系。另一個就是數據。數據里一定要有失敗的數據和成功的數據,而且最好失敗和成功都是 on-policy 來的:我執行我現在的策略,它成功了,或者它失敗了。因為是我自己的策略在真實世界里成功和失敗,它最貼合我自己的軌跡分布。反例是人工遙操收集的數據。
回到失敗數據,如果沒有它,你學到的模型永遠只會預測一個非常窄的分布。把蘋果撿起來是一個特定事件,把它取反,空間是無窮大的。任何不是這件事的情況,它都不會預測,那肯定是不對的。
DeepTech:LWD 里也涉及失敗數據。能不能結合一個具體任務講講,失敗數據在系統里是怎么被記錄、使用,并最終幫助模型改進的?
羅劍嵐:比如說把筆放進盒子,或者把水龍頭擰緊。成功的話,我們會記錄它當時的視覺觀測、語言指令、機器人動作、狀態變化,以及最后是否成功。任務失敗,我們也不會把它丟棄。失敗軌跡非常有價值,它會告訴模型,哪些動作會導致不可恢復的狀態。
具體在τ0-WM 里,VAM 可以根據訓練里的失敗數據,增強分布的魯棒性。它會提出多個候選動作;ACVS 因為學習過這些失敗數據,知道哪些動作可靠、哪些動作不可靠。如果某個未來推演看起來是在重復過去的失敗模式,系統就會把它的概率降低。
回到剛才說的反事實推斷,失敗數據的價值,不是告訴模型正確答案是什么。它可以告訴模型,哪些動作看似合理,其實是很危險的。
DeepTech:在你看來,學界對失敗數據已經足夠重視了嗎?
羅劍嵐:關于學術界,在一些偏理論的文章上,大家已經在小規模下研究得比較深入了,我不想去 take that credit。但在機器人、具身智能領域,我覺得未來大家是不得不面對這個問題的。因為機器人部署回來,肯定會有大量失敗數據,不可能只有成功數據。
就像自動駕駛,現在大家也會去做難例挖掘。在高速上平穩直行的那類數據,對今天的自動駕駛來說沒有太大幫助。真正需要的恰好是那些 corner case(極端場景):比如在高速上無法順利掉頭,在三岔路口如何駛出,像大海撈針一樣去挖掘這種數據。未來我覺得這類數據會越來越多。
從 SOP、LWD 到τ0-WM
DeepTech:今年以來團隊陸續發了 SOP、LWD 這幾項工作。外界可能把它們分別理解為在線后訓練、部署中學習,再到現在的預訓練世界模型。你自己會怎么描述這幾項工作之間的關系?
羅劍嵐:它們整體構成了一個閉環系統。τ0-WM 是預訓練的基礎模型。SOP 是后訓練的基礎設施,包括數據回流、模型分發這些分布式基礎設施。LWD 是在這套基礎設施上的后訓練方法,是分布式真機強化學習、在線學習和自主提升的方法論。
在行業里面,這算不算比較前沿的嘗試,留給業界去評判吧。預訓練模型,加上物理世界的數據閉環基礎設施,再加上 LWD 這個后訓練方法論,這三者結合在一起,應對的是我一直在說的同一個主題:在部署中學習,從真實經驗中學習,并持續提升能力。它們是同一條路線上的不同模塊。
DeepTech:這個方向演進背后的核心問題,下一步會是什么?
羅劍嵐:核心問題一直是機器人如何進入真實世界。我們做這么多工作,不是為了發 demo,不是為了拍視頻。如果機器人只在靜態數據集上訓練,它會遇到分布外場景。如果只靠部署后學習,只靠 LWD、SOP 去訓練,因為預訓練模型不夠強,它要從頭開始探索,會進行大量嘗試,而在真實世界里每次嘗試都是有代價的,它會犯太多錯誤。
整體的演進就是:先有一個基礎能力足夠強的預訓練模型,再加上后訓練閉環,讓機器人部署后持續優化,邊部署邊學習;再到τ0-WM 這種,讓機器人在執行前預演并選擇更好的動作。我們一直在解決的核心問題,是如何把真實世界交互的經驗、物理經驗,轉化為持續改進的能力。這是一個核心不變的命題。
DeepTech:有人評價從早年的 SERL 到現在這一系列工作的主線是圍繞真機環境做評價,你覺得這個概括準確嗎?
羅劍嵐:評價確實是一部分。要在部署中學習、去改進,系統必須知道什么是好、什么是壞,一個好的評價體系當然非常重要。不論是 RL 也好、世界模型也好,都要把效用函數或者說價值函數學準。價值函數學得越準,試錯次數肯定就越少。比如系統知道哪件事情是 100% 好的、哪件事情是 100% 壞的,你可能都不需要去嘗試。每一次嘗試的過程,更多是在優化對自身預測的不確定性估計,某種意義上可以這樣說。
所以評價是一部分,這是準確的。但整體上,我覺得物理 AI 未來非常重要的一環是:它不同于 ImageNet,不是從大量靜態數據里學習。我們也會收集很大規模的訓練數據集,這是確定的,但它很大程度上要依靠與真實物理世界的交互,產生大量物理世界經驗,并從經驗中學習。
DeepTech:τ0-WM 開放了核心代碼和權重。為什么做出開源的決定?希望學界基于開源去探索什么?
羅劍嵐:總體來講,開源和閉源都有自己的長處和優勢。但具身模型目前處于行業比較早期的階段,這個時候開源,非常有助于建立整個生態,包括后面的工具鏈、標準以及使用生態。
以美國為例,Physical Intelligence 他們從第一天就選擇開源。大家現在基本上都拿他們的模型做對標,或者直接使用他們的模型。這就是開源的好處:開發者一旦習慣使用這個模型,就會去適應它的生態,后續開發的很多組件也會向這個生態遷移。
我覺得具身智能目前整體處于一個非常早期的階段,如果沒有這樣一個好的共同基礎,領域發展會比較慢。有了這個開源底座,我們希望τ0 系列能夠成為一個共同基礎,讓學術界和產業界都可以在上面繼續探索。它是個基礎模型,開發者可以基于它進行廣泛探索。
另一方面,我覺得具身智能會成為未來整個物理 AI 基礎設施的核心。它會分層,就跟現在的 AI 也有好幾層一樣:最底層是能源,上面是芯片,再上面是模型。未來的物理 AI 如果大體分層,最底層是本體硬件,上面是數據基礎設施,再上面一層是模型層,再往上是應用。
著眼于未來 5 到 10 年的發展趨勢,如果要對行業、對學術界和工業界產生持久影響,促進發展的方式之一,是讓大家都有一些可以共享的組件。模型一旦被部署進去,它會不斷擴展邊界。以前機器人編程,我可能要構建分階段的 pipeline,處理感知、運動規劃等層層遞進的模塊。模型會把這些邊界不斷拓寬,最后達到它應該到的位置。
國內開源比較成功的大模型,如通義千問、DeepSeek 等,綜合來看,開源是讓整個行業往前走的一個比較好的方式。
沒有真實閉環,很容易變成刷榜
DeepTech:前段時間行業里很多人都在討論英偉達的 Jim Fan 說的那句“VLA is dead, world action model shall rise”。結合τ0-WM 的經驗,你怎么看待這個判斷?
羅劍嵐:我不覺得 VLA 已經死了,這取決于你怎么定義它。VLA 是什么?Vision-Language-Action model。這里可能有點鉆牛角尖:機器人做控制,需不需要視覺?肯定需要。需不需要動作?肯定也需要。我想目前業界爭議比較多的,是到底需不需要語言,以及語言使用的方式是什么樣的,是否必須依賴自然語言。
總體來講,現在爭議比較少的一點是,至少大部分人同意我們需要自然語言。因為自然語言是描述這些任務最好的工具。當然未來可能會有其他工具,但迄今為止,它是我們開發出來的、手頭唯一相對成熟的工具,能夠進行符號推理、任務編排以及長程任務拆解。比如執行操作任務,可能包含 18 個階段,一件事情要做 20 多步,用什么媒介把這些環節串聯起來?執行出錯時如何糾偏?如何進行邏輯推理?自然語言是人類發明的一種符號化語言,而且業界已經花了巨大精力開發 VLM。它并不完美,但確實是我們手頭唯一比較好的、能夠勝任此類推理和判斷的工具。
VLA 未來是否還會維持現有的架構形態,即把 action tokenize 成另外一種語言,然后三個模態一起訓練?我認為這可能得打個問號。
我認為未來依然需要語言,需要語言來進行 high-level 規劃和推理。同時,我們也需要下層這些 low-level 的 action model 去做動作執行。τ0-WM 更多是在攻克后一個環節。
DeepTech:在我看來,你的 world model 和很多其他 world model 不太一樣,你的終點是給動作打分、讓它在真實世界中表現更好,下一步預測可能只是中間產物。
羅劍嵐:我們的 video action model,相當于是它的進一步進化。剛才提到,面對簡單任務,它可以直接預測動作;稍微復雜一點,我們可以先打分,再做測試時計算。它是一個完整的系統方案。因為 VAM 能生成動作,但它生成的動作不一定是最優的。這就是我們說的開環和閉環的區別。
DeepTech:假設今天有一個團隊已經有比較強的 VLA pipeline,下一步它應該補 world model、RL、test-time computation,還是其他部分?
羅劍嵐:我覺得應該補上整個閉環,也就是補上整個系統,而不是單補某一個模塊。如果是我來做,我肯定會把真實部署的學習閉環補齊:我們有 VLA 能做高層級語言規劃;有 video action model、有世界模型來負責動作執行與未來預測;有強化學習或類似機制,能把機器人真實部署中的經驗回收回來,讓整個基礎模型持續進化,數據質量不斷提升。這整體構成了一個面向真實部署后的學習閉環系統。
機器人最關鍵的問題在于:部署之后失敗了怎么辦?失敗數據如何回收?模型如何更新?系統如何迭代優化?如果沒有真實物理閉環,單純做 world model 或 VLA,都很容易陷入離線指標優化,比如熱衷于在榜單上刷分。在我看來,這缺乏實際意義,因為它脫離了真實的物理世界閉環。
舉個例子。早期的自動駕駛領域,大家曾經熱衷于刷一個叫 nuScenes 的榜單,投入了很大熱情去優化各種離線評估指標。后來業界發現,這些指標與車輛在實際道路上的表現并沒有什么相關性,這種趨勢才逐漸冷卻。到現在大家都幾乎不記得這個東西有什么意義了。
再看機器人領域。我在這個領域做了 10 年,業界在 benchmark 上的投入同樣很大。僅從我個人的失敗經驗來看,我曾經也有一些工作花費了大量時間去優化這些指標,但最終實際效果并不理想。我不是說評估體系不重要,相反,評估是最重要的一環,它本身就是一個開放的科學問題。但如果將其簡單抽象成某個仿真的 benchmark,或者追求某個榜單上的排名,10 年前可能就已經有結論證明這種路線行不通,缺乏實際意義。
DeepTech:真實的閉環,尤其是這樣一套完整的閉環,需要不少資源。對一個小團隊來說,會不會比較困難?
羅劍嵐:我倒覺得相反,這恰恰是小團隊的機會。目前業界似乎還沒有哪家公司能夠真正把這件事情極其扎實地落地。要求不必太高,僅需 10 臺機器人,在真實世界中部署并持續優化,甚至不需要 7×24 運行,只要能客觀實時地反映真實成功率、接管率以及節拍數,并將這些真實數據完整呈現出來。我好像還沒有看到這樣的例子。
小團隊如果決策速度更快,大家齊心協力,反而會推進得更快。因為構建閉環涉及眾多技術模塊,在一個體量龐大的公司里,通常是流水線作業:一個人負責 A 模塊,一個人負責 B 模塊,一個人負責 C 模塊,預訓練團隊和后訓練團隊容易發生摩擦,后訓練團隊和 infra 團隊同樣面臨協作阻力。相反,在小團隊中,如果所有核心成員都能協同作戰,迭代速度反而更具優勢。
每天都在失敗,有時有希望
DeepTech:從真機 RL 到 LWD,再到現在的τ0-WM,外界看到的是一系列方向上的變化。你自己回頭看,過去幾年真正沒有變過的研究問題是什么?
羅劍嵐:我沒有變的問題只有一個:機器人如何從真實世界交互中持續變強。其他的都是我可以用的工具。RL 是工具,基礎模型是工具,世界模型也是工具,VLA 也是工具。機器人是一整個系統,我要把所有的方法論、工具、工程都整合起來,服務一個目標:機器人如何從真實世界交互中持續變強。
我不關心某一次 demo、某一次宣發,這些東西我不是很關心。我之前做過很多算法的工作,也做過系統的工作,做過硬件的工作,做過 pre-training、post-training、human-in-the-loop,諸如此類。如何把真實部署經驗轉化為模型能力,我的主線一直是大規模真實世界機器人學習,也就是 Real world robot learning at scale。
DeepTech:從一開始做真機 RL 到現在已經十多年了。這個過程中有沒有某些失敗的經歷,或者遇到的困難,讓你對這個方向產生過懷疑?
羅劍嵐:每天都在失敗。經常失敗,有時又會覺得有希望。
DeepTech:從來沒有懷疑過?
羅劍嵐:那倒也不是,也會懷疑吧,也覺得可能會成功。但我到今天都沒覺得我很成功,因為最終的目標還沒達到。
我覺得是這樣,很多人也都說過:如果真的去做一些創新的事情,做別人沒做過的事情,它是很難的。很多時候,難并不在事情本身,而是一些外部的、客觀的條件,會不斷挑戰你自己的判斷。你做的事情別人都沒有做過,前沿的基礎研究本身就充滿挑戰,你基本上就是走在人類認知的邊界,不會有人幫你,只有你自己能去做。這件事情本身就很有挑戰性,失敗概率很大,而且有很多人希望你失敗。你的阻力很大,遇到的困難也很大。你越想搞大規模,遇到的困難可能就越大。
在學校的話,失敗的代價,我覺得最多也就是一篇 paper 寫不出來而已。但隨著職業生涯的發展,失敗的代價會越來越大。
至少我得到的啟發是,我和很多行業前輩聊下來,感覺大家失敗是常態。問題是從失敗中能學到什么,把學到的經驗變成你下一次做梯度下降時一個更好的方向,然后朝著那個方向去強化。
這樣的例子有太多了。幾乎每一個我們今天看到做出一點成就的人,一開始都是被無比質疑的。我都覺得,如果你一開始做一件事情,所有人都一致看好、肯定成功,這件事情也就沒有太大做的必要了:所有人都同意,大家都看明白了。所以你去做這些事情的時候,一開始一定是不斷被懷疑、不斷受到挑戰的。
但這里我們得區分清楚一件事。別人用過去的經驗去加權平均,推導出來的肯定是那些結論。你做的如果是一件新事情,那它一定不是用過去的經驗加權平均得到的。它一定是你根據內生的邏輯推演,再加上自己觀察到的經驗證據,推導出來的一套新的邏輯體系。一開始你會受到很多挫折。隨著你看到的經驗證據越來越多,你再去修正自己的世界模型、mental model 和邏輯鏈,對某些東西會越來越相信。那就這樣,你就接著往下做。
DeepTech:聽起來也和訓練世界模型很像。
羅劍嵐:對。根據我的觀察,很優秀的一些 researcher,MBTI 里面可能 INTJ 居多。他們觀察世界的模式,更多是靠自己的 mental model,他們有一套自己的推理方法。
但實際操作中,有的人會更有策略一點。堅持這件事情,并不是讓你一味地埋頭苦干。你也要會轉向,要能看到自己離這件事情還有多遠。你比整個領域領先 50 年,我覺得沒有意義。如果你領先 3 年、5 年,就可以看到它,可以預測未來三年會發生什么,看到當下有什么機會,讓自己打開一點,看到更多機會,轉過來,然后再接著往前走。有的人很擅長這個。也有的人,就差最后一點點了,他放棄了,那就徹底結束了,也有這樣的。如果你做得足夠多,就會更好地管理自己,在這些復雜情況下靈活轉身。
DeepTech:以你剛才說的三年為準,你希望三年內團隊去證明或者做到的一件事是什么?
羅劍嵐:我們希望證明,機器人的基礎模型可以在真實場景中持續部署,持續收集物理交互經驗,持續后訓練,其能力隨著部署規模增長而提升。我覺得到那時,這個領域會進入一個新的階段。
這不是做一次性的 demo,而是建立一套新的機器人閉環學習范式:從預訓練到部署,再從經驗中學習、后訓練、提升,整體形成一個數據飛輪。如果這個閉環跑通,具身智能才具備規模化的基礎。
DeepTech:要檢驗這個方向的進步水平,你更看重哪個指標?
羅劍嵐:我不會只看成功率。成功率固然重要,但很容易被 hack,比如被特定任務、特定環境、特定 demo 放大,你可以針對這些東西去調。
科學的評估應該是一個組合指標:第一是單次嘗試的成功率;第二是失敗恢復能力;第三是部署機器人的數量和部署時長;第四是機器人模型的改進速率,也就是真實世界數據閉環的規模和模型改進速度。
如果只能選一個指標,我會選:在真實場景里,機器人無需人工干預、持續完成任務的時間和范圍。或者換一個指標的話,就是接管率。這個指標很重要,目前業界在具身智能領域還沒有廣泛對它做比較。在自動駕駛領域,這是一個非常重要的評估指標:人工接管的頻次。例如特斯拉最新的 FSD,會直接把這個指標顯示在車的大屏上,FSD 開啟時,人工接管的頻率是多少公里一次。當這個指標低到一定程度,比如萬分之一,整個行業的數據飛輪就能轉起來,經濟賬也就可以算過來。
這比關注單個榜單或某個 benchmark 分數,更能說明具身智能是否進入了下一個階段。
參考資料:
1.https://arxiv.org/pdf/2606.01027
運營/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.