網易首頁 > 網易號 > 正文 申請入駐

機器人開源革命:“免費大腦”背后的四派力量與博弈

0
分享至

撰稿Vicky

今年2月前后,小米、螞蟻、阿里達摩院、宇樹紛紛發布機器人開源模型。再之前,英偉達在CES上發布了GR00T N1.6,把自家號稱“世界首個開放人形機器人基礎模型”又再度升級。

這些消費電子公司、互聯網巨頭、芯片帝國,最近都一股腦把機器人的“大腦”拿出來,免費給全世界用。機器人開源模型的生態中,有什么樣的心機和萬億美元押注的博弈呢?


本篇文章我們繼續機器人系列,之前我們分析了如今具身智能通用的VLA模型,拆解了特斯拉、Figure這些閉源巨頭的不同路線,以及他們如何用硬件和數據優勢構筑護城河。而這篇文章,我們與全球頂尖具身智能實驗室的研究人員深聊之后,來扒一扒開源算法路線中的核心玩家和關鍵的技術領軍人物們。

同時我們來試圖回答這三個問題:

第一:這些開源模型分別走了什么技術路線,為什么能挑戰巨頭?

第二:開源的動機是什么?什么是“真”開源,什么是“假”開源?

第三:開源模型生態是什么樣的?面對特斯拉這樣的對手,開源社區拿什么打?

(本文為視頻改寫,歡迎大家收看以下視頻)

01

開源模型全景

誰在做,走什么路?

在開源模型派別中,VLA模型仍然是主流。簡單來說,就是讓機器人“看到”周圍環境,“聽懂”你的指令,然后“做出”正確的動作。


目前,開源VLA模型大致可以分成四股力量:

1. 學院派:參數不大,但能以小博大,代表模型是OpenVLA和Octo。

2. 巨頭生態派:不只做模型,還布局整套工具鏈,代表是英偉達的GR00T N1和谷歌的Gemini Robotics。

3. 創業公司與中國力量:自變量、OpenMind、小米、螞蟻等等。

4. 技術極致派:追求極致精度和泛化能力,代表模型是Physical Intelligence的π?。

1.1:學院派的理想主義

OpenVLA的一戰成名,發生在2024年6月。這個只有70億參數的開源模型,在29項機器人操作任務中,全面擊敗了“頂流”谷歌DeepMind的RT-2-X。RT-2-X有550億參數,是OpenVLA的8倍大,背后站著整個谷歌的算力和數據資源。但結果是:OpenVLA的成功率比RT-2-X高出16.5%。


OpenVLA以小博大,憑的是一個很聰明的架構設計:兩個視覺編碼器加大語言模型。

對比谷歌RT-2-X,因為它只用了一個視覺編碼器,你可以想象成一個超聰明但什么都自己做的人:能力很強,但信息處理效率更低。

而OpenVLA用了兩個視覺編碼器,相當于有“兩雙眼睛”。第一雙眼睛叫“DINOv2”,負責理解空間關系;第二雙眼睛叫“SigLIP”,專門理解語義和常識。然后再由當時的開源大語言模型Llama 2充當“大腦”,把空間信息和語義信息融合起來,處理指令和推理。


簡單來說,OpenVLA像一個三人小團隊協同作戰,把兩類信息物理隔離、各自優化,再統一決策,整體反而更強。大家大概可以理解成“三個臭皮匠,頂個諸葛亮”。這個架構證明了:在具身智能領域,單純的“大”并不代表“聰明”

OpenVLA還有一個數據集的優勢,叫做“Open X-Embodiment”,這也是開源生態的一個非常厲害的優勢,后文會詳細展開。

另外,OpenVLA還在動作表示方式和訓練策略上做了優化。所以它這次對谷歌的勝利靠的是“數據+架構+訓練策略”的綜合結果。

而且,OpenVLA在勝出之后徹底開源:代碼、模型權重、訓練腳本全部公開。這樣的開放姿態讓整個行業都非常興奮,開始各種后續的優化、推理加速和微調。


這就是一個非常典型的開源故事,能用創新方式去“以小搏大”,撬動整個技術領域的后續工作。

我們再說說另外一個比較典型的開源路線“Octo”。如果說OpenVLA代表“規模化開源”,Octo就是“普及型開源”。

我們知道,機器人算法的“泛化性”是個很大的挑戰,之前的標準做法是需要針對特定機器人用特定數據集來訓練策略,但你換一個機器人、換一個環境,就要全部重新來訓。而一些開源社區的大牛們就希望實現“通用機器人模型”,通過zero-shot這樣的技術將模型擴展到廣泛的機器人和場景中。這樣的路徑被稱為“通用機器人策略”,Octo就是其中的代表。


Octo只有數千萬參數,比OpenVLA的規模更小。它是一個基于Transformer的擴散策略模型,設計強調靈活性和可擴展性,支持多種機器人平臺和傳感器配置,并能夠通過微調快速適應新的觀察和動作空間。這使得Octo可以廣泛應用于不同的機器人學習場景。

Octo的定位不是最強,而是人人可用,希望給開源社區提供一個更輕量、可快速適配的通用策略基礎模型。

1.2 巨頭生態一條龍

2025年3月的GTC大會上,黃仁勛親自站臺,發布了GR00T N1,號稱“世界首個開放人形機器人基礎模型”。到2026年1月CES,已經迭代到了N1.6版本。


GR00T N1采用雙系統架構:一個基于視覺語言模型的“System 2”負責慢思考,理解環境、解讀指令、做出規劃;一個基于擴散Transformer的“System 1”負責快思考,以高頻率把規劃轉化為精確的關節動作。兩個系統端到端聯合訓練,緊密耦合。

22億參數,模型權重和代碼都公開了,不少頭部人形機器人公司都獲得了早期使用權。而且英偉達不只給了模型,還給了整套生態:用Omniverse做數字孿生,用Isaac Sim生成合成訓練數據,用Cosmos生成視頻數據,用Newton物理引擎做仿真,整個一條龍服務。


Google在機器人通用策略上也在持續布局。早期的RT-1開源了代碼和數據,但后續更強大的RT-2以及之后的RT系列就變成閉源模型了,并沒有對外開放。

最近Google也在加速。2025年發布了Gemini Robotics系列模型,還挖來了前波士頓動力首席技術官Aaron Saunders擔任硬件工程副總裁。DeepMind CEO Demis Hassabis把這個愿景稱為“機器人界的安卓”,做通用的機器人操作系統,讓Gemini成為各種機器人的“大腦”。


在2026年CES上,波士頓動力和Google DeepMind宣布了戰略合作,將Gemini Robotics模型整合到Atlas人形機器人中,聯合研究即將在兩家公司的實驗室展開。

Google從開源到閉源、再到想要打造“機器人界的安卓”,賽道轉換有點快、野心有點大,但它絕對是機器人行業的最重要玩家,我們也拭目以待它的下一步動向。

1.3 創業公司與中國力量

中國在開源具身智能領域的參與正在加速,而且態勢在從單純的“跟跑”向“參與定義規則”轉變。


小米在2月12號剛發布的Xiaomi-Robotics-0,47億參數,用MoT混合架構——把“大腦”(視覺語言理解)和“小腦”(動作執行)分開,改善了VLA模型普遍存在的推理延遲問題。模型開源,在消費級GPU上就能跑。

螞蟻集團的LingBot-VLA走了另一條路,強調跨形態泛化。這個模型在9種不同的雙臂機器人上預訓練了2萬多小時的真機數據,目標是做到“一個大腦控制所有類型的機器人”,有點像我們之前提到的“通用機器人策略”路線。


清華AIR和上海AI實驗室聯合推出的X-VLA,刷新了五大仿真基準,代碼、數據、權重全部公開,可以說是學術界最徹底的開源范本之一。

星海圖開源了真機數據集,以及旗下最新的G0 Plus VLA模型;智元機器人的GO-1已經部署到了真機上執行任務;星動紀元的ERA-42也在探索自己的路線。

另外,自變量機器人是一家聚焦于通用機器人“大腦”研發的中國具身智能創業公司,CTO王昊在之前與硅谷101播客的采訪中談到了開源的初衷。


王昊 自變量機器人CTO 我們是持續地發揚開源精神,也吸收了很多經驗,用了大概幾萬小時的真實世界的數據,基于已經訓練好的基礎的視覺語言模型去做擴展,讓它具備比較強的視覺理解、空間推理、多語言的指令遵循能力,同時它的動作的生成精度也比較高。我們也希望這次開源能夠對具身智能行業有比較好的補充。

在硅谷的初創公司中,我們采訪了由斯坦福教授Jan Liphardt創立的OpenMind。他在接受我們采訪時說,希望為不同廠商的人形機器人構建一個通用的軟件層。OpenMind推出的OM1平臺強調開源與跨硬件兼容,希望打破當前機器人系統各自封閉的局面,讓不同設備可以共享能力與生態。他們也從一開始就以開源為核心理念來打造具身智能平臺,代表了一種純粹的開源路線。


Jan Liphardt OpenMind創始人 我們真正想做的,是讓任何人、在任何地方,都能輕松打造出能夠完成各種有用任務的機器人。而這一切,只需要通過修改提示詞就可以實現。
1.4 復仇者聯盟:PI(π?)

目前開源界最受矚目的模型π?,是Physical Intelligence推出的VLA模型,屬于數十億參數級別。π?代表的是另一條思路:把“連續控制”做到極致。

在動作生成部分,π?使用了flow matching(流匹配)思路,直接生成連續的關節軌跡。這意味著模型輸出的是一段平滑的控制信號。Physical Intelligence研究員、也是π?、π?.?論文作者柯麗一鳴在接受硅谷101播客采訪的時候就告訴我們,π?控制頻率約為50Hz,也就是每秒更新約50次動作。這種高頻連續控制帶來了一個質的飛躍:π?能做折紙、玩撲克牌這種需要極高精度的任務——而這些是OpenVLA和Octo都很難勝任的。


柯麗一鳴(Kay Ke) Physical Intelligence研究員,π?、π?.?論文作者 當時是有一些內部的討論,要不要再多一點和短一點。但是可能對我們來說更重要的是,想讓模型一口氣輸出一個長度,大概在一秒左右的計劃,這一秒剛好是50赫茲,所以是這么一個選擇。

從設計理念上看,π?更強調“控制質量”和“動作連續性”。相比把動作當作語言token預測,它更接近傳統控制系統的形式,只不過控制信號由大模型生成。

這一選擇帶來的好處是,在折疊衣物、抓取柔性物體、操作細小零件等任務中,動作更加流暢,減少了抖動和遲滯。


同時,π?的代碼與權重通過OpenPI項目對外開放,使研究社區可以在它的基礎上復現與擴展。這種做法在商業公司中并不常見,也成為開源陣營的重要力量。

更令人關注的是π?的迭代節奏。初版論文發布后不久,Physical Intelligence通過OpenPI項目公開了模型權重與代碼。隨后數月內,團隊陸續發布更新版本,持續改進泛化能力與控制穩定性。隨后引入強化學習機制以進一步優化策略表現,同時強調在開放環境中的適應能力。

在機器人領域,這種快速迭代與持續公開更新并不常見,也成為π?受到關注的重要原因之一。

柯麗一鳴(Kay Ke) Physical Intelligence研究員,π?、π?.?論文作者 把π?.?模型放到一個移動機器人里,再把這個移動機器人放到不同的、沒有見過的家里,這些都不在模型的數據集里面,模型可能不知道會怎么反應,然后我們觀察它會怎么做。在這個過程中我們發現,要做到泛化性還是比較有希望的,雖然機器人的表現不是很完美,但它好像展現出了一點像人類的特性,比如拿東西,換到別的家場景里還是能拿。
1.5 開源陣營人物關系

不同陣營背后的主導核心人物也并非對立關系,他們的關系緊密且錯綜復雜。而更有意思的是,曾經主導閉源模型的多位頂級科學家,后來成為了機器人開源社區的領導者。他們又被稱為機器人界的“復仇者聯盟”。


OpenVLA來自斯坦福和伯克利的聯合團隊,核心人物是這個領域的明星人物Chelsea Finn。

她MIT本科畢業,又在伯克利拿到博士學位,師從機器人學習教父級人物Pieter Abbeel和Sergey Levine。2019年她加入斯坦福任教,隨后一路拿獎到手軟。她同時還是Physical Intelligence的聯合創始人,橫跨學術和商業兩個世界。可以說,Chelsea Finn一人就串起了開源和閉源陣營的半壁江山。


在Finn教授以外,我們可以看到OpenVLA的作者名單上除了斯坦福和伯克利的一眾研究人員,還有豐田研究院、Google DeepMind、Physical Intelligence、MIT的科學家。這說明,OpenVLA并不只是一個閉門造車的實驗室產物。

Octo和OpenVLA可以說是“同門師兄弟”,同樣來自伯克利,由Chelsea Finn和Sergey Levine的團隊聯合出品。


Sergey Levine是機器人強化學習領域公認的開創者之一,他是伯克利教授、Google Brain前研究科學家,后來也成了Physical Intelligence的聯合創始人和首席科學家,他跟Finn是博導和博士生的關系。

有趣的是,Levine和Finn在Google時期參與了RT-1、RT-2這些閉源項目,離開后又推動了Octo和OpenVLA這些開源工作。這個領域中的同一批人,可以說既造了閉源的堡壘,也打開了開源的大門。

PI的創始團隊堪稱是機器人AI領域的“復仇者聯盟”,聯合創始人們各個都是來自學術界或者科技公司的大佬。

其中,Karol Hausman是Google DeepMind機器人方向的資深研究科學家,也是RT-1、RT-2和SayCan等標志性機器人大模型工作的核心作者之一。

Brian Ichter同樣來自Google Brain,深度參與了這些項目的研發,是那一代機器人基礎模型的重要推動者。Sergey Levine長期與Google Brain合作,在機器人學習和強化學習領域處于世界前沿,是這條技術路線的關鍵思想源頭之一。

我們前面提到好幾次的Chelsea Finn也是PI的聯合創始人之一,她也參與了RT系列研究,在機器人泛化與自監督學習方向做出了重要貢獻。


2024年初,這幾位參與Google機器人基礎模型路線的核心成員陸續離開Google,并共同創辦了Physical Intelligence(PI)。此外,團隊成員還包括前Stripe高管兼知名投資人Lachy Groom,以及前Anduril工程副總裁Adnan Esmail。

說白了,是閉源陣營里最懂技術的一幫人,決定跳出來換一種方式做事

但π?的身份很“糾結”,它來自一家剛成立、融資就超過10億美元、估值56億美元的商業公司。這樣一家公司,為什么要把最核心的模型開源?這就要說到我們的第二個核心問題:“真”開源和“假”開源。

02

開源的“真”與“假”

免費背后的商業心機

2.1 Physical Intelligence:最“心機”的開源

Physical Intelligence2024年成立,投資人包括Jeff Bezos、OpenAI、Sequoia Capital、Khosla Ventures。2024年11月融了4億美元,2025年11月又融了6億美元,估值達到56億美元。


一家這么有錢的公司,為什么要把核心模型免費放出來?答案是:這可能是Physical Intelligence最有“心機”的商業策略。

第一,開源建立標準。當全世界的機器人開發者,無論是學術實驗室、創業公司或者工業客戶,都在π?的框架上構建應用,PI就成了事實標準的定義者。別人的每一次使用,都在鞏固π?的生態地位。

第二,開源吸引人才。最優秀的研究者想去能發論文、能影響行業的地方,PI開源π?之后,他們的openpi GitHub倉庫就成了機器人領域最熱的項目之一,這比任何招聘廣告都有效。


第三,開源加速數據飛輪。社區使用你的模型,發現問題、做出改進、貢獻數據,這些都回流給PI,讓下一代模型更強。

柯麗一鳴(Kay Ke) Physical Intelligence研究員,π?、π?.?論文作者 我覺得能和業界、社區分享一下模型,并且能夠幫助到大家很快地上手,可能也是在變相地降低機器人模型研究的一個入門門檻吧。其實在公司內部,開源也是一種(研發的)過程,就是從決定要開源,然后抽調大家把剛剛發表的研究去重構代碼,然后做測試,再和社區的一些開發者溝通看能不能跑得起來。這是一項不簡單的工作,但是真的看到我們的模型,在一些我們自己都沒想到的機器人上面跑起來了、別人能用我們的模型做很多不同的實驗,還是很開心的,現在大家都很樂意去開源,我覺得是很好的氛圍。

但要注意,π?不是100%開源。模型權重和推理代碼公開了,但完整的訓練流程和PI內部采集的數萬小時專有數據沒有公開。

這是一種精心設計的“開源引流、閉源變現”策略,也就是用開源的模型吸引開發者進入你的生態,用閉源的數據和訓練能力保持競爭優勢。也就是說社區可以用它的模型,但想要最好的版本,還得來找它。

2.2 英偉達GR00T N1:“開放”不等于開源

我們前面提到,英偉達不只給了模型GR00T N1,還給了整套生態,包括生成合成訓練數據的工具、物理引擎等等。聽起來非!伴_放”,但為什么有人說GR00T N1是“偽開源”?

因為模型雖然開放了,整個流程都在英偉達的生態里:訓練深度綁定英偉達的硬件生態,用H100集群訓練,在Omniverse平臺上做仿真,用Isaac Sim生成合成數據,最后部署在Jetson Thor芯片上。


對比純粹的社區開源,比如OpenVLA和Octo沒有任何硬件綁定,沒有生態鎖定,在任何GPU上都能跑。這也許是“開放”和“開源”之間的根本區別。

但行業如此早期,也許根本沒有什么選擇是正確或錯誤的。學術開源追求的是知識共享和科學可復現性,商業開源追求的是生態控制和市場標準,而戰略開放追求的是平臺鎖定和硬件銷售。

王昊 自變量機器CTO AI的研究我覺得跟大模型之前有很大不一樣。過去,我們可以看到研究是非常離散的,在真正形成一個社區之前,可能做研究的只有兩、三個人,大家瘋狂地研究一個算法,更多是以論文發表作為第一要務,目的是占據技術的主動權。但有了社區和整個開源體系之后,大家更在乎的是,怎么在一個工程化的體系下,把這個工程基礎打好,讓這個社區更加繁榮?個人是通過什么方式給社區做貢獻?大家的榮譽反而來自于這樣的事情。這樣也就會促使開源模型的技術不停地發展。所以我覺得開源是一個非常好的事情,既可以從中學習到新的東西,也可以看到你的東西可能對別人幫助。

03

生態的力量

模型+數據+工具的“組合拳”

特斯拉有自己的工廠、自己的機器人、自己的數據閉環。英偉達有全世界最強的算力。谷歌匯聚了最頂尖的人才。開源社區一幫大學教授和創業團隊,憑什么能跟這些巨頭掰手腕?

答案是:生態。單看任何一個開源模型,都不如閉源巨頭。但模型、數據、工具三層生態疊加,形成的“組合拳”力量,就讓故事不一樣了。


Jan Liphardt OpenMind創始人 要讓一臺人形機器人表現良好,軟件和硬件之間必須進行非常精細的協同。哪怕是一些看起來很基礎的問題,比如不同類型的傳感器、電壓管理、電壓調節器、散熱控制、系統穩定性等等,這種協同必須非常緊密。 但根據我從不同機器人公司聽到的情況,如果一家公司在完全封閉的環境里獨自開發技術,往往會遇到一個問題:那些只在自己實驗室里構建、從未經過外部驗證的技術,其實很難真正落地使用。 不點名地說,我聽說有一家非常知名的公司,為人形機器人自研芯片。聽起來這當然是個很棒的想法,他們甚至掌握了完整的芯片架構。但問題在于,因為沒有其他人參與使用和測試,這套架構實際上存在大量bug。

也就是說,閉源看似安全,但沒有社區幫你測試和改進,反而可能變成一個人悶頭造車。

3.1 數據基石:Open X-Embodiment

目前開源生態的第一個優勢就是數據集。我們前面提到,OpenVLA橫空出世,就是用了Open X-Embodiment的數據集。


Open X-Embodiment是開源陣營最寶貴的優勢:一個跨平臺、跨實驗室的機器人數據公共資源,它的規模和組織方式在機器人領域前所未有:超過20個研究機構共同貢獻,包括斯坦福、伯克利、MIT、CMU、Google DeepMind等頂級實驗室;22種不同的機器人本體,從單臂機械臂到雙臂協作、從桌面操作到移動導航再到人形機器人;超過100萬條真實軌跡,覆蓋527種技能。

特斯拉的數據可能更大,但全是Optimus一種機器人在特斯拉環境里的數據。Figure的數據也只有Figure 01和02的操作。而Open X-Embodiment是幾十種不同形態的機器人,在廚房、實驗室、倉庫、辦公室等完全不同的場景里采集的數據。

為什么數據的多樣性比數據量更重要?


用訓練RT-X模型的實驗結果來說明:RT-1-X在小數據域的表現比單獨訓練的模型高了50%,RT-2-X甚至涌現出了原模型沒有的空間推理能力,是RT-2的3倍,能理解“on”和“near”這種細微的語言差異,這意味著它開始理解語言中的空間語義,知道“on”意味著物體之間要建立接觸和支撐關系,而“near”只是空間鄰近。

除此之外,它還能執行訓練時從未見過的技能組合。這直接證明了:只要數據夠多樣,就算模型不是最大的,性能也能有大幅提高。

柯麗一鳴(Kay Ke) Physical Intelligence研究員,π?、π?.?論文作者 在π?的時候,我們做了一個比較簡單的統計:π?使用的數據,比谷歌研究院收集的所有數據加起來還要多,即使π?發表的時候,PI還是一個很年輕的初創企業。 我覺得其實這是說明了兩件事:第一就是那個時間點采集的數據量確實是非常大,而且之后一直有往里面增加數據,而數據的成本、數據的量是在實時變化的。在谷歌研究院在開始探索的時候,要花很大的功夫才收到這些數據,但后來漸漸的有了經驗,PI或者其他公司再收就會越來越簡單,成本應該也是能夠得到控制和降低的。

更值得一提的是數據格式的標準化貢獻。以前最頭疼的問題是每個實驗室的數據格式都不一樣:伯克利是一種格式,斯坦福是另一種,MIT又是第三種。想用多個數據集一起訓練?先花幾個月寫轉換代碼。


而Open X-Embodiment定義了統一的數據格式,涵蓋視覺觀察、本體感知、動作序列和語言注釋,所以在產業中有了一個統一的標準,這個很重要。

再說一句數據的問題,因為這是目前機器人領域最大的挑戰,我們的嘉賓之間分歧也很大,一派認為大語言模型已經包含了足夠的物理常識,只需少量機器人數據微調,而另外一派認為物理世界的細節必須用真實的機器人數據來學習,互聯網視頻遠遠不夠。這里面的門道和技術可以挖得蠻深,不同的任務、不同的精度要求,需要不同的數據策略。所以,關于數據,我們之后還會單獨做一期機器人系列的深度內容。

3.2 工具層的野心

光有數據不夠,還需要工具把數據變成可以訓練的模型,這就是LeRobot和Genesis的角色。


LeRobot是Hugging Face從特斯拉挖來的工程師Remi Cadene帶隊打造的開源項目。Cadene之前在特斯拉參與過Autopilot和Optimus人形機器人項目。他帶著這些經驗來到Hugging Face,目標是“讓訓練機器人像訓練語言模型一樣簡單”。

LeRobot做了三件關鍵的事:

1. 定義了LeRobotDataset統一數據格式。

2. 一鍵集成了多種主流策略模型,你不需要去讀論文改代碼,直接調用就行。

3. 打通了數據采集、模型訓練、到真實機器人部署的全流程,以前這三步可能需要三套不同的工具鏈。

LeRobot的GitHub已經超過2萬星,成為了開源機器人訓練的標準之一。但Hugging Face的野心不止于軟件。


2025年他們收購了法國的Pollen Robotics,推出了7萬美元的Reachy 2開源人形機器人,已經在康奈爾和CMU等頂尖實驗室使用,還推出了250美元的Reachy Mini桌面機器人。更早之前,他們和The Robot Studio合作推出了SO-100機械臂,成本只要100美元,任何人都可以在家3D打印DIY一個。

由此可見,Hugging Face正在把“硬件加軟件加社區”打包,構建一個完整的開源機器人生態。

而2024年12月發布的Genesis則嘗試優化仿真訓練的問題。這是由CMU卡內基梅隆大學主導、聯合MIT、斯坦福、英偉達等20多個研究實驗室共同參與的開源項目,只需在仿真中運行數小時,就能生成相當于現實世界中多年訓練的樣本數據,大幅降低了訓練時間和硬件成本。


比如說,Genesis號稱在一張RTX 4090顯卡,模擬一個Franka機械臂的速度是每秒4300萬幀。這是實時速度的43萬倍。在Genesis里訓練1小時,相當于在真實世界訓練超過49年。

這帶來的改變是,以前只有大公司能負擔的大規模仿真訓練,現在一個研究生在家用一張消費級顯卡就能做。

值得注意的是,英偉達也和Google DeepMind、Disney Research聯合開發了一個開源物理引擎Newton,跟Genesis形成了直接競爭,所以仿真工具領域本身也是一個充滿競爭的領域。


但無論如何,一部分勛章應該要給到Hugging Face,LeRobot管真實世界,學界主導的Genesis管虛擬世界,兩個工具一起,把“訓練機器人”的門檻從百萬美元降到了幾百美元。

3.3 為什么生態能贏

總結一下,模型、數據、工具,這三層疊加,就是開源陣營的“組合拳”。

單看任何一層,開源都不如閉源巨頭:論人才密度和算力,不如谷歌;論數據量,不如特斯拉;論工具鏈的完整度,不如英偉達。但三層聯動產生的化學反應,釋放出了巨大的能量。


一個研究者可以用Open X-Embodiment的數據,在LeRobot框架上訓練OpenVLA,用Genesis做仿真驗證,然后部署到100美元的SO-100機械臂上。整個流程全部開源,全部免費,全部可復現。

這里有一個很關鍵的觀察:在大語言模型領域,開源是追趕者。OpenAI、Anthropic和Google先行,開源后追,晚一到兩代。但在機器人領域,開源和閉源幾乎是同時起跑的。

OpenVLA在2024年6月就擊敗了RT-2-X,這個時間差的原因很簡單:機器人還在非常早期的階段,沒有任何一家公司建立了壓倒性的數據或算法優勢。這是開源難得的“公平競賽”窗口,如果錯過這個窗口,等閉源公司積累了足夠的數據飛輪,開源可能就很難追上了。

而且,開源和閉源之間的邊界遠比想象的更模糊。

RT-2-X是谷歌的“閉源”模型,但它的訓練數據有一部分來自Open X-Embodiment這個開源數據集。Chelsea Finn同時是Octo這個開源項目的核心作者,也是RT系列閉源工作的推動者,還是PI的聯合創始人。而英偉達的GR00T N1介于開源和閉源之間。所以,這場競爭不是兩個陣營的對決,而是一個光譜上的多方博弈。


而說到底,開源vs閉源,表面是技術路線之爭,本質是生態之爭,爭的還是誰來定義機器人行業的基礎設施層。

Jan Liphardt OpenMind創始人 互聯網本身就是建立在開源代碼之上的,Android也是開源的。當然,有些公司希望掌控一切,從軟件到硬件,再到云服務,比如非常優秀的蘋果。但我們也看到,像三星、Google這樣的公司,同樣體量巨大,卻很樂于使用開源軟件來構建自己的手機系統。他們之所以選擇使用開源軟件,原因也很簡單。每家公司都必須決定,自己的時間和資金應該投入在哪里。

04

開源的挑戰與未來

算力、數據質量、工程化差距與安全

但對于生態來說,必須要直面一個現實:開源面臨的挑戰依然很大。

首先是算力門檻,雖然有Octo這樣的輕量模型,但訓練一個頂級開源模型仍然需要不小的投入。OpenVLA用了64張A100跑了15天,這跟特斯拉、谷歌的算力相比是小巫見大巫,但對普通研究者來說仍然是一筆不小的開支。

其次是數據質量,Open X-Embodiment雖然大,但不同來源的數據標注標準參差不齊,有的實驗室標注非常細致,有的比較粗糙。特斯拉的數據可能在多樣性上不如開源,但在一致性上更強,畢竟都是同一套系統采集的。

第三是工程化差距,開源模型在論文里表現出色,但從demo到產品之間有一道巨大的鴻溝。閉源公司有完整的工程團隊做優化、做測試、做售后,開源社區更擅長創新探索。但把一個模型打磨成穩定可靠的商業產品,往往需要閉源公司來完成。

第四是安全問題,如果人人都能訓練機器人,如何防止被用于危險用途?物理世界的AI比虛擬世界的大語言模型風險更高,聊天機器人說錯話最多是尷尬,但物理機器人做錯動作可能造成傷害。OpenMind的Jan Liphardt提出了一個大膽的方案:


Jan Liphardt OpenMind創始人 我們把規則寫進以太坊區塊鏈。我們這樣做的原因是以太坊是不可變的,不能被改變。當機器變得聰明時,我們應該預料到機器可能會試圖隱藏它們在做什么,或者想改變歷史,或者想要比它們應該擁有的更多的控制權。在這種情況下,將規則寫在公共場所、不能被更改的地方是非常重要的,作為額外的安全措施。

用區塊鏈來約束機器人行為,這個想法很前衛,也確實在業界也引發了一些爭議。但它至少說明,開源社區正在認真思考安全問題。

開源能發展到什么程度?自變量CTO王昊給出了一個時間線預測:

王昊 自變量機器人CTO 現在我們是明確的知道、而且看到了這種規;瘞淼奶嵘,所以對于我們來講,路徑和目標更加明確、更加唯一,所以我預測會在1~2年的時間,我們完全可以達到GPT-3的這個水平。

GPT-3的水平意味著機器人會從“能完成簡單指令”跳躍到“能理解復雜意圖并靈活執行”,這將是一個分水嶺。


在LLM時代,我們見證了OpenAI從“開放”走向封閉。一個以“Open”命名的公司,變成了一家市值千億的閉源商業帝國。在機器人時代,同樣的故事可能重演,但也可能不會。因為機器人領域有一個大語言模型時代沒有的東西:從一開始就足夠強大的開源生態。

最后,OpenMind創始人Jan Liphardt從一個父親的角度解釋了為什么他支持開源,這個回答還蠻有人味兒的:

Jan Liphardt OpenMind創始人 因為我是一個父親,我有兩個孩子。如果我去想象未來的世界是什么樣子,我不希望有一天他們打開家門,一臺人形機器人站在門口,說:“你好,我是你的新機器人,但我運行的系統你無權查看! 像機器人這樣重要的技術,必須是公開透明的。我相信,透明本身就會帶來更高的安全性。我希望我的孩子能夠給身邊的機器人添加功能,能夠參與到這個世界的建設中,而不是只能買回一個盒子里的產品,打開之后它自己展開,然后告訴你:“我已經設置好了,但我的工作方式是保密的。” 這歸根到底關乎信任,也關乎安全。而作為一家創業公司,我們也發現,社會對這種開放透明的期待,比我們最初預想的還要強烈。

這就是具身智能開源模型生態的現狀。這篇文章詳細聊了四個派系:學院派,巨頭,包括了中國公司在內的創業派,以及單獨拎出來講的Physical Intelligence。大家出于不同的目的、在不同程度上參與了開源生態的搭建,確定的是,這樣的生態正在幫助我們進一步突破技術和創新的邊界。

注:部分圖片來源于網絡

【本期節目不構成任何投資建議】

【視頻播放渠道】

國內:B站|騰訊|視頻號|西瓜|頭條|百家號|36kr|微博|虎嗅

海外:Youtube

聯系我們:video@sv101.net

【創作團隊】

監制|泓君 陳茜

撰稿|Vicky

編輯|陳茜 王梓沁

主持 |陳茜

剪輯|橘子

動效|踹

運營|孫澤平 王梓沁

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
羅馬諾:皇馬15天前就得知穆里尼奧可以回歸

羅馬諾:皇馬15天前就得知穆里尼奧可以回歸

懂球帝
2026-04-28 23:17:24
余承東再次向奇瑞董事長,正式道歉

余承東再次向奇瑞董事長,正式道歉

小李車評李建紅
2026-04-29 08:00:03
她用47130條信息,完成對男友的完美殺戮,獲刑2年半緩期10年

她用47130條信息,完成對男友的完美殺戮,獲刑2年半緩期10年

三目觀史
2026-04-28 23:25:17
朝鮮庫爾斯克紀念館正式落地,暴露其在庫爾斯克陣亡的真實人數!

朝鮮庫爾斯克紀念館正式落地,暴露其在庫爾斯克陣亡的真實人數!

阿龍聊軍事
2026-04-29 06:20:12
《乘風2026》 安崎崩潰落淚,蕭薔當場翻臉制止,這才是大女主風范!

《乘風2026》 安崎崩潰落淚,蕭薔當場翻臉制止,這才是大女主風范!

喜歡歷史的阿繁
2026-04-29 14:12:54
奧尼爾談文班亞馬:兩年后他會和約基奇并肩成為聯盟最佳內線

奧尼爾談文班亞馬:兩年后他會和約基奇并肩成為聯盟最佳內線

懂球帝
2026-04-29 10:32:07
我在沙特開餐館娶了3位妻子,回國奔喪一星期,再回去時當場愣了

我在沙特開餐館娶了3位妻子,回國奔喪一星期,再回去時當場愣了

千秋文化
2026-04-28 20:17:01
目無法紀,貪婪無度!任上落馬的原正部級藍天立被公訴,三天三“虎”被處理

目無法紀,貪婪無度!任上落馬的原正部級藍天立被公訴,三天三“虎”被處理

上觀新聞
2026-04-29 12:31:05
特斯拉中國發布大版本固件更新,新增舒適剎車等功能!

特斯拉中國發布大版本固件更新,新增舒適剎車等功能!

XCiOS俱樂部
2026-04-29 13:17:28
美國一學生打斷以色列士兵演講,當眾怒斥以軍:6歲女孩被打335槍,超70000巴勒斯坦人被殺,你們犯下的暴行終將被清算

美國一學生打斷以色列士兵演講,當眾怒斥以軍:6歲女孩被打335槍,超70000巴勒斯坦人被殺,你們犯下的暴行終將被清算

大象新聞
2026-04-28 23:48:20
陳偉霆首認何穗是老婆! 曝妻「生產不太順利」:放不下心中大石

陳偉霆首認何穗是老婆! 曝妻「生產不太順利」:放不下心中大石

ETtoday星光云
2026-04-29 11:08:04
動真格了,國安部出手,揪出鼓吹躺平的境外勢力,評論區意味深長

動真格了,國安部出手,揪出鼓吹躺平的境外勢力,評論區意味深長

譚談社會
2026-04-28 15:10:51
西班牙第一季度失業率為10.83%

西班牙第一季度失業率為10.83%

每日經濟新聞
2026-04-28 15:10:08
迪士尼男子勸煙反被扇臉!賠償金五位數,警方定性,和解也得坐牢

迪士尼男子勸煙反被扇臉!賠償金五位數,警方定性,和解也得坐牢

青梅侃史啊
2026-04-28 11:47:47
車還在,廠沒了,40 萬哪吒車主的尷尬

車還在,廠沒了,40 萬哪吒車主的尷尬

科技狐
2026-04-26 22:54:06
藝考生:砸光父母積蓄,終成“廉價打工人”,誰在制造這場騙局?

藝考生:砸光父母積蓄,終成“廉價打工人”,誰在制造這場騙局?

社會日日鮮
2026-04-27 12:38:49
伊朗伊斯蘭革命衛隊:已實現對霍爾木茲海峽的絕對控制

伊朗伊斯蘭革命衛隊:已實現對霍爾木茲海峽的絕對控制

財聯社
2026-04-28 21:40:55
出大事了,聯合國會場又吵翻,121國抱團力挺伊朗,美國當眾翻臉

出大事了,聯合國會場又吵翻,121國抱團力挺伊朗,美國當眾翻臉

小小科普員
2026-04-28 19:36:37
80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

妍妍教育日記
2026-04-27 09:20:13
19歲男孩喝百草枯苦熬18天,逼在外打工母親回家,母親:你放心去

19歲男孩喝百草枯苦熬18天,逼在外打工母親回家,母親:你放心去

哄動一時啊
2026-03-15 11:29:43
2026-04-29 15:12:49
硅谷101 incentive-icons
硅谷101
從這里駛向未來
171文章數 106關注度
往期回顧 全部

科技要聞

夭折的造富神話,逼著中國AI回去賺"慢錢"

頭條要聞

俄"受制裁"富豪的游艇通過霍爾木茲海峽 或獲美伊默許

頭條要聞

俄"受制裁"富豪的游艇通過霍爾木茲海峽 或獲美伊默許

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節目組2小時

財經要聞

多地藥店違規串換商品套刷醫保揭秘

汽車要聞

配32寸升降屏 新款別克世紀CENTURY上市53.99萬起

態度原創

家居
親子
數碼
游戲
公開課

家居要聞

寂然無界 簡潔風格

親子要聞

5月2日普陀醫院將開展免費骨齡篩查義診活動

數碼要聞

榮耀手表6 Plus開啟預約:1000mAh青海湖大電池,35天續航

夢幻西游2026年520錦衣祥瑞正式亮相 沙子哥炸出暢玩服第一項鏈

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版