![]()
作者 | 樊雅婷
郵箱 | fanyating@pingwest.com
We are approaching the endgame for robotics.And this is just a beginning.
Genesis AI 在X上說(shuō)我們正在接近機(jī)器人技術(shù)的終極階段。
雖然現(xiàn)在僅僅是開(kāi)始,但也已經(jīng)開(kāi)始。
5月6日,Genesis AI發(fā)布首個(gè)機(jī)器人基礎(chǔ)模型GENE-26.5,能以1倍真實(shí)世界速度,在烹飪、移液、解魔方、線束組裝等高難度任務(wù)中展現(xiàn)雙手精細(xì)操作、工具使用與多物體協(xié)同能力。
在demo里,GENE-26.5能做番茄炒蛋、制作奶昔、實(shí)現(xiàn)精細(xì)實(shí)驗(yàn)步驟、幫忙插吸管,甚至還能彈鋼琴,這一套下來(lái),GENE-26.5已經(jīng)打敗許多真實(shí)人類(lèi)。
視頻里,蛋液流手上了還知道用抹布擦,居然還有摩挲的動(dòng)作,高度類(lèi)人。就好像它是一個(gè)愛(ài)干凈的人類(lèi),在確認(rèn)到底“擦干凈了沒(méi)有”。
如果說(shuō)大語(yǔ)言模型在文本知識(shí)的處理上已對(duì)人類(lèi)形成碾壓,那么GENE-26.5的發(fā)布,則預(yù)示著這種差距正從認(rèn)知維度向物理的操作維度蔓延。
它能做到你做不到的事情,全能腦又進(jìn)化到靈巧手。
![]()
其實(shí)這家公司的名字很多人可能聽(tīng)過(guò)。2024年底,一個(gè)叫Genesis的開(kāi)源物理引擎在GitHub上炸開(kāi)了鍋——用一句話就能生成完整的4D物理世界,成了GitHub上最大的具身智能開(kāi)源項(xiàng)目。當(dāng)時(shí)的項(xiàng)目牽頭人是周銜,卡內(nèi)基梅隆大學(xué)機(jī)器人學(xué)博士,師從Katerina Fragkiadaki教授,研究方向涵蓋世界模型、模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。
2024年12月,周銜與同樣畢業(yè)于CMU的Théophile Gervet——前Mistral AI多模態(tài)模型負(fù)責(zé)人、Skild AI創(chuàng)始成員,共同創(chuàng)立了Genesis AI。2025年7月,公司宣布完成1.05億美元種子輪融資,由Khosla Ventures和Eclipse聯(lián)合領(lǐng)投,谷歌前董事長(zhǎng)Eric Schmidt、歐洲科技大亨Xavier Niel、法國(guó)國(guó)家投資銀行BPI以及紅杉中國(guó)等參投。這個(gè)數(shù)字創(chuàng)下了硅谷具身智能行業(yè)種子輪融資紀(jì)錄,也是硅谷歷史上華人團(tuán)隊(duì)完成的最大規(guī)模種子輪。創(chuàng)始團(tuán)隊(duì)約20人,平均年齡不到28歲。
融資之后,沉默了將近一年。
5月6日,他們終于交出了第一份答卷。
1
一、物理世界操作的數(shù)字記錄
回到GENE-26.5產(chǎn)品本身,對(duì)于這些測(cè)試場(chǎng)景,官方從spatial precision(空間精度) 、temporal composition(時(shí)間編排)、contact richness(接觸豐富度)、contact coordination(接觸協(xié)同度)、tool-mediated interaction(工具中介交互)五個(gè)維度進(jìn)行評(píng)估。不難發(fā)現(xiàn),即使是一些高難度的場(chǎng)景,這只手都有很好的表現(xiàn)。
![]()
沒(méi)有人不被這次的Demo視頻吸引。這不奇怪,過(guò)去我們看了那么多機(jī)器人笨拙的走路、無(wú)法協(xié)調(diào)的身體、或者在真實(shí)場(chǎng)景下慢得像0.5倍速播放的混亂畫(huà)面。GENE-26.5的流暢,是扎眼的。更何況它既能切菜、做實(shí)驗(yàn)還能彈鋼琴,使用場(chǎng)景不僅豐富,還兼顧藝術(shù)和實(shí)用。
但這種流暢是怎么做到的,又如何實(shí)現(xiàn)操作智能的規(guī)模化?官方給出了詳解。
先看數(shù)據(jù)。大語(yǔ)言模型和多模態(tài)模型走到今天,靠的是吃不完的文本和圖片。那是萬(wàn)億級(jí)的數(shù)據(jù)盛宴。
操作智能面對(duì)的是另一張桌子。Genesis在技術(shù)博客開(kāi)篇給了一個(gè)數(shù)字:超過(guò)80%的體力勞動(dòng)是搬運(yùn)和操作,但這些技能幾乎沒(méi)有任何數(shù)字化記錄。
一個(gè)流水線工人怎么擰螺絲、一個(gè)廚師怎么翻鍋、一個(gè)實(shí)驗(yàn)室技術(shù)員怎么移液,這些行為沒(méi)有被系統(tǒng)地記錄下來(lái)。過(guò)程里有擰螺絲的調(diào)整、翻鍋時(shí)火候的把握,以及移液時(shí)周邊環(huán)境的差異,這些都是很難記錄的。
如果去刻意記錄,采集數(shù)據(jù)這件事本身也會(huì)干擾工作。
就像你給工人戴上一副復(fù)雜的數(shù)據(jù)手套,他的動(dòng)作立刻變了,效率不僅會(huì)降,擰螺絲的手感也被分走了。采集到的,已經(jīng)不是原來(lái)那個(gè)動(dòng)作了。
![]()
1
二、數(shù)據(jù)引擎:三條線覆蓋帕累托前沿
但Genesis說(shuō)"數(shù)據(jù)采集不能改變被采集者的行為"。
所以怎么做?答案是三條數(shù)據(jù)線同時(shí)跑。
第一,手套數(shù)據(jù)。自己做一副數(shù)據(jù)采集手套,用電磁場(chǎng)追蹤指尖位置,手掌和手指覆蓋密集觸覺(jué)傳感器。這副手套的設(shè)計(jì)目標(biāo)很明確:盡量不干擾正常操作。人們戴著它干活,動(dòng)作不需要改變,數(shù)據(jù)自然就流進(jìn)來(lái)了。這是高質(zhì)量、低數(shù)量的線。
第二,以自我為中心的視頻。頭戴攝像頭的第一視角拍攝。這種數(shù)據(jù)精度不如手套,但能捕捉到真實(shí)環(huán)境里的任務(wù)多樣性,而且采集成本極低。這是中等質(zhì)量、中等數(shù)量的線。
第三,互聯(lián)網(wǎng)視頻。YouTube上做飯的視頻、修東西的視頻、工廠操作的教學(xué)視頻。精度最低,但規(guī)模幾乎無(wú)限。這是低質(zhì)量、海量數(shù)量的線。
三條線一起,覆蓋了數(shù)據(jù)質(zhì)量-數(shù)量的帕累托前沿。
![]()
1
三、硬件不是下游環(huán)節(jié),是數(shù)據(jù)的關(guān)鍵
市面上大多數(shù)機(jī)器人公司不造手。他們用采購(gòu)來(lái)的硬件,在上面寫(xiě)軟件。
Genesis則反過(guò)來(lái)。
原因不復(fù)雜。人戴著手套采集到的動(dòng)作數(shù)據(jù),要喂給機(jī)械手去執(zhí)行。如果這兩只手長(zhǎng)得不一樣——手指長(zhǎng)度差一截,關(guān)節(jié)活動(dòng)角度對(duì)不上,表面一個(gè)硬一個(gè)軟——數(shù)據(jù)從人手傳到機(jī)器手,中間必須經(jīng)過(guò)一道翻譯。翻譯就一定有損耗。手指角度對(duì)不齊,力控方式變了,觸覺(jué)反饋傳不過(guò)去。采集得再精細(xì),執(zhí)行端已經(jīng)走樣了。
所以他們自己造了一只。Genesis Hand 1.0,20個(gè)自由度,直驅(qū),可反向驅(qū)動(dòng)。尺寸跟真人手1:1匹配。手掌和手指表面覆蓋柔軟材料,模擬人皮膚的接觸物理特性。
1:1尺寸匹配意味著人手怎么動(dòng),機(jī)械手就怎么動(dòng),數(shù)據(jù)和部署之間是同構(gòu)的。軟材料意味著接觸物理特性跟人手接近,人拿起一個(gè)雞蛋的力道,機(jī)械手拿起來(lái)也是差不多的力道。用他們官方的說(shuō)法,這叫“近無(wú)損信息傳遞”。
這條邏輯鏈很清楚:硬件的仿生程度,直接決定了人類(lèi)數(shù)據(jù)能不能被模型完整吸收。硬件不是模型的配角,它是數(shù)據(jù)管道的第一環(huán)。
![]()
圖為Genesis Hand 1.0
1
四、模型架構(gòu):把所有東西放進(jìn)一個(gè)聯(lián)合分布
有了數(shù)據(jù),第二個(gè)問(wèn)題是怎么訓(xùn)練。
大多數(shù)機(jī)器人模型是模塊化的。一個(gè)模型處理視覺(jué),一個(gè)模型處理語(yǔ)言指令,一個(gè)模型輸出動(dòng)作。模塊之間要對(duì)齊,對(duì)齊就有信息損耗。
Genesis的做法又不一樣。他們的目標(biāo)是學(xué)習(xí)一個(gè)統(tǒng)一的聯(lián)合分布,把所有東西放進(jìn)去:語(yǔ)言、視覺(jué)、本體感覺(jué)、觸覺(jué)、動(dòng)作。用流匹配來(lái)建模軌跡上的聯(lián)合分布,同時(shí)保留時(shí)間維度的耦合關(guān)系。
這個(gè)東西的實(shí)用效果是你在訓(xùn)練的時(shí)候不需要顯式地對(duì)齊不同模態(tài)。模型自己學(xué)會(huì)了——當(dāng)視覺(jué)出現(xiàn)某個(gè)模式、觸覺(jué)出現(xiàn)某個(gè)模式的時(shí)候,對(duì)應(yīng)的動(dòng)作應(yīng)該是什么。缺失的模態(tài)可以通過(guò)去噪來(lái)推斷。
而且這個(gè)聯(lián)合分布可以靈活地接入外部模型。VLM(視覺(jué)語(yǔ)言模型)給它提供語(yǔ)義理解,世界模型(動(dòng)作條件視頻生成)給它提供物理預(yù)測(cè)能力。聯(lián)合分布同時(shí)吸收這兩者,但不依賴(lài)其中任何一個(gè)。
![]()
1
五、評(píng)估的縮放:為什么2700小時(shí)能只用仿真
模型練出來(lái)了,下一步是判卷子。但判卷子比出卷子更耗時(shí)。
Genesis給了一個(gè)數(shù)字:如果在真實(shí)世界里跑完所有評(píng)估,需要人-機(jī)器人交互2700個(gè)小時(shí)。這在物理上幾乎不可行。
于是他們把考場(chǎng)搬進(jìn)了仿真環(huán)境。Genesis World,他們打磨了一年多,能模擬光照變化、背景替換、物體屬性偏移、場(chǎng)景配置重組。每個(gè)數(shù)據(jù)點(diǎn)背后是200套評(píng)估設(shè)置、超過(guò)150小時(shí)的機(jī)器人執(zhí)行時(shí)間,仿真把它壓縮到了可操作的范圍里。
關(guān)鍵發(fā)現(xiàn)是:預(yù)訓(xùn)練數(shù)據(jù)規(guī)模越大,模型在從未見(jiàn)過(guò)的新場(chǎng)景里表現(xiàn)越好。這條曲線,跟大語(yǔ)言模型的縮放規(guī)律長(zhǎng)得一樣。更大的模型、更多的數(shù)據(jù)、更多的算力,驗(yàn)證損失持續(xù)降低。
或許這才是他們真正想讓行業(yè)看到的東西。一條在仿真里初步成立的Scaling Law曲線,在真實(shí)物理世界里被復(fù)現(xiàn)。
官方還提到:在即將到來(lái)的版本中,他們將分享關(guān)于Genesis World的更新,以及如何在模擬和現(xiàn)實(shí)世界中的模型評(píng)估之間建立強(qiáng)大的相關(guān)性。
In our upcoming release, we will share an exciting update on Genesis World and how we establish strong correlation between model evaluation in simulation and real world.
![]()
1
結(jié)語(yǔ)
融資之后,沉默一年。Genesis再次露面,直接往物理世界扔了一只手。
自己設(shè)計(jì)的數(shù)據(jù)手套,自己造的機(jī)械手,自己寫(xiě)的控制器,自己搭的仿真環(huán)境。這套全棧系統(tǒng)讓Genesis擁有了極高的控制力。
但也有些問(wèn)題需要進(jìn)一步解答。例如它能多大程度地適應(yīng)現(xiàn)實(shí)世界的詳細(xì)場(chǎng)景?又例如在產(chǎn)品形態(tài)上,能不能再imaginative一點(diǎn),不再只是實(shí)驗(yàn)室里的一只機(jī)械手?
大語(yǔ)言模型走到今天,底層是一條被反復(fù)驗(yàn)證過(guò)的信念:更大模型、更多數(shù)據(jù),性能就會(huì)一直漲。這是LLM的Scaling Law,行業(yè)信它,資本也信它。但物理世界還沒(méi)有摸到屬于自己的那條線。
事實(shí)上,世界模型至今仍是一個(gè)混沌的戰(zhàn)場(chǎng)。所有人都在搶入場(chǎng)券,卻沒(méi)幾個(gè)人能說(shuō)清它到底是什么。
但GENE-26.5的出現(xiàn)可能會(huì)改變這件事。它用一只仿生手,一套仿真引擎,把理解物理世界這個(gè)模糊命題錨定到了更加具體、且可評(píng)測(cè)的維度上。它讓規(guī)模化看起來(lái)不再是口號(hào)。Genesis World的評(píng)估結(jié)果,也許正是物理世界Scaling Law最早的信號(hào),也可能不是。時(shí)間會(huì)給出答案。
但不管怎樣,這套全棧系統(tǒng)瞄準(zhǔn)的方向是清楚的,就是讓機(jī)器人在物理世界里像人一樣感知、適應(yīng)、操作,而不是在預(yù)設(shè)腳本里重復(fù)。
![]()
點(diǎn)個(gè)“愛(ài)心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.