亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中國具身模型狂攬全球第一!機器人的人類數(shù)據(jù)時代來了

0
分享至

鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

還得是這屆00后,強得可怕!一出手,具身智能就被“整頓”得底朝天。

當別人還在Sim2Real打轉時,這支00后帶隊的靈初智能,已經(jīng)開始用近10萬小時人類數(shù)據(jù)暴力拆解。

這個數(shù)字就是放到整個行業(yè)里看,也是遙遙領先。

畢竟目前人類操作數(shù)據(jù)集大多還都集中在幾千到幾萬小時量級,最大的也不過是英偉達的EgoScale,包含2萬小時人類第一視角視頻數(shù)據(jù)。

靈初這次直接上了個新臺階,10萬+數(shù)據(jù),其中1000小時還開源。


視頻鏈接:https://mp.weixin.qq.com/s/Dfj0Z1JiMoTjzSCBassL2Q

而且發(fā)布形式也夠潮——直播show time~

AI博主弗蘭克和靈初智能的00后聯(lián)合創(chuàng)始人陳源培,直接手把手給你剖析的那種。(techblog指路:
https://www.psibot.ai/from-human-skill-to-robotic-mastery/)



言而總之,整場直播我們復盤下來,就講兩件事:給具身智能喂什么吃、讓具身智能長什么樣的腦子。

說人話就是,靈初給的,是一條與眾不同的務實路徑——

不整虛的,直接對齊人類數(shù)據(jù),再用Psi-R2Psi-W0雙系統(tǒng)架構平穩(wěn)落地具體場景。

結果也很直觀,靈初Psi-R2迅速登頂MolmoSpace榜單。

MolmoSpace由美國艾倫人工智能研究所(AllenAI)發(fā)起,是全球具身智能領域權威基準評測平臺,NVIDIA、PI等全球頂尖團隊均參與本次評測。

而靈初Psi-R2在評測中一舉超越PI、DreamZero等國際知名模型,表現(xiàn)也顯著優(yōu)于其他基線模型,妥妥的行業(yè)第一梯隊。

在成功率這塊,也比同類VLA模型要高出近10倍。



情況就是這么個情況,靈初一來就整了個大活,具身智能終于迎來首個直接能用的大規(guī)模人類手部操作全模態(tài)數(shù)據(jù)集。

下面就讓我們回到直播間現(xiàn)場,一一復盤拆解。

10萬小時,讓具身智能吃個頂飽

“為啥偏偏具身智能會數(shù)據(jù)荒?”弗蘭克化身觀眾嘴替,率先給出這句經(jīng)典靈魂拷問。

要回答這個問題,首先需要厘清一點,具身智能和自動駕駛、大語言模型這些AI領域存在原生的數(shù)據(jù)差異。

后者基于現(xiàn)實場景和互聯(lián)網(wǎng),長期積累沉淀形成了海量存量數(shù)據(jù),然后通過簡單粗暴的算力Scaling law就能實現(xiàn)性能穩(wěn)步提升。

但具身智能則截然不同,物理世界復雜的情況讓它幾乎沒有可用的成熟數(shù)據(jù)集,也很難像互聯(lián)網(wǎng)產(chǎn)品那樣邊用邊攢數(shù)據(jù)。

可以說,影響具身智能發(fā)展的關鍵之一就是數(shù)據(jù)卡脖子。

那咋辦呢?以靈初在內(nèi)的具身智能公司紛紛將目光投向人類數(shù)據(jù)。



仿真數(shù)據(jù)還需要遷移處理,才能在真實機器人上使用,但人類數(shù)據(jù)就是最優(yōu)秀的參考對象,數(shù)據(jù)量大而且質(zhì)量高。

但事實上,這里也同樣存在一個無法忽視的問題:人類和機器人之間存在本體差異(embodiment gap)。

直接復用顯然不行,機器人必定會出現(xiàn)運動學結構、動力學特性不匹配種種問題。

其次,現(xiàn)有的人類數(shù)據(jù)要直接給到預訓練,也是萬萬不行的。因為要么都是些小規(guī)模開源數(shù)據(jù),要么就是網(wǎng)絡上一些低質(zhì)量的第一人稱視頻。

但除去人類數(shù)據(jù),也幾乎沒有其它更好的路徑可走。靈初給出的判斷是:

具身智能要想面向真實商業(yè)化場景落地,純?nèi)祟悢?shù)據(jù)訓練是必要的。

一方面,使用人類數(shù)據(jù)能夠讓機器人搶先學習到人類一線的標準作業(yè)流程(SOP),而這些都是得到商業(yè)實際驗證過的,即拿即用且行之有效。

換言之,真實場景的無縫銜接能夠將數(shù)據(jù)成本降至最低,比如人類的觸覺數(shù)據(jù)收集成本,就僅為機器人的1/10以下。

另一方面,人類數(shù)據(jù)的SOP也可以使操作速度達到機械臂物理運動上限(如1200),遠超遙操作可達的800,也更適配商業(yè)工廠的高節(jié)拍要求。



所以靈初最終選擇了人類數(shù)據(jù),并造出了首個可用于預訓練的大規(guī)模人類操作數(shù)據(jù)集。

其中,在人類數(shù)據(jù)和機器人數(shù)據(jù)的融合處理中,靈初遵循的是一條化繁為簡的思路:Raw Data In,Raw Data Out(原生數(shù)據(jù)進,原生數(shù)據(jù)出)。

舍棄人工設計的復雜數(shù)據(jù)處理,直接進行人類關節(jié)與機器人本體的運動學對齊,讓模型在海量數(shù)據(jù)中自行探索。另外,Auto Labeling也會替代人工進行數(shù)據(jù)質(zhì)檢和標注,最后再交由人工審核。

最終模型預訓練使用的數(shù)據(jù)集將包括真機數(shù)據(jù)(5417小時)和人類數(shù)據(jù)(95472小時)兩部分,總計10萬小時數(shù)據(jù)。

目前其中1000小時已開源,到年底整個數(shù)據(jù)集還將Scaling到百萬量級。

具體來講,人類數(shù)據(jù)包括靈初自研外骨骼手套采集數(shù)據(jù)與裸手操作數(shù)據(jù),覆蓋294種場景、4821種任務與1382種物體。



至于為什么要強調(diào)觸覺數(shù)據(jù)呢?歸根結底,還是為了更好地彌補人機之間的embodiment gap。

雖然人類與機器人在多個方面差異明顯,但二者在接觸信號上卻保持了驚人的高度一致,能夠有效補償動力學差異,以及在顯著提升世界模型能力的同時,還能更好地預測機器人與物體之間的交互情況。

這樣一整套高質(zhì)量數(shù)據(jù)預訓練下來,機器人的泛化能力、長流程操作能力和操作精度都會有所突破,后續(xù)也僅僅只需要不到100條軌跡的真機數(shù)據(jù)就能完成微調(diào)。

另外值得關注的是,靈初在此期間,還發(fā)現(xiàn)了另一處華點:

數(shù)據(jù)信噪比才是決定人類數(shù)據(jù)能否有效支撐預訓練的核心因素。低信噪比的數(shù)據(jù)甚至還會起到反作用。

如果要想判斷數(shù)據(jù)信噪比,可以從兩方面看:

1、數(shù)據(jù)集分布:操作任務多樣性>物體多樣性>>場景多樣性。

泛化能力其實是模型最難學會的能力之一,但如果在預訓練階段可以見到更多任務和操作對象,自然而然模型接手新任務速度就越快。

2、感知模態(tài):精準3D位姿>>觸覺模態(tài)>2D圖像特征。

在全模態(tài)信息中,人手全域3D位姿追蹤是2D到3D模型轉化的關鍵,也和機器人動力學特性匹配度最高。



簡單來說,靈初認為無論是精準采集的可復現(xiàn)數(shù)據(jù),還是舍棄部分精度的粗糙泛化數(shù)據(jù),都缺一不可。

二者相互補充,既保證模型精度又確保泛化。

具身智能長出雙系統(tǒng)新腦

所以基于以上認知,靈初全新發(fā)布Psi雙系統(tǒng)架構——Psi-R2Psi-W0。



先看Psi-R2,這是一款能讓機器人學習人類做事的模型,核心就是靠這10萬+的海量數(shù)據(jù),學會精細操作。

圖像和語言指令將作為輸入,輸出預測的未來操作視頻和可執(zhí)行動作,所以Psi-R2可以稱之為世界行動模型(WAM)。

其中訓練骨干網(wǎng)絡選用Wan2.2-IT2V-5B-480P,預訓練階段同步使用真機數(shù)據(jù)和人類數(shù)據(jù),還搭建了一套完整的數(shù)據(jù)處理流程,從數(shù)據(jù)清洗、自動標注,到質(zhì)量檢測、人工核對,Psi-W0還會幫忙檢查數(shù)據(jù)質(zhì)量。

同時,采用專門技術精準捕捉人類手部動作軌跡,比如通過外骨骼手套,將動作誤差控制在亞毫米級,以確保人類的操作細節(jié)能被機器人精準模仿。


視頻鏈接:https://www.psibot.ai/from-human-skill-to-robotic-

但WAM模型架構普遍存在一個bug——反應慢。單次推理要2.2秒,反映到機器人身上,就是明顯的卡頓。

于是靈初通過DiT緩存、Torch編譯、模型量化等多項技術優(yōu)化,把反應時間極限壓縮到了100毫秒以內(nèi)。

再看Psi-W0,它和Psi-R2的基礎架構相似,但分工完全不同。Psi-R2是學習怎么做,Psi-W0是協(xié)助做得更好。

首先它和Psi-R2一樣,都是基于預訓練視頻生成模型構建的,但在Psi-W0里,機器人動作是輸入,輸出的是對未來場景視頻的預測,所以Psi-W0也被定義為動作條件型世界模型(AC-WM)。

這里就引出了另一個問題:Psi-R2也能輸出預測,那為什么還要做Psi-W0?

答案很簡單,為了反事實推理。Psi-R2學到的只有成功的操作,比如成功抓起蘋果,但沒有辦法預測到蘋果抓不穩(wěn)這類失敗情況。

但老話說得好,失敗是成功之母,機器人亦是如此。失敗經(jīng)驗能夠幫助機器人避開錯誤、優(yōu)化動作,Psi-W0就是專門負責填補這部分空白。

具體來講,兩個模型的訓練骨干和數(shù)據(jù)格式都是一致的,只是在Psi-W0的訓練數(shù)據(jù)中額外加入了30%的失敗樣本。


視頻鏈接:https://www.psibot.ai/from-human-skill-to-robotic-

顯然,Psi-R2和Psi-W0并非孤立存在,而是彼此之間協(xié)同配合。當Psi-R2學完人類操作后,Psi-W0就會模擬人類操作場景,讓Psi-R2再演練一遍,也就是進行策略評估,檢查它有沒有學漏學歪。

Psi-W0還有一項核心功能,是通過強化學習將人類數(shù)據(jù)轉換為機器人數(shù)據(jù)。

傳統(tǒng)方法中,數(shù)據(jù)轉換靠的是仿真環(huán)境調(diào)整,不僅復雜而且準確性不高。但用Psi-W0替代后,它就會模擬機器人視角和動作模式,再通過強化學習的試錯調(diào)優(yōu),將人類動作調(diào)整為機器人能精準執(zhí)行的動作。



更厲害的是,在這個過程中還能持續(xù)生成新的優(yōu)質(zhì)數(shù)據(jù),當把這些數(shù)據(jù)反向喂給Psi-R2和Psi-W0繼續(xù)學習,就能構成閉環(huán)數(shù)據(jù)飛輪

當然也可以故意給Psi-W0進行隨機擾動以模擬部分特殊場景,然后再生成目標場景和訓練數(shù)據(jù)。

高質(zhì)量數(shù)據(jù)滋養(yǎng)模型高性能,模型場景落地反哺數(shù)據(jù)擴充。于是自然而然,輪子飛起來了。

最終整套系統(tǒng)能夠實現(xiàn)長程任務自主規(guī)劃、任務自主恢復和適配多場景復雜任務。

開源是最高效的落地杠桿

回看整場直播,無論是弗蘭克還是陳源培聊的內(nèi)容,其實貫穿技術始終的都是同一個關鍵詞——落地。

弗蘭克站在觀眾角度,好奇什么時候具身智能才能落地。陳源培則站在廠商視角,給出了靈初智能的落地方案:

技術端,從大規(guī)模的真實人類數(shù)據(jù)采集,再到實際應用中的具身模型,無一不是從切實的落地場景中出發(fā)構建。

應用端,靈初智能也同時宣布要和北京石景山共建數(shù)采廠,以及和騰訊云、抖音、覓蜂、智域基石達成生態(tài)合作。



不難看出,靈初這家公司從誕生之初的DNA就是聚焦技術落地、提供通用全棧技術。它的每一步都在驗證一個行業(yè)共識:

具身智能從誕生之初就錨定的終點,絕非實驗室,而是每一個具體可感的復雜場景。而這恰恰才是檢驗具身智能的標準所在。

在通往落地的過程中,靈初也率先意識到,單打獨斗并非最優(yōu)解,開源是必要的。

對于它們自身而言,只有開源,才能讓全行業(yè)幫助他們快速采集海量數(shù)據(jù),才能彌補上這套數(shù)據(jù)飛輪體系中的關鍵一環(huán)。

而且AI時代,時間和數(shù)據(jù)就是最稀缺的黃金資源。越早進場、擁有越多數(shù)據(jù),就能搶先收獲長尾效益。

再放眼整個行業(yè),開源不僅是情懷,也是打破技術封閉孤島的鑰匙。它能夠建立起廣袤的開發(fā)者生態(tài),通過標準化的數(shù)據(jù)管線和預訓練底座,讓具身智能不再是孤立的廠商個體。

而全行業(yè)開源共建,還能反向喂養(yǎng)靈初這類硬核玩家,讓他們集中精力攻堅最難的技術瓶頸。集眾智,才是具身智能跑贏節(jié)拍、實現(xiàn)商業(yè)落地的唯一捷徑。



而靈初無疑是當中走得最快最穩(wěn)的一位明星選手。

最后化用一句老話,用來描述我眼中的靈初智能——有仰望星空的勇氣,亦有腳踏實地的努力。

具身智能正在因這場青春風暴而面目一新。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

岐黃傳人孫大夫
2026-03-17 23:25:03
別再傳“蒙古國防中國”了!南邊連草都不長,讓人怎么???

別再傳“蒙古國防中國”了!南邊連草都不長,讓人怎么?。?/a>

起喜電影
2026-04-15 18:57:22
2.4萬億元,一個人怎么能闖出這么大的禍…

2.4萬億元,一個人怎么能闖出這么大的禍…

蔥哥說
2026-04-14 22:04:16
孫楊官宣有娃僅1天,妻子私生活被扒底朝天,令人擔心的事出現(xiàn)了

孫楊官宣有娃僅1天,妻子私生活被扒底朝天,令人擔心的事出現(xiàn)了

圓夢的小老頭
2026-04-15 15:00:48
丹麥把旅居臺灣民眾居留證國籍、出生地登記改為中國,國臺辦回應

丹麥把旅居臺灣民眾居留證國籍、出生地登記改為中國,國臺辦回應

新京報
2026-04-15 11:21:58
國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
豪斯+兩內(nèi)救了張慶鵬!北控戰(zhàn)績壓廣州1勝場,再贏2場鎖季后賽!

豪斯+兩內(nèi)救了張慶鵬!北控戰(zhàn)績壓廣州1勝場,再贏2場鎖季后賽!

籃球資訊達人
2026-04-15 22:35:17
張本主動讓核心!松島輝空淡定發(fā)言逗笑全場,日乒男團沖冠有新招

張本主動讓核心!松島輝空淡定發(fā)言逗笑全場,日乒男團沖冠有新招

峰云峰雨
2026-04-14 18:52:15
NFC、FC、HPP……哪種才是100%真果汁?

NFC、FC、HPP……哪種才是100%真果汁?

混知
2026-03-24 17:07:26
李國慶張丹紅吃剩菜還不忘開會,互相指責太真實,生活習慣差異大

李國慶張丹紅吃剩菜還不忘開會,互相指責太真實,生活習慣差異大

嫹筆牂牂
2026-04-15 08:01:48
妻子偷偷給情夫轉六百萬,丈夫直接裝傻報警:錢丟了,妻子當場崩潰

妻子偷偷給情夫轉六百萬,丈夫直接裝傻報警:錢丟了,妻子當場崩潰

奶茶麥子
2026-04-15 15:46:05
許家印認罪!南京恒大爛尾項目,何去何從?

許家印認罪!南京恒大爛尾項目,何去何從?

地產(chǎn)銳評
2026-04-15 16:45:53
青澀的愛:那時候的我們,連牽手都要鼓起勇氣

青澀的愛:那時候的我們,連牽手都要鼓起勇氣

疾跑的小蝸牛
2026-04-15 20:43:41
日本全面叫停種植牙?種牙潛藏的風險與后遺癥,一次為你講明白

日本全面叫停種植牙?種牙潛藏的風險與后遺癥,一次為你講明白

垚垚分享健康
2026-04-11 08:51:57
范志毅任上海足協(xié)副主席,和上綜藝賺錢兩不誤,3婚與嬌妻很幸福

范志毅任上海足協(xié)副主席,和上綜藝賺錢兩不誤,3婚與嬌妻很幸福

君笙的拂兮
2026-04-14 22:57:41
13歲男孩被老人私拴繩索割喉,已脫離生命危險,但仍有一段氣管未能找到……他成績?nèi)G叭?,母親白血病加乳腺癌,網(wǎng)友已籌款超60萬

13歲男孩被老人私拴繩索割喉,已脫離生命危險,但仍有一段氣管未能找到……他成績?nèi)G叭?,母親白血病加乳腺癌,網(wǎng)友已籌款超60萬

極目新聞
2026-04-14 22:38:03
劉雨鑫吃了6000家餐廳、走遍幾十個國家,他的錢其實就3個來源

劉雨鑫吃了6000家餐廳、走遍幾十個國家,他的錢其實就3個來源

老吳教育課堂
2026-04-14 07:44:56
順峰餐廳北京門店全部關閉:司法糾紛不斷,消費者上萬儲值打水漂?

順峰餐廳北京門店全部關閉:司法糾紛不斷,消費者上萬儲值打水漂?

北京商報
2026-04-15 20:03:10
臺海觀察:十項涉臺新政充滿誠意善意,島內(nèi)期盼惠及各行各業(yè)

臺海觀察:十項涉臺新政充滿誠意善意,島內(nèi)期盼惠及各行各業(yè)

上觀新聞
2026-04-15 06:55:05
太陽慘遭大逆轉!布克反思屢遭翻盤:領先就浪,怨我罰球太爛

太陽慘遭大逆轉!布克反思屢遭翻盤:領先就浪,怨我罰球太爛

仰臥撐FTUer
2026-04-15 22:24:02
2026-04-15 23:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12476文章數(shù) 176450關注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

豫劇團下鄉(xiāng)演出臺下觀眾痛哭流涕:觀眾超千人一半落淚

頭條要聞

豫劇團下鄉(xiāng)演出臺下觀眾痛哭流涕:觀眾超千人一半落淚

體育要聞

三球準絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

家居
教育
旅游
房產(chǎn)
軍事航空

家居要聞

簡而不減 暖居之道

教育要聞

千城百縣看中國|山東定陶:創(chuàng)意滿格大課間

旅游要聞

美翻了!成都植物園100余種月季迎來盛花期

房產(chǎn)要聞

重磅調(diào)規(guī)!341畝商改住+中小學用地!寶龍城這把穩(wěn)了?

軍事要聞

萬斯:對當前美伊局勢進展“感到樂觀”

無障礙瀏覽 進入關懷版