无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

走進數(shù)采工廠:深聊機器人數(shù)據(jù)荒漠、四層金字塔與種樹人

0
分享至

文 | 硅谷101

當Scaling Law讓大語言模型一路狂飆,用萬億參數(shù)涌現(xiàn)一代又一代更強大的智能之際,機器人領(lǐng)域卻被數(shù)據(jù)荒漠所困,讓具身智能的泛化性和自主性進展遲緩。


為什么AI能用的數(shù)據(jù),機器人用不了?機器人的四層數(shù)據(jù)金字塔是如何運作的?每一層的進展和技術(shù)困境分別是什么,以及,我們?nèi)绾尾拍芙鉀Q機器人的數(shù)據(jù)難題呢?

這篇文章繼續(xù)我們的“機器人專輯”,之前我們已經(jīng)講過了靈巧手、機器人閉源模型和開源模型,這一期我們來聊聊這個領(lǐng)域一個非常核心的部分:數(shù)據(jù)。

為此,我們飛到上海,走進了機器人數(shù)采工廠,甚至有機會親自嘗試了一下“遙操作采集員”這份工作。除此之外,我們也跟智元、Sharpa等機器人公司們一起深入聊了聊,當前機器人數(shù)據(jù)的技術(shù)路線以及未來發(fā)展。

稀缺的機器人數(shù)據(jù),真實缺口有多大?

首先我們來回答一個問題:什么是機器人數(shù)據(jù)?它跟AI大語言模型,以及圖片和視頻模型的數(shù)據(jù)有什么不同呢?

大語言模型是靠“吃掉互聯(lián)網(wǎng)”變聰明的。GPT-4的訓練數(shù)據(jù)量以萬億token計,相當于把人類有記錄的知識積累全部攝入。

簡單來說,AI生文、生圖以及生聲音、生視頻的模型參數(shù)都可以在互聯(lián)網(wǎng)上找到。大語言模型用的是“世界的文本語言”,包括文本、代碼以及標注過的結(jié)構(gòu)化文本,來幫助AI理解和生成“語言序列”。類似的,圖像模型用的是“世界的瞬間截圖”,聲音模型用的是“世界的震動信號”,而視頻模型用的是“世界的連續(xù)變化”,而這些數(shù)據(jù),都大量存在互聯(lián)網(wǎng)上。

而機器人需要的數(shù)據(jù)是具身本體在真實物理世界里,和具體物體發(fā)生具體交互時產(chǎn)生的多維度傳感器信號:視覺、力覺、關(guān)節(jié)位置、電機控制量,全部精確同步,時間戳對齊,才構(gòu)成一條有用的訓練軌跡。

這些信息從來沒有被系統(tǒng)性地記錄過,也沒有任何理由會被被動產(chǎn)生。


姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 機器人完整的數(shù)據(jù),包括各種傳感器所帶來的數(shù)據(jù),有視頻,還有力觸覺傳感器等。它的輸出是對身體上每一個電機關(guān)節(jié)的控制量,能夠控制全身多達幾十個自由度的關(guān)節(jié)協(xié)調(diào)配合,去完成具體的任務(wù)。 它的難點就在于這些數(shù)據(jù)天然是不存在互聯(lián)網(wǎng)上的,它需要我們以某種方式去采集,無論是在真實環(huán)境里采集,還是在虛擬世界里采集,都需要先布設(shè)機器人、搭建場景,再引入遙操人員來控制機器人采集這類數(shù)據(jù)。


張凱峰 Sharpa研究科學家、學術(shù)負責人 我覺得數(shù)據(jù)最大的難點在于我們沒有辦法采集到機器人自己在干活的數(shù)據(jù),我們能采集到的其實是人在操作的數(shù)據(jù),比如動作捕捉(MOCAP data),比如YouTube數(shù)據(jù)。所以要做好teleoperation(遙操)、讓機器人自己去操作其實比較困難,主要原因是機器操作員是感受不到機器人的感受。

這就是整個行業(yè)數(shù)據(jù)困境的根源:每一條高質(zhì)量數(shù)據(jù)都必須從零開始生產(chǎn)。我們來用幾個數(shù)字,試圖展示一下這個缺口有多大。

谷歌DeepMind在研發(fā)機器人模型RT系列第一代時,調(diào)動了13臺機器人,在辦公室廚房環(huán)境里持續(xù)采集了整整17個月,才積累了約13萬條操作軌跡、覆蓋700多項技能。

為了訓練RT-2,谷歌聯(lián)合了全球34所研究機構(gòu),把60個已有數(shù)據(jù)集全部合并,加上來自22種機器人平臺的真機數(shù)據(jù),才湊出了Open X-Embodiment,一個包含超過100萬條操作軌跡的開源數(shù)據(jù)集。


這已經(jīng)被認為是目前全球最大的跨機構(gòu)真機數(shù)據(jù)集,但即便如此,它涵蓋的527項技能和對應的場景,和現(xiàn)實世界的需求之間,依然是以數(shù)量級計的差距。

面對如此難獲得的機器人數(shù)據(jù),怎么辦呢?如今,行業(yè)摸索出了四條并行路線。它們的質(zhì)量從低到高排列,構(gòu)成一個金字塔,每一層都有自己的優(yōu)勢、上限和真實代價,接下來我們來一層一層給大家拆解。

數(shù)據(jù)金字塔頂層,準確但昂貴的真機數(shù)據(jù)

金字塔的頂層,就是遙操數(shù)據(jù),又被稱為“真機數(shù)據(jù)”。操作員通過外骨骼或遙操系統(tǒng),實時控制機器人在真實場景里完成操作,機器人所有傳感器全程錄制。這層數(shù)據(jù)信息最完整,真實的物理接觸、真實的不確定性、真實的失敗和恢復,是今天讓機器人真正能在現(xiàn)實場景落地的核心原材料。

我們也正好有機會來到上海,走進智元機器人的數(shù)據(jù)采集工廠,看看真機數(shù)據(jù)是怎么采集的。

姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 我們這里有200臺機器,每臺機器至少配一個采集員,有些任務(wù)還會配備一位同事來搭配布置場景。

但你以為遙操員是一個很簡單的工作嗎?答案是:并不是。反正我們在現(xiàn)場試了一下,發(fā)現(xiàn)這個工作還是很有門檻的。

陳茜 硅谷101聯(lián)合創(chuàng)始人 一個數(shù)據(jù)采集員,他需要什么樣的資質(zhì)才能把這個數(shù)據(jù)采集好呢?
姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 我覺得最重要的是天賦,好的數(shù)據(jù)采集員和差的數(shù)據(jù)采集員,效率可能相差3倍。我認為一個有天賦的數(shù)據(jù)采集員,首先是協(xié)調(diào)性非常好、空間感特別強的人。因為在采集數(shù)據(jù)的過程中,其實是在隔空控制另外一個身體,沒有直觀的觸覺反饋,只能通過肉眼來閉環(huán)。機器人手臂和人手臂的構(gòu)型也不一樣,人能達到的很多姿態(tài),機器人未必能夠到,所以還要預判機器人怎樣才能更高效地夠到目標,再去設(shè)計自己的動作軌跡。其次是對空間的精度判斷要很準,如果空間感差,明明想讓機器人去抓,結(jié)果抓過了,或夠不到,或一夾就滑,這種情況都非常常見。還有就是體力要好,一天下來其實非常辛苦。
智元機器人采集員 有些人是站著采的,有些人坐著采,兩種感覺不一樣。
陳茜 硅谷101聯(lián)合創(chuàng)始人 從剛?cè)腴T的一個采集員到你這樣的金牌采集員需要多長時間?
智元機器人采集員 入職需要一周培訓時間,培訓完先入門,之后任務(wù)難度逐級遞加。
姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 即使是有天賦的采集員,從零基礎(chǔ)到九成功力,大概也要一個月。Zero to hero(從平凡到英雄),要一個月吧。

對于一個專業(yè)的金牌數(shù)據(jù)采集員來說,我剛才失敗了N次的機器人擺放字母的任務(wù),他一次就搞定了,而這樣的數(shù)據(jù)采集,為的就是機器人的精確控制能力。但就算是專家水平的遙操員,也不是每一條都可以被算作是有效數(shù)據(jù)的。

陳茜 硅谷101聯(lián)合創(chuàng)始人 人類遙操數(shù)據(jù)的成功率是多少?任務(wù)難易程度不一樣可能也會影響,我很好奇這個效率怎么算?
姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 一個專業(yè)遙操員,8小時工作大概能平均產(chǎn)出2到3小時的有效數(shù)據(jù)。因為中間必然會涉及兩個采集之間的場景布置、數(shù)據(jù)上傳,以及操作失敗后的丟棄和重試。
陳茜 硅谷101聯(lián)合創(chuàng)始人 所以就大概1/ 4。

所以,真機數(shù)據(jù)的優(yōu)勢是準確,更容易直接部署、后期調(diào)參成本也更低,但它的代價也非常直白:貴,并且慢,不容易指數(shù)級擴張。

數(shù)采工廠涉及到硬件成本、場地成本、人工標注和監(jiān)督成本,以及時間成本,與互聯(lián)網(wǎng)數(shù)據(jù)相比,規(guī)模完全不是一個量級。

姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 我們今年真機產(chǎn)能有200萬小時,對應著接近2000臺機器人和背后規(guī)模相當?shù)牟杉瘑T團隊。
陳茜 硅谷101聯(lián)合創(chuàng)始人 這個規(guī)模會越來越大嗎?
姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 真機今年差不多穩(wěn)定在這個水平,當然也會根據(jù)市場的動態(tài)需求相應擴產(chǎn)。 不可否認,人力成本我相信一定會是將來競爭力和效率里非常重要的一環(huán)。這也是為什么中國發(fā)展起了大量的數(shù)據(jù)采集,而美國相對進展比較緩慢,此前特斯拉招聘采集員的薪酬就是50美元一小時。如果是100萬小時,今天放在全球就一定是碾壓式的存在了。
陳茜 硅谷101聯(lián)合創(chuàng)始人 但100萬小時就能解決問題了嗎?
姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 我覺得在一些特定領(lǐng)域100萬小時應該可以達到非常好的效果了。今年我們接觸了很多有數(shù)據(jù)需求的客戶,作為覓蜂的話,我們也在看很多客戶的需求,提出100萬小時需求的單個客戶已經(jīng)非常多了。這只是第一步,大家到了100萬一定會想1000萬。但即使是1億小時,對于大型人工智能公司每年的基礎(chǔ)設(shè)施投入來講,也還是一個非常可控的部分。


順便說一句,智元正在將真機數(shù)據(jù)做成一站式的物理AI數(shù)據(jù)服務(wù)平臺,想要解決的就是當前機器人行業(yè)面臨的真機交互數(shù)據(jù)荒漠的問題。

覓蜂科技,押注的是構(gòu)建物理 AI 數(shù)據(jù)基礎(chǔ)設(shè)施,實現(xiàn)真機遙操、無本體采集、仿真數(shù)據(jù)全范式覆蓋,并打通硬件、軟件、平臺、運營的全鏈路。覓蜂科技2026年真機遙操產(chǎn)能接近200萬小時,同時規(guī)劃采集約800萬小時的Human-Centric數(shù)據(jù),背后是將近2000臺機器人和對應規(guī)模的采集團隊,在中國國內(nèi)以及東南亞多地同步運作。 可以看到,這就是機器人行業(yè)中的“石油業(yè)務(wù)”,而數(shù)據(jù)生態(tài)正在迅速崛起,并且需求量非常大。

金字塔第二層,仿真合成數(shù)據(jù)

金字塔從上往下的第二層,就是“仿真合成數(shù)據(jù)”這條規(guī)模效應最極致的路線,這也是黃仁勛的英偉達重點押注的路線。

順便說個小八卦,聽說黃仁勛的一兒一女都在英偉達的Physical AI仿真部門,可見老黃對這一塊有多看重。

簡單來說,這不是從真實世界采集,而是在虛擬環(huán)境里“生成出來”的數(shù)據(jù)。與一條一條訓出來的真機數(shù)據(jù)做個對比:英偉達Isaac Lab可以在單臺GPU上并行運行成千上萬個虛擬機器人同時訓練。規(guī)模可以是無限的,你想要多少數(shù)據(jù),就有多少數(shù)據(jù)。


比如說,機器人公司Sharpa在2026年CES上超火出圈的乒乓球機器人,就是花了40個小時用純仿真數(shù)據(jù)訓練出了0.2秒量級的擊球反應速度,這就是這條路線的一個具體案例。

仿真還能做一件真機采集做不到的事:生成現(xiàn)實中極難遇到的邊緣場景。機器人在仿真里可以反復摔倒、反復失敗,所有失敗都成為數(shù)據(jù),而不造成任何真實損失。

此外,Sharpa的研究科學家還告訴我們,仿真技術(shù)讓“觸覺”這種真機更難采集的數(shù)據(jù)有了新的突破。

張凱峰 Sharpa研究科學家、學術(shù)負責人 我們最近跟英偉達合作了一個觸覺仿真工具叫Tacmap,它做了這樣一件事:對于傳統(tǒng)視觸覺而言,你需要在simulation(仿真)里建模視觸覺指尖,但你沒辦法在simulation(仿真)里安裝攝像頭去觀察marker(標記)點的形變。所以我們提出了Tacmap。


它用物體與指尖穿膜的深度圖作為介質(zhì),在仿真里可以高效獲取這個deformation map(形變圖),并且具有良好的物理特性。在現(xiàn)實環(huán)境中,我們也通過類似方式獲取deformation map(形變圖),通過大量數(shù)據(jù)采集訓練了一個翻譯模型叫translation model,將raw image(原始圖像)翻譯成deformation map(形變圖)。基于這個deformation map(形變圖),我們實現(xiàn)了一些技能的Sim-to-Real(從仿真到現(xiàn)實),能夠完成一些精細化操作。

當然,這個路線有一個巨大的漏洞,就是嘉賓剛才提到的Sim-to-Real Gap,字面意思是“仿真到現(xiàn)實的鴻溝”。問題的本質(zhì)是:機器人在虛擬環(huán)境里練得再好,放到真實世界里往往會出問題。為什么會這樣呢?

因為仿真環(huán)境是人用代碼構(gòu)建的物理世界的近似,但真實世界的物理復雜得多。

舉一個最簡單的例子:機器人在仿真里學會了抓一個塑料杯子,仿真里這個杯子的重量、摩擦系數(shù)、形變方式都是固定的參數(shù)。但真實世界里,濕手拿杯子和干手拿杯子的摩擦系數(shù)不一樣,杯子里有沒有水重量也不一樣,光滑桌面和粗糙桌面上的杯子滑動方式不一樣。這些細節(jié),仿真里要么沒建模,要么建模不夠精確。

總的來說,運動學層面的問題,包括關(guān)節(jié)怎么彎、手臂走什么軌跡,相對容易在仿真里做好,放到真機上效果也還行。但真正難的是動力學層面,比如物體之間接觸時力怎么傳遞、軟性材料怎么形變、液體怎么流動。這些現(xiàn)象對今天的物理引擎來說還很難完整復現(xiàn)。


結(jié)果就是:機器人在仿真里練了一萬次疊衣服,放到真實的毛衣面前,因為布料的柔軟程度和仿真里的參數(shù)對不上,動作就會出錯。這不是模型不夠聰明,是它從來沒有經(jīng)歷過真實的物理接觸。

目前,行業(yè)中的解決辦法包括:域隨機化(不去做一個“完美仿真”,而是做“很多不一樣的仿真”,逼模型學會忽略差異、抓住本質(zhì)),還有把仿真做得更好更真(這也是英偉達主要在做的事情),以及用少量的真機數(shù)據(jù)去微調(diào)。但張凱峰認為,最終還需要一個更創(chuàng)新的解決之道。

張凱峰 Sharpa研究科學家、學術(shù)負責人 現(xiàn)在很難解決的一個動力學的Sim-to-Real Gap(從仿真到現(xiàn)實的鴻溝)是環(huán)境的dynamics(動力學),也就是說你很難對齊這個物理世界的環(huán)境和現(xiàn)實世界的環(huán)境的遷移,也就是我們所說的transition model(狀態(tài)轉(zhuǎn)移模型),所以這是我覺得是目前還需要一些科學方法上的創(chuàng)新。

除了Sim-to-real,Real-to-sim Gap(從現(xiàn)實到仿真的鴻溝)也是目前行業(yè)中的核心挑戰(zhàn),這個詞和Sim-to-real是反過來的,意思是你沒辦法把真實世界準確“搬進”仿真里。

因為現(xiàn)實世界太復雜了,咱們的真實環(huán)境中有無限的細節(jié)、噪音和不規(guī)則的事件,還有很多難以觀測的參數(shù)。所以仿真世界,其實沒有那么好建。

金字塔第三層,動捕數(shù)據(jù)

我們繼續(xù)往機器人的數(shù)據(jù)金字塔下面走,到第三層,動作捕捉數(shù)據(jù)。動作捕捉數(shù)據(jù)集,被稱為MOCAP。這個派系是用光學設(shè)備或視覺算法追蹤人手的運動軌跡,比純視頻多了“怎么動”的信息維度。

動捕數(shù)據(jù)的本質(zhì)是記錄“人是怎么動的”,然后再把這個動作“映射”到機器人上。比如說,機器人算法公司Physical Intelligence的π0系列就大量使用了這類數(shù)據(jù)。π0.5在大約400小時移動操作數(shù)據(jù)和大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的基礎(chǔ)上,實現(xiàn)了在真實家庭環(huán)境里完成長程任務(wù)的能力。

它的優(yōu)點是:數(shù)據(jù)質(zhì)量高,尤其在運動結(jié)構(gòu)上,能大幅減少無效數(shù)據(jù),對復雜動作特別有效。大家看到的很酷炫的很多機器人跳舞,武術(shù)等等任務(wù)都是用到了動作捕捉的數(shù)據(jù)收集,這是純強化學習很難達到的效果。

但這個路線除了成本貴和數(shù)據(jù)覆蓋有限之外,還有一個很關(guān)鍵的劣勢就是:人畢竟和機器人的結(jié)構(gòu)不一樣,這就是Embodiment Gap(具身鴻溝)。

張凱峰 Sharpa研究科學家、學術(shù)負責人 一方面,視覺上看到的是人的手,而不是機器人的手,所以存在視覺上的gap(差異)。第二個問題是state(狀態(tài))上的gap(差異),通過動捕或其他方式得到的state(狀態(tài))其實不夠準確,會有自遮擋的問題,也會有被物體遮擋的問題,所以得到的動作也是不準確的。

Embodiment Gap的意思是,人的身體和機器人的身體之間,有一道操作語義上的溝壑。人手在操作時依賴皮膚上密布的觸覺感受器,每抓一個物體,神經(jīng)系統(tǒng)都在實時根據(jù)觸覺反饋調(diào)整力度。機器人沒有這套系統(tǒng),所以即使動作軌跡被精確復制,完成任務(wù)的能力也不會自動跟上。

除了Embodiment Gap,還有另外一個沒有克服的難題,叫做Functional Retargeting。它的意思是,機器人只是在模仿動作的形狀,而不是理解這個動作要完成什么。

張凱峰 Sharpa研究科學家、學術(shù)負責人 這意味著你把人的動作映射到機器人動作上之后,它只是做了運動學層面的對應,并沒有真正實現(xiàn)操作本身在語義上的對應。

也就是說,動捕數(shù)據(jù)會出現(xiàn)比如說關(guān)節(jié)角度超限、力矩不夠、平衡失敗等問題,這就讓這個層級的數(shù)據(jù)在一定程度上,和第四層的視頻數(shù)據(jù)一起,被認為是“低質(zhì)量數(shù)據(jù)”。

金字塔最底層,互聯(lián)網(wǎng)視頻

從YouTube到抖音,人類完成各種任務(wù)的視頻海量存在。這是今天具身智能訓練里唯一真正“不缺”的原材料。但它能教會機器人什么?

姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 更多是讓機器人的大腦模型學習一種通用的表征,比如簡單認知以及對物理規(guī)律有粗淺的認知,但它還只停留在認知階段。

姚卯青用了一個有趣的比喻:看再多別人打乒乓球的比賽視頻,你第一天拿起球拍,也接不住球。視頻給機器人建立了關(guān)于物理世界的基礎(chǔ)認知,知道乒乓球是什么形狀,知道打球大概是什么動作,但從“知道”到“會做”之間,隔著一道鴻溝。視頻里根本沒有動作信號,只有結(jié)果。

互聯(lián)網(wǎng)上的海量視頻數(shù)據(jù),也被Sharpa稱之為最低質(zhì)量的數(shù)據(jù)。

張凱峰 Sharpa研究科學家、學術(shù)負責人 YouTube videos最大的劣勢是它沒有力和觸覺信息,優(yōu)勢是量非常大,能給我們提供一些有用的信息:一是世界是怎么變化的,比如我們常常講World Models(世界模型),就是利用這類in the wild(自然場景下)的數(shù)據(jù)來訓練World Models(世界模型);二是能給我們一些操作信息,比如affordance(預設(shè)用途)是什么,這對操作來講也非常關(guān)鍵。

再進一步聊視頻作為機器人數(shù)據(jù)之前,我們引入兩個關(guān)鍵的概念,分別是Egocentric和Human-Centric。這兩個分類是視頻數(shù)據(jù)中被認為對機器人最有用的數(shù)據(jù)。


Egocentric的意思是“自我中心數(shù)據(jù)”,也就是“以機器人的視角看出去”,看到桌子、杯子、自己的機械臂、甚至還有遮擋、接觸和動態(tài)變化這樣和行動綁定的“第一視角視頻”,并能直接用于決策的數(shù)據(jù),被稱為Egocentric。

為什么這個視角很重要呢,是因為機器人從攝像頭,特別是人形機器人,看到的視角就是這樣的。

蘋果在2025年5月發(fā)布了一個Egocentric的數(shù)據(jù)集名為EgoDex:用Apple Vision Pro采集了829小時第一人稱視角視頻,每一幀都配有手部每個關(guān)節(jié)的精確3D追蹤數(shù)據(jù),覆蓋系鞋帶、折疊衣物等194種桌面操作任務(wù),數(shù)據(jù)集完全開源,希望推動機器人靈巧操作研究。


最近,我們剛才提到的覓蜂科技也推出了MEgo系列無本體數(shù)據(jù)采集設(shè)備MEgo Gripper和MEgo View,搭配MEgo Engine一站式數(shù)據(jù)治理服務(wù)平臺,試圖降低物理AI數(shù)據(jù)采集對實體機器人本體的依賴,讓高質(zhì)量的第一視角數(shù)據(jù)走向輕量化、規(guī)模化和全場景化。

另外一個詞,Human-Centric數(shù)據(jù)的意思是圍繞“人類行為、意圖、偏好或示范”來構(gòu)建,用來讓機器人學習人類想要的行為方式。比如說人類抓杯子,人類開門,人類折疊衣服這類“人直接做給機器人看”的視頻能讓具身智能理解“人想達到什么目標”,以及人類標準中的“正確做法”。而Human-Centric數(shù)據(jù)可以是第一視角,也可以是第三視角。

我們總結(jié)一下,Egocentric是第一人稱視角視頻,但任務(wù)不一定和人相關(guān)。而Human-Centric是人類意圖的視頻。這兩者相交集的區(qū)域就是Egocentric+Human-Centric,指的是“人類在第一視角下完成任務(wù)的數(shù)據(jù)”,這被視為是視頻數(shù)據(jù)里,最有價值的部分。


比如說,英偉達在今年3月推出的EgoScale,就使用超過20000小時的人類視頻進行預訓練,涵蓋數(shù)千個獨特的任務(wù)和環(huán)境。精確的骨骼手部追蹤使模型能夠提取并重新定位21個人體運動關(guān)鍵點,從而構(gòu)建統(tǒng)一的機器人動作空間。

所以,雖然YouTube data被機器人專家們各種嫌棄,但因為它的海量存在和低成本效應,如果某家公司通過某種技術(shù)突破讓這些互聯(lián)網(wǎng)視頻變得“更可用”、能大幅提升機器人表現(xiàn),那將有巨大的前景,而這也正是目前各大公司押注的重點。

特斯拉在2025年6月做了一次重要的策略調(diào)整:把此前依賴動作捕捉套裝和VR頭顯的采集方式,換成了攝像機頭盔,讓工人戴著裝有5個攝像頭的裝備錄制日常操作視頻,再用這些視頻訓練Optimus,公司內(nèi)部表示這樣能“更快規(guī)模化”。


順便說一句,自動駕駛就是Egocentric的數(shù)據(jù),而且FSD也是用視頻數(shù)據(jù)驅(qū)動汽車這個物理本體的案例,所以O(shè)ptimus會在視頻數(shù)據(jù)路線上再次押注,這也非常符合馬斯克的第一性原理。

而同時,初創(chuàng)公司們也在如何將“低質(zhì)量數(shù)據(jù)”變得更可用這個路線上,也有著非常積極的嘗試。

在今年年初,Sharpa發(fā)布CraftNet,他們用一套觸覺反射層(System 0)做補償:機器人上層策略只需給出粗糙的動作意圖,底層觸覺感知系統(tǒng)根據(jù)實時力反饋自動完成精細調(diào)整。這個設(shè)計從硬件層降低了對上層數(shù)據(jù)精度的要求,使低質(zhì)量動作捕捉和視頻數(shù)據(jù)也可以被利用起來。


張凱峰 Sharpa研究科學家、學術(shù)負責人張凱峰 因為有了System 0,所以我們可以達到一個點石成金的效果,能夠把大量的低質(zhì)量數(shù)據(jù)用起來。System 1只需要給出粗糙的動作意圖和手勢,就能夠?qū)崿F(xiàn)fine manipulation(精細操作)的能力。

說完了機器人數(shù)據(jù)的四層金字塔結(jié)構(gòu),各自的優(yōu)劣勢以及各層級正在發(fā)生的進展,就會發(fā)現(xiàn)魚與熊掌不可兼得的真理,真的是有道理的。最精確最高質(zhì)量的真機數(shù)據(jù)是最少最難獲取的,而最容易獲取的視頻數(shù)據(jù)又是質(zhì)量最低最不可用的數(shù)據(jù)。

所以,行業(yè)現(xiàn)在的做法是:把他們混合起來用,能不能又平衡數(shù)據(jù)質(zhì)量,又能平衡一下成本呢?那么這個混合的配方又是如何的呢?

各家公司的混搭配方,數(shù)據(jù)與成本如何取舍?

我們在業(yè)界跟很多機器人公司聊,目前普遍的共識是,這個四層金字塔代表著數(shù)據(jù)的不同來源,并且也要適配不同的具身本體和模型,沒有一個統(tǒng)一標準,每個公司會有自己的配方和天平。

陳茜 硅谷101聯(lián)合創(chuàng)始人 它到最后可能是一個整合的solution(解決方案)?它們各自的比例大概是什么樣子?


姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 對,它會是一個整合的solution(解決方案)。現(xiàn)在很難說什么樣的比例是黃金配方,因為這不是一個簡單配比然后達成單一目標的問題。首先在技術(shù)路線上還有很多路徑在探索,并沒有歸一到一種確定的范式。其次,訓練機器人模型的目標也不是唯一的:有些情況是讓機器人在某個特定場景干到極致,比如工業(yè)場景中人的節(jié)拍效率和100%的成功率;有些場景更看重泛化性,成功率98%、99%也可以接受,甚至允許人在過程中做一些干預、接管兜底,但對泛化性要求很高。面向不同目標,用到的數(shù)據(jù)比例也會不一樣。

對Sharpa來說,答案也很類似,不同的任務(wù)他們采取了不同的數(shù)據(jù)策略。


張凱峰 Sharpa研究科學家、學術(shù)負責人 我們的乒乓球機器人是在仿真里面訓練的,大概是訓練了40小時左右,我們的發(fā)牌機器人用的是 imitation(模仿學習)的方式來訓練的,它大概是用到了兩三百小時的teleoperation data(遠程操作數(shù)據(jù))以及一些Egocentric的數(shù)據(jù)。

張凱峰也給了我們一個很平均的估算,在訓練較為復雜的任務(wù)中,各層數(shù)據(jù)之間的軌跡數(shù)量比大約是,遙操作數(shù)據(jù):動作捕捉數(shù)據(jù)=1:100,動作捕捉數(shù)據(jù):互聯(lián)網(wǎng)視頻≈1:100。換算下來,遙操作數(shù)據(jù)在整個數(shù)據(jù)池里大約是萬分之一的存在。但就是這萬分之一,往往是最終決定模型能否在真實場景落地的關(guān)鍵。

張凱峰 Sharpa研究科學家、學術(shù)負責人 非要我選一個更重要的點,我會選數(shù)據(jù)質(zhì)量,因為只有高質(zhì)量數(shù)據(jù)才能訓練出有用的模型。但如果數(shù)量很難規(guī)模化,我們就需要做折中,就像我剛才講的數(shù)據(jù)金字塔方式,把每一部分數(shù)據(jù)都利用起來:既能理解環(huán)境的變化,也能理解操作的語義,最終幫我們完成操作任務(wù)。
數(shù)據(jù)的“捷徑”硅谷路線

以上我們聊到了智元這樣的中國機器人公司如何處理數(shù)據(jù)問題:太貴、太慢,就直接把它做成工廠,利用人力成本和效率優(yōu)勢來打造護城河。但硅谷幾家最受關(guān)注的機器人公司,卻不得不走數(shù)據(jù)的“捷徑路線”。

7.1 PI:讓機器人在真實試錯中自我進化

比如說Physical Intelligence的數(shù)據(jù)策略就靠精度加迭代。他們在舊金山Dandelion Chocolate工廠部署了一臺機器人整天打包巧克力盒子,同時在辦公室提供咖啡服務(wù),員工在Slack里發(fā)“我要一杯拿鐵”,機器人就去做。創(chuàng)始人Sergey Levine的哲學是:看當機器人不得不在真實世界完成任務(wù)時會發(fā)生什么,以及這類部署的數(shù)據(jù)能如何繼續(xù)改善系統(tǒng)。


在這個基礎(chǔ)上,PI試圖讓機器人在真實部署里通過強化學習持續(xù)自我改進。

2025年11月發(fā)布的π0.6,用一套叫RECAP的方法,在折疊衣物、裝紙箱、做濃縮咖啡等任務(wù)上,把最難任務(wù)的吞吐量提升了一倍以上,失敗率降低了約一半。2026年3月發(fā)布的RLT方法,引入了一個特殊的輸出token,作為VLA模型與輕量級強化學習策略之間的緊湊接口,只需幾小時真實操作練習,機器人在精細操作任務(wù)上的速度就能提升三倍,某些動作甚至超過人類遙操員。

這條強化學習路線的吸引力在于:機器人自己產(chǎn)生自己的訓練數(shù)據(jù),繞過了人工采集。但它有三個今天還沒有好答案的真實問題。

第一是獎勵函數(shù)。衣服疊得“夠好”的標準很難量化,定義不準機器人就會找捷徑,比如把衣服揉成一團塞進角落,因為這樣“占用空間最小”,滿足了某個錯誤的優(yōu)化目標。

第二是安全邊界。機器人在客戶生產(chǎn)線上試錯,每次失敗都有現(xiàn)實代價:損壞產(chǎn)品、影響節(jié)拍、甚至傷到工人。

第三是數(shù)據(jù)歸屬。強化學習數(shù)據(jù)是機器人用客戶的物理空間和物理資產(chǎn)試錯產(chǎn)生的,所有權(quán)比遙操作數(shù)據(jù)更加模糊,遙操作好歹有明確的人工生產(chǎn)主體,但強化學習沒有。

如今PI在π0.6上驗證的場景,是相對結(jié)構(gòu)化的任務(wù),在受控實驗環(huán)境里運行了13小時。距離真實工廠大規(guī)模部署、在陌生場景里穩(wěn)定運行,還有相當?shù)木嚯x。


除了強化學習路線,PI同時在探索用我們上面提到的Egocentric視頻補充訓練數(shù)據(jù)。PI在2025年12月發(fā)布的研究顯示,一旦機器人基礎(chǔ)模型積累了足夠的真實操作經(jīng)驗,加入第一人稱人類視頻后,各個泛化任務(wù)的平均成功率接近翻倍。

7.2 Figure AI:把最大的房東變成數(shù)據(jù)采集場

2025年9月,F(xiàn)igure AI與全球最大另類資產(chǎn)管理公司Brookfield簽署戰(zhàn)略合作。Brookfield管理著超過10萬套住宅、5億平方英尺的商業(yè)辦公空間和1.6億平方英尺的物流空間。

Figure的計劃:在這些真實的家和寫字樓里,讓人戴著攝像頭拍視頻,用這些視頻訓練Helix模型,目標是建成“全球規(guī)模最大、最多樣化的人形機器人預訓練數(shù)據(jù)集”。Brookfield同時跟投了Figure超10億美元的C輪融資。


Figure隨后發(fā)布了初步結(jié)果:Helix模型在只用第一人稱人類視頻訓練、沒有任何機器人數(shù)據(jù)的情況下,已經(jīng)能根據(jù)自然語言指令在雜亂的真實房間里導航移動。

7.3 Sunday Robotics:眾包做家務(wù)視頻

還有一家更小的創(chuàng)業(yè)公司Sunday Robotics,走的路更極端:直接付錢讓普通人在家里錄自己做家務(wù)的視頻,然后用這些視頻訓練機器人,把“數(shù)據(jù)采集員”變成眾包經(jīng)濟的工作。


如果我們看看不同機器人公司如何押注數(shù)據(jù)路線,我們會發(fā)現(xiàn),不同的市場因為生態(tài)不同做出了不同的決策:整個硅谷在往視頻數(shù)據(jù)靠,減少對遙操作的依賴,押注可以被動規(guī)模化的采集方式。這和中國公司的方向形成了差異化。

但這兩種選擇可能也無所謂對錯,因為我們還在行業(yè)的初期,任何的嘗試都是有意義的,特別是對于數(shù)據(jù)來說,開源更是一件廣受歡迎和好評的事。

種樹人和數(shù)據(jù)飛輪,開源百萬條數(shù)據(jù)換來的是什么?

2024年,智元做了一件讓行業(yè)困惑的決定:把自己辛苦采集的百萬條遙操數(shù)據(jù),打包成AgiBot World數(shù)據(jù)集,免費向全球開放。


但這背后有一個被大多數(shù)報道忽略的行業(yè)困境。2023年到2024年,具身智能公司大量涌現(xiàn),但整個行業(yè)面臨一個根本性的認知危機:沒有公共的數(shù)據(jù)基準,就無法判斷一個模型的訓練方法對不對。谷歌的RT系列和開源模型OpenVLA在學術(shù)界引發(fā)了廣泛關(guān)注,開創(chuàng)了VLA這個范式,但因為訓練數(shù)據(jù)全是學術(shù)級的數(shù)據(jù)集,在實際場景里的效果依然有限,導致這個范式的真實潛力長期得不到驗證。

姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 這件事一定得有人邁出第一步,工業(yè)界的人得邁出第一步,否則誰也無法真正訓練出高質(zhì)量的模型,也沒有一個公允的benchmark(基準測試)數(shù)據(jù)集來做評測。面對這個數(shù)據(jù)荒漠,我們算是種下了第一棵樹,希望將來能變成一片森林。

而這棵樹發(fā)芽了。


2025年3月,英偉達在GTC大會發(fā)布第一代具身基礎(chǔ)模型GROOT N1。而GROOT N1訓練所用真實世界數(shù)據(jù)里,約80%來自AgiBot World。

而開源的連鎖效應還不止于此。越來越多的學術(shù)團隊在用了AgiBot World之后,轉(zhuǎn)而采購智元的機器人本體做研發(fā),因為在同一款本體上采集的數(shù)據(jù),在這款本體上訓練出來的模型效果更好。

也就是說,數(shù)據(jù)開源帶來了生態(tài),生態(tài)帶來了硬件銷量,硬件銷量產(chǎn)生更多數(shù)據(jù)。

同時我們也看到,機器人的數(shù)據(jù)工廠在建,開源生態(tài)在形成,下一個問題是:具身智能能否形成真正的數(shù)據(jù)飛輪?


姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 數(shù)據(jù)飛輪絕對會存在。具身智能跟大語言模型一樣,數(shù)據(jù)飛輪的核心是:模型部署之后,在用戶的使用過程中持續(xù)接收到反饋,利用這些反饋不斷提升能力,最終變成用戶體驗的提升。機器人現(xiàn)在其實更需要這樣的飛輪,也更會催生這樣的飛輪。語言模型容錯度比較高,說錯幾個字、有些似是而非,用戶還能接受。但機器人如果是在工廠打螺絲,毫米級的精度,差一點可能就不行了,一定需要在現(xiàn)實部署中不斷遇到失敗場景,把這些數(shù)據(jù)采集回來持續(xù)提升,才能達到進工廠接近人類節(jié)拍的百小時、千小時MTBF(平均故障間隔)級別。
陳茜 硅谷101聯(lián)合創(chuàng)始人 這樣的一個數(shù)據(jù)飛輪,類比大語言模型的scaling law(縮放定律),它們是一回事嗎?還是有區(qū)別的?
姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 基本上還是一回事。數(shù)據(jù)飛輪就是要在真正實地部署的形態(tài)下持續(xù)收集數(shù)據(jù)。這套我們現(xiàn)在已經(jīng)在所有機器人產(chǎn)品上作為標配搭售了,在用戶許可的情況下,會像自動駕駛的功能一樣,收集那些高優(yōu)的數(shù)據(jù)。
陳茜 硅谷101聯(lián)合創(chuàng)始人 部署的機器人收集到的數(shù)據(jù),大概有多少比例可以回流回來再給你們進行訓練?
姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 大概在5%以內(nèi)。因為大部分時間這些數(shù)據(jù)對我們來說沒有提升意義,因為都是成功的,屬于已經(jīng)會的東西。
陳茜 硅谷101聯(lián)合創(chuàng)始人 所以你們只需要失敗的。
姚卯青 智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 對,要的是還不會的。不然天天這么多機器人在跑,全世界的存儲都存不下這些實時數(shù)據(jù),大家都是觸發(fā)一些高價值的數(shù)據(jù)。

但飛輪能轉(zhuǎn),不代表轉(zhuǎn)速能達到預期。這里有一個比飛輪更基礎(chǔ)的問題:具身智能的scaling law(縮放定律)是否成立?

在語言模型里,這個問題有明確的答案:數(shù)據(jù)翻倍、模型變大,能力就會涌現(xiàn)。但機器人行業(yè),目前還沒有答案。


張凱峰 Sharpa研究科學家、學術(shù)負責人 我們需要看到:隨著數(shù)據(jù)量增加、模型規(guī)模變大,能夠有智能的涌現(xiàn),能夠?qū)崿F(xiàn)任務(wù)級的泛化能力。我認為現(xiàn)在還沒有看到有任務(wù)級別的泛化,我們現(xiàn)在能看到的泛化往往是物體層面的——見過很多種類的物體,能夠?qū)崿F(xiàn)物體層面的泛化,也能實現(xiàn)環(huán)境層面的泛化,但任務(wù)層級的泛化,還沒有。

這里就是關(guān)鍵區(qū)別:物體泛化(見過類似物體就能處理)和任務(wù)泛化(從沒見過這類任務(wù)也能舉一反三),是兩個完全不同量級的能力。前者今天已經(jīng)在一定程度上實現(xiàn),后者還沒有可信的證據(jù)。而這個證據(jù),是整個機器人行業(yè)走向下一步進化的鑰匙。而在機器人大規(guī)模部署之前,我們可能都不會有答案。


PI的創(chuàng)始人Sergey Levine教授在他的Substack上寫道:在美國有約1萬家麥當勞,一旦每家麥當勞各放一臺機器人,每天工作兩小時,一年就能產(chǎn)生1000萬小時的具身智能訓練數(shù)據(jù),比現(xiàn)有全球積累的總量還要多幾個數(shù)量級。

在今年3月底,智元率先在產(chǎn)量上突破了10000臺具身機器人。我們距離找到這把機器人的數(shù)據(jù)鑰匙,是否更近了呢?我們拭目以待。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
6月新勢力銷量:零跑9.3萬臺一騎絕塵,網(wǎng)友:性價比這塊沒對手!

6月新勢力銷量:零跑9.3萬臺一騎絕塵,網(wǎng)友:性價比這塊沒對手!

言車有徐
2026-07-01 16:32:08
特斯拉最新優(yōu)惠上線,降價 8000 元!

特斯拉最新優(yōu)惠上線,降價 8000 元!

花果科技
2026-07-01 17:27:12
美股盤前,美光科技跌幅擴大至4%,閃迪跌近5%

美股盤前,美光科技跌幅擴大至4%,閃迪跌近5%

每日經(jīng)濟新聞
2026-07-01 16:41:05
央視發(fā)聲!如果不出意外的話,7月開始后,社會上或?qū)⒊霈F(xiàn)3大變化

央視發(fā)聲!如果不出意外的話,7月開始后,社會上或?qū)⒊霈F(xiàn)3大變化

陳博世財經(jīng)
2026-07-01 14:05:05
熱死也不能買中國空調(diào)?德國媒體:中國正“摧毀”歐洲

熱死也不能買中國空調(diào)?德國媒體:中國正“摧毀”歐洲

霽寒飄雪
2026-07-01 17:12:25
央視7月1日CCTV5+直播國乒大滿貫,王楚欽王曼昱出戰(zhàn)

央視7月1日CCTV5+直播國乒大滿貫,王楚欽王曼昱出戰(zhàn)

譚顳愛搞笑
2026-06-30 16:11:40
欠稅39.5元!美妝博主程十安停更三年回歸漲粉

欠稅39.5元!美妝博主程十安停更三年回歸漲粉

情感大頭說說
2026-07-01 15:45:39
膽子不小!小國世界杯晉級后,馬上喊話大陸:不跟臺灣“斷交”!

膽子不小!小國世界杯晉級后,馬上喊話大陸:不跟臺灣“斷交”!

好賢觀史記
2026-07-01 13:50:39
TA:森林狼隊已經(jīng)跟詹姆斯陣營進行了接觸

TA:森林狼隊已經(jīng)跟詹姆斯陣營進行了接觸

北青網(wǎng)-北京青年報
2026-07-01 19:54:08
白俄高層已經(jīng)意識到,盧卡申科訪華一旦“托孤”,將改變俄烏大局

白俄高層已經(jīng)意識到,盧卡申科訪華一旦“托孤”,將改變俄烏大局

聚焦最新動態(tài)
2026-07-01 14:13:56
87歲的聶榮臻元帥接受采訪,當談到彭老總時:長征時他才三十多歲

87歲的聶榮臻元帥接受采訪,當談到彭老總時:長征時他才三十多歲

大江
2026-07-01 14:26:05
49歲的她穿條睡褲去看球,竟把全場貴婦裝秒成了渣

49歲的她穿條睡褲去看球,竟把全場貴婦裝秒成了渣

娛圈觀察員
2026-07-01 00:54:24
真狠!連跌三年從49跌到7又橫盤兩年,社保卻從3400萬加到5400萬

真狠!連跌三年從49跌到7又橫盤兩年,社保卻從3400萬加到5400萬

長風價值掘金
2026-07-01 14:53:36
阿利松主動打招呼,鈴木彩艷:幾年前我根本不敢想這樣的場景

阿利松主動打招呼,鈴木彩艷:幾年前我根本不敢想這樣的場景

懂球帝
2026-07-01 10:13:28
北京樓市:逆天

北京樓市:逆天

墜入二次元的海洋
2026-07-01 16:49:34
貝克漢姆14歲的女兒小七怎么如此成熟了,好像少婦

貝克漢姆14歲的女兒小七怎么如此成熟了,好像少婦

西樓知趣雜談
2026-06-13 19:52:21
巴西總統(tǒng):感謝安帥沒換下卡塞米羅,我和身邊人都說把他換下

巴西總統(tǒng):感謝安帥沒換下卡塞米羅,我和身邊人都說把他換下

懂球帝
2026-07-01 09:31:15
李谷一道出實情,揭曉宋祖英走上高位的真相,觀眾:原來如此!

李谷一道出實情,揭曉宋祖英走上高位的真相,觀眾:原來如此!

動物奇奇怪怪
2026-06-29 18:46:04
金靖導演老公露面,氣質(zhì)干凈素顏也挺帥,夫妻倆這性格差距是真大

金靖導演老公露面,氣質(zhì)干凈素顏也挺帥,夫妻倆這性格差距是真大

無處不風景l(fā)ove
2026-06-30 17:51:28
泰國租妻產(chǎn)業(yè),正在收割中國“退休老頭”

泰國租妻產(chǎn)業(yè),正在收割中國“退休老頭”

毒sir財經(jīng)
2026-06-30 22:38:02
2026-07-01 20:52:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經(jīng)科技媒體
135963文章數(shù) 862361關(guān)注度
往期回顧 全部

科技要聞

Claude Code被曝“植入木馬”識別中國用戶

頭條要聞

小區(qū)起火雙胞胎男童遇難:消防栓疑無水 物業(yè)經(jīng)理辭職

頭條要聞

小區(qū)起火雙胞胎男童遇難:消防栓疑無水 物業(yè)經(jīng)理辭職

體育要聞

賣球衣救子的門將,把德國撲出了世界杯

娛樂要聞

張凌赫:我連心疼你都隔著時差

財經(jīng)要聞

新氧貸款:宣傳年化15%,實際頂格24%

汽車要聞

上半年累計銷量突破142萬輛 吉利6月銷量出爐

態(tài)度原創(chuàng)

教育
時尚
家居
藝術(shù)
旅游

教育要聞

當孩子頹廢擺爛在家時,他最希望媽媽做些什么?

Meiinpsn的穿衣風格,清新又叛逆

家居要聞

傳奇筑 日常詩

藝術(shù)要聞

看看董其昌寫的10厘米大字!已完勝趙孟頫

旅游要聞

曲靖老城南門不簡單,得名田間禾苗清風,千年前歌謠寫盡溫柔!

無障礙瀏覽 進入關(guān)懷版