網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

走進數(shù)采工廠：深聊機器人數(shù)據(jù)荒漠、四層金字塔與種樹人

2026-05-17 08:48:47　來源: 鈦媒體APP

北京舉報

分享至

文 | 硅谷101

當Scaling Law讓大語言模型一路狂飆，用萬億參數(shù)涌現(xiàn)一代又一代更強大的智能之際，機器人領(lǐng)域卻被數(shù)據(jù)荒漠所困，讓具身智能的泛化性和自主性進展遲緩。

為什么AI能用的數(shù)據(jù)，機器人用不了？機器人的四層數(shù)據(jù)金字塔是如何運作的？每一層的進展和技術(shù)困境分別是什么，以及，我們?nèi)绾尾拍芙鉀Q機器人的數(shù)據(jù)難題呢？

這篇文章繼續(xù)我們的“機器人專輯”，之前我們已經(jīng)講過了靈巧手、機器人閉源模型和開源模型，這一期我們來聊聊這個領(lǐng)域一個非常核心的部分：數(shù)據(jù)。

為此，我們飛到上海，走進了機器人數(shù)采工廠，甚至有機會親自嘗試了一下“遙操作采集員”這份工作。除此之外，我們也跟智元、Sharpa等機器人公司們一起深入聊了聊，當前機器人數(shù)據(jù)的技術(shù)路線以及未來發(fā)展。

稀缺的機器人數(shù)據(jù)，真實缺口有多大？

首先我們來回答一個問題：什么是機器人數(shù)據(jù)？它跟AI大語言模型，以及圖片和視頻模型的數(shù)據(jù)有什么不同呢？

大語言模型是靠“吃掉互聯(lián)網(wǎng)”變聰明的。GPT-4的訓練數(shù)據(jù)量以萬億token計，相當于把人類有記錄的知識積累全部攝入。

簡單來說，AI生文、生圖以及生聲音、生視頻的模型參數(shù)都可以在互聯(lián)網(wǎng)上找到。大語言模型用的是“世界的文本語言”，包括文本、代碼以及標注過的結(jié)構(gòu)化文本，來幫助AI理解和生成“語言序列”。類似的，圖像模型用的是“世界的瞬間截圖”，聲音模型用的是“世界的震動信號”，而視頻模型用的是“世界的連續(xù)變化”，而這些數(shù)據(jù)，都大量存在互聯(lián)網(wǎng)上。

而機器人需要的數(shù)據(jù)是具身本體在真實物理世界里，和具體物體發(fā)生具體交互時產(chǎn)生的多維度傳感器信號：視覺、力覺、關(guān)節(jié)位置、電機控制量，全部精確同步，時間戳對齊，才構(gòu)成一條有用的訓練軌跡。

這些信息從來沒有被系統(tǒng)性地記錄過，也沒有任何理由會被被動產(chǎn)生。

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 機器人完整的數(shù)據(jù)，包括各種傳感器所帶來的數(shù)據(jù)，有視頻，還有力觸覺傳感器等。它的輸出是對身體上每一個電機關(guān)節(jié)的控制量，能夠控制全身多達幾十個自由度的關(guān)節(jié)協(xié)調(diào)配合，去完成具體的任務(wù)。它的難點就在于這些數(shù)據(jù)天然是不存在互聯(lián)網(wǎng)上的，它需要我們以某種方式去采集，無論是在真實環(huán)境里采集，還是在虛擬世界里采集，都需要先布設(shè)機器人、搭建場景，再引入遙操人員來控制機器人采集這類數(shù)據(jù)。

張凱峰 Sharpa研究科學家、學術(shù)負責人我覺得數(shù)據(jù)最大的難點在于我們沒有辦法采集到機器人自己在干活的數(shù)據(jù)，我們能采集到的其實是人在操作的數(shù)據(jù)，比如動作捕捉（MOCAP data），比如YouTube數(shù)據(jù)。所以要做好teleoperation（遙操）、讓機器人自己去操作其實比較困難，主要原因是機器操作員是感受不到機器人的感受。

這就是整個行業(yè)數(shù)據(jù)困境的根源：每一條高質(zhì)量數(shù)據(jù)都必須從零開始生產(chǎn)。我們來用幾個數(shù)字，試圖展示一下這個缺口有多大。

谷歌DeepMind在研發(fā)機器人模型RT系列第一代時，調(diào)動了13臺機器人，在辦公室廚房環(huán)境里持續(xù)采集了整整17個月，才積累了約13萬條操作軌跡、覆蓋700多項技能。

為了訓練RT-2，谷歌聯(lián)合了全球34所研究機構(gòu)，把60個已有數(shù)據(jù)集全部合并，加上來自22種機器人平臺的真機數(shù)據(jù)，才湊出了Open X-Embodiment，一個包含超過100萬條操作軌跡的開源數(shù)據(jù)集。

這已經(jīng)被認為是目前全球最大的跨機構(gòu)真機數(shù)據(jù)集，但即便如此，它涵蓋的527項技能和對應的場景，和現(xiàn)實世界的需求之間，依然是以數(shù)量級計的差距。

面對如此難獲得的機器人數(shù)據(jù)，怎么辦呢？如今，行業(yè)摸索出了四條并行路線。它們的質(zhì)量從低到高排列，構(gòu)成一個金字塔，每一層都有自己的優(yōu)勢、上限和真實代價，接下來我們來一層一層給大家拆解。

數(shù)據(jù)金字塔頂層，準確但昂貴的真機數(shù)據(jù)

金字塔的頂層，就是遙操數(shù)據(jù)，又被稱為“真機數(shù)據(jù)”。操作員通過外骨骼或遙操系統(tǒng)，實時控制機器人在真實場景里完成操作，機器人所有傳感器全程錄制。這層數(shù)據(jù)信息最完整，真實的物理接觸、真實的不確定性、真實的失敗和恢復，是今天讓機器人真正能在現(xiàn)實場景落地的核心原材料。

我們也正好有機會來到上海，走進智元機器人的數(shù)據(jù)采集工廠，看看真機數(shù)據(jù)是怎么采集的。

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 我們這里有200臺機器，每臺機器至少配一個采集員，有些任務(wù)還會配備一位同事來搭配布置場景。

但你以為遙操員是一個很簡單的工作嗎？答案是：并不是。反正我們在現(xiàn)場試了一下，發(fā)現(xiàn)這個工作還是很有門檻的。

陳茜硅谷101聯(lián)合創(chuàng)始人一個數(shù)據(jù)采集員，他需要什么樣的資質(zhì)才能把這個數(shù)據(jù)采集好呢？

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 我覺得最重要的是天賦，好的數(shù)據(jù)采集員和差的數(shù)據(jù)采集員，效率可能相差3倍。我認為一個有天賦的數(shù)據(jù)采集員，首先是協(xié)調(diào)性非常好、空間感特別強的人。因為在采集數(shù)據(jù)的過程中，其實是在隔空控制另外一個身體，沒有直觀的觸覺反饋，只能通過肉眼來閉環(huán)。機器人手臂和人手臂的構(gòu)型也不一樣，人能達到的很多姿態(tài)，機器人未必能夠到，所以還要預判機器人怎樣才能更高效地夠到目標，再去設(shè)計自己的動作軌跡。其次是對空間的精度判斷要很準，如果空間感差，明明想讓機器人去抓，結(jié)果抓過了，或夠不到，或一夾就滑，這種情況都非常常見。還有就是體力要好，一天下來其實非常辛苦。

智元機器人采集員有些人是站著采的，有些人坐著采，兩種感覺不一樣。

陳茜硅谷101聯(lián)合創(chuàng)始人從剛?cè)腴T的一個采集員到你這樣的金牌采集員需要多長時間？

智元機器人采集員入職需要一周培訓時間，培訓完先入門，之后任務(wù)難度逐級遞加。

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 即使是有天賦的采集員，從零基礎(chǔ)到九成功力，大概也要一個月。Zero to hero（從平凡到英雄），要一個月吧。

對于一個專業(yè)的金牌數(shù)據(jù)采集員來說，我剛才失敗了N次的機器人擺放字母的任務(wù)，他一次就搞定了，而這樣的數(shù)據(jù)采集，為的就是機器人的精確控制能力。但就算是專家水平的遙操員，也不是每一條都可以被算作是有效數(shù)據(jù)的。

陳茜硅谷101聯(lián)合創(chuàng)始人人類遙操數(shù)據(jù)的成功率是多少？任務(wù)難易程度不一樣可能也會影響，我很好奇這個效率怎么算？

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 一個專業(yè)遙操員，8小時工作大概能平均產(chǎn)出2到3小時的有效數(shù)據(jù)。因為中間必然會涉及兩個采集之間的場景布置、數(shù)據(jù)上傳，以及操作失敗后的丟棄和重試。

陳茜硅谷101聯(lián)合創(chuàng)始人所以就大概1/ 4。

所以，真機數(shù)據(jù)的優(yōu)勢是準確，更容易直接部署、后期調(diào)參成本也更低，但它的代價也非常直白：貴，并且慢，不容易指數(shù)級擴張。

數(shù)采工廠涉及到硬件成本、場地成本、人工標注和監(jiān)督成本，以及時間成本，與互聯(lián)網(wǎng)數(shù)據(jù)相比，規(guī)模完全不是一個量級。

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 我們今年真機產(chǎn)能有200萬小時，對應著接近2000臺機器人和背后規(guī)模相當?shù)牟杉瘑T團隊。

陳茜硅谷101聯(lián)合創(chuàng)始人這個規(guī)模會越來越大嗎？

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 真機今年差不多穩(wěn)定在這個水平，當然也會根據(jù)市場的動態(tài)需求相應擴產(chǎn)。不可否認，人力成本我相信一定會是將來競爭力和效率里非常重要的一環(huán)。這也是為什么中國發(fā)展起了大量的數(shù)據(jù)采集，而美國相對進展比較緩慢，此前特斯拉招聘采集員的薪酬就是50美元一小時。如果是100萬小時，今天放在全球就一定是碾壓式的存在了。

陳茜硅谷101聯(lián)合創(chuàng)始人但100萬小時就能解決問題了嗎？

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 我覺得在一些特定領(lǐng)域100萬小時應該可以達到非常好的效果了。今年我們接觸了很多有數(shù)據(jù)需求的客戶，作為覓蜂的話，我們也在看很多客戶的需求，提出100萬小時需求的單個客戶已經(jīng)非常多了。這只是第一步，大家到了100萬一定會想1000萬。但即使是1億小時，對于大型人工智能公司每年的基礎(chǔ)設(shè)施投入來講，也還是一個非常可控的部分。

順便說一句，智元正在將真機數(shù)據(jù)做成一站式的物理AI數(shù)據(jù)服務(wù)平臺，想要解決的就是當前機器人行業(yè)面臨的真機交互數(shù)據(jù)荒漠的問題。

覓蜂科技，押注的是構(gòu)建物理 AI 數(shù)據(jù)基礎(chǔ)設(shè)施，實現(xiàn)真機遙操、無本體采集、仿真數(shù)據(jù)全范式覆蓋，并打通硬件、軟件、平臺、運營的全鏈路。覓蜂科技2026年真機遙操產(chǎn)能接近200萬小時，同時規(guī)劃采集約800萬小時的Human-Centric數(shù)據(jù)，背后是將近2000臺機器人和對應規(guī)模的采集團隊，在中國國內(nèi)以及東南亞多地同步運作。可以看到，這就是機器人行業(yè)中的“石油業(yè)務(wù)”，而數(shù)據(jù)生態(tài)正在迅速崛起，并且需求量非常大。

金字塔第二層，仿真合成數(shù)據(jù)

金字塔從上往下的第二層，就是“仿真合成數(shù)據(jù)”這條規(guī)模效應最極致的路線，這也是黃仁勛的英偉達重點押注的路線。

順便說個小八卦，聽說黃仁勛的一兒一女都在英偉達的Physical AI仿真部門，可見老黃對這一塊有多看重。

簡單來說，這不是從真實世界采集，而是在虛擬環(huán)境里“生成出來”的數(shù)據(jù)。與一條一條訓出來的真機數(shù)據(jù)做個對比：英偉達Isaac Lab可以在單臺GPU上并行運行成千上萬個虛擬機器人同時訓練。規(guī)模可以是無限的，你想要多少數(shù)據(jù)，就有多少數(shù)據(jù)。

比如說，機器人公司Sharpa在2026年CES上超火出圈的乒乓球機器人，就是花了40個小時用純仿真數(shù)據(jù)訓練出了0.2秒量級的擊球反應速度，這就是這條路線的一個具體案例。

仿真還能做一件真機采集做不到的事：生成現(xiàn)實中極難遇到的邊緣場景。機器人在仿真里可以反復摔倒、反復失敗，所有失敗都成為數(shù)據(jù)，而不造成任何真實損失。

此外，Sharpa的研究科學家還告訴我們，仿真技術(shù)讓“觸覺”這種真機更難采集的數(shù)據(jù)有了新的突破。

張凱峰 Sharpa研究科學家、學術(shù)負責人我們最近跟英偉達合作了一個觸覺仿真工具叫Tacmap，它做了這樣一件事：對于傳統(tǒng)視觸覺而言，你需要在simulation（仿真）里建模視觸覺指尖，但你沒辦法在simulation（仿真）里安裝攝像頭去觀察marker（標記）點的形變。所以我們提出了Tacmap。

它用物體與指尖穿膜的深度圖作為介質(zhì)，在仿真里可以高效獲取這個deformation map（形變圖），并且具有良好的物理特性。在現(xiàn)實環(huán)境中，我們也通過類似方式獲取deformation map（形變圖），通過大量數(shù)據(jù)采集訓練了一個翻譯模型叫translation model，將raw image（原始圖像）翻譯成deformation map（形變圖）。基于這個deformation map（形變圖），我們實現(xiàn)了一些技能的Sim-to-Real（從仿真到現(xiàn)實），能夠完成一些精細化操作。

當然，這個路線有一個巨大的漏洞，就是嘉賓剛才提到的Sim-to-Real Gap，字面意思是“仿真到現(xiàn)實的鴻溝”。問題的本質(zhì)是：機器人在虛擬環(huán)境里練得再好，放到真實世界里往往會出問題。為什么會這樣呢？

因為仿真環(huán)境是人用代碼構(gòu)建的物理世界的近似，但真實世界的物理復雜得多。

舉一個最簡單的例子：機器人在仿真里學會了抓一個塑料杯子，仿真里這個杯子的重量、摩擦系數(shù)、形變方式都是固定的參數(shù)。但真實世界里，濕手拿杯子和干手拿杯子的摩擦系數(shù)不一樣，杯子里有沒有水重量也不一樣，光滑桌面和粗糙桌面上的杯子滑動方式不一樣。這些細節(jié)，仿真里要么沒建模，要么建模不夠精確。

總的來說，運動學層面的問題，包括關(guān)節(jié)怎么彎、手臂走什么軌跡，相對容易在仿真里做好，放到真機上效果也還行。但真正難的是動力學層面，比如物體之間接觸時力怎么傳遞、軟性材料怎么形變、液體怎么流動。這些現(xiàn)象對今天的物理引擎來說還很難完整復現(xiàn)。

結(jié)果就是：機器人在仿真里練了一萬次疊衣服，放到真實的毛衣面前，因為布料的柔軟程度和仿真里的參數(shù)對不上，動作就會出錯。這不是模型不夠聰明，是它從來沒有經(jīng)歷過真實的物理接觸。

目前，行業(yè)中的解決辦法包括：域隨機化（不去做一個“完美仿真”，而是做“很多不一樣的仿真”，逼模型學會忽略差異、抓住本質(zhì)），還有把仿真做得更好更真（這也是英偉達主要在做的事情），以及用少量的真機數(shù)據(jù)去微調(diào)。但張凱峰認為，最終還需要一個更創(chuàng)新的解決之道。

張凱峰 Sharpa研究科學家、學術(shù)負責人現(xiàn)在很難解決的一個動力學的Sim-to-Real Gap（從仿真到現(xiàn)實的鴻溝）是環(huán)境的dynamics（動力學），也就是說你很難對齊這個物理世界的環(huán)境和現(xiàn)實世界的環(huán)境的遷移，也就是我們所說的transition model（狀態(tài)轉(zhuǎn)移模型），所以這是我覺得是目前還需要一些科學方法上的創(chuàng)新。

除了Sim-to-real，Real-to-sim Gap（從現(xiàn)實到仿真的鴻溝）也是目前行業(yè)中的核心挑戰(zhàn)，這個詞和Sim-to-real是反過來的，意思是你沒辦法把真實世界準確“搬進”仿真里。

因為現(xiàn)實世界太復雜了，咱們的真實環(huán)境中有無限的細節(jié)、噪音和不規(guī)則的事件，還有很多難以觀測的參數(shù)。所以仿真世界，其實沒有那么好建。

金字塔第三層，動捕數(shù)據(jù)

我們繼續(xù)往機器人的數(shù)據(jù)金字塔下面走，到第三層，動作捕捉數(shù)據(jù)。動作捕捉數(shù)據(jù)集，被稱為MOCAP。這個派系是用光學設(shè)備或視覺算法追蹤人手的運動軌跡，比純視頻多了“怎么動”的信息維度。

動捕數(shù)據(jù)的本質(zhì)是記錄“人是怎么動的”，然后再把這個動作“映射”到機器人上。比如說，機器人算法公司Physical Intelligence的π0系列就大量使用了這類數(shù)據(jù)。π0.5在大約400小時移動操作數(shù)據(jù)和大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的基礎(chǔ)上，實現(xiàn)了在真實家庭環(huán)境里完成長程任務(wù)的能力。

它的優(yōu)點是：數(shù)據(jù)質(zhì)量高，尤其在運動結(jié)構(gòu)上，能大幅減少無效數(shù)據(jù)，對復雜動作特別有效。大家看到的很酷炫的很多機器人跳舞，武術(shù)等等任務(wù)都是用到了動作捕捉的數(shù)據(jù)收集，這是純強化學習很難達到的效果。

但這個路線除了成本貴和數(shù)據(jù)覆蓋有限之外，還有一個很關(guān)鍵的劣勢就是：人畢竟和機器人的結(jié)構(gòu)不一樣，這就是Embodiment Gap（具身鴻溝）。

張凱峰 Sharpa研究科學家、學術(shù)負責人一方面，視覺上看到的是人的手，而不是機器人的手，所以存在視覺上的gap（差異）。第二個問題是state（狀態(tài)）上的gap（差異），通過動捕或其他方式得到的state（狀態(tài)）其實不夠準確，會有自遮擋的問題，也會有被物體遮擋的問題，所以得到的動作也是不準確的。

Embodiment Gap的意思是，人的身體和機器人的身體之間，有一道操作語義上的溝壑。人手在操作時依賴皮膚上密布的觸覺感受器，每抓一個物體，神經(jīng)系統(tǒng)都在實時根據(jù)觸覺反饋調(diào)整力度。機器人沒有這套系統(tǒng)，所以即使動作軌跡被精確復制，完成任務(wù)的能力也不會自動跟上。

除了Embodiment Gap，還有另外一個沒有克服的難題，叫做Functional Retargeting。它的意思是，機器人只是在模仿動作的形狀，而不是理解這個動作要完成什么。

張凱峰 Sharpa研究科學家、學術(shù)負責人這意味著你把人的動作映射到機器人動作上之后，它只是做了運動學層面的對應，并沒有真正實現(xiàn)操作本身在語義上的對應。

也就是說，動捕數(shù)據(jù)會出現(xiàn)比如說關(guān)節(jié)角度超限、力矩不夠、平衡失敗等問題，這就讓這個層級的數(shù)據(jù)在一定程度上，和第四層的視頻數(shù)據(jù)一起，被認為是“低質(zhì)量數(shù)據(jù)”。

金字塔最底層，互聯(lián)網(wǎng)視頻

從YouTube到抖音，人類完成各種任務(wù)的視頻海量存在。這是今天具身智能訓練里唯一真正“不缺”的原材料。但它能教會機器人什么？

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 更多是讓機器人的大腦模型學習一種通用的表征，比如簡單認知以及對物理規(guī)律有粗淺的認知，但它還只停留在認知階段。

姚卯青用了一個有趣的比喻：看再多別人打乒乓球的比賽視頻，你第一天拿起球拍，也接不住球。視頻給機器人建立了關(guān)于物理世界的基礎(chǔ)認知，知道乒乓球是什么形狀，知道打球大概是什么動作，但從“知道”到“會做”之間，隔著一道鴻溝。視頻里根本沒有動作信號，只有結(jié)果。

互聯(lián)網(wǎng)上的海量視頻數(shù)據(jù)，也被Sharpa稱之為最低質(zhì)量的數(shù)據(jù)。

張凱峰 Sharpa研究科學家、學術(shù)負責人 YouTube videos最大的劣勢是它沒有力和觸覺信息，優(yōu)勢是量非常大，能給我們提供一些有用的信息：一是世界是怎么變化的，比如我們常常講World Models（世界模型），就是利用這類in the wild（自然場景下）的數(shù)據(jù)來訓練World Models（世界模型）；二是能給我們一些操作信息，比如affordance（預設(shè)用途）是什么，這對操作來講也非常關(guān)鍵。

再進一步聊視頻作為機器人數(shù)據(jù)之前，我們引入兩個關(guān)鍵的概念，分別是Egocentric和Human-Centric。這兩個分類是視頻數(shù)據(jù)中被認為對機器人最有用的數(shù)據(jù)。

Egocentric的意思是“自我中心數(shù)據(jù)”，也就是“以機器人的視角看出去”，看到桌子、杯子、自己的機械臂、甚至還有遮擋、接觸和動態(tài)變化這樣和行動綁定的“第一視角視頻”，并能直接用于決策的數(shù)據(jù)，被稱為Egocentric。

為什么這個視角很重要呢，是因為機器人從攝像頭，特別是人形機器人，看到的視角就是這樣的。

蘋果在2025年5月發(fā)布了一個Egocentric的數(shù)據(jù)集名為EgoDex：用Apple Vision Pro采集了829小時第一人稱視角視頻，每一幀都配有手部每個關(guān)節(jié)的精確3D追蹤數(shù)據(jù)，覆蓋系鞋帶、折疊衣物等194種桌面操作任務(wù)，數(shù)據(jù)集完全開源，希望推動機器人靈巧操作研究。

最近，我們剛才提到的覓蜂科技也推出了MEgo系列無本體數(shù)據(jù)采集設(shè)備MEgo Gripper和MEgo View，搭配MEgo Engine一站式數(shù)據(jù)治理服務(wù)平臺，試圖降低物理AI數(shù)據(jù)采集對實體機器人本體的依賴，讓高質(zhì)量的第一視角數(shù)據(jù)走向輕量化、規(guī)模化和全場景化。

另外一個詞，Human-Centric數(shù)據(jù)的意思是圍繞“人類行為、意圖、偏好或示范”來構(gòu)建，用來讓機器人學習人類想要的行為方式。比如說人類抓杯子，人類開門，人類折疊衣服這類“人直接做給機器人看”的視頻能讓具身智能理解“人想達到什么目標”，以及人類標準中的“正確做法”。而Human-Centric數(shù)據(jù)可以是第一視角，也可以是第三視角。

我們總結(jié)一下，Egocentric是第一人稱視角視頻，但任務(wù)不一定和人相關(guān)。而Human-Centric是人類意圖的視頻。這兩者相交集的區(qū)域就是Egocentric+Human-Centric，指的是“人類在第一視角下完成任務(wù)的數(shù)據(jù)”，這被視為是視頻數(shù)據(jù)里，最有價值的部分。

比如說，英偉達在今年3月推出的EgoScale，就使用超過20000小時的人類視頻進行預訓練，涵蓋數(shù)千個獨特的任務(wù)和環(huán)境。精確的骨骼手部追蹤使模型能夠提取并重新定位21個人體運動關(guān)鍵點，從而構(gòu)建統(tǒng)一的機器人動作空間。

所以，雖然YouTube data被機器人專家們各種嫌棄，但因為它的海量存在和低成本效應，如果某家公司通過某種技術(shù)突破讓這些互聯(lián)網(wǎng)視頻變得“更可用”、能大幅提升機器人表現(xiàn)，那將有巨大的前景，而這也正是目前各大公司押注的重點。

特斯拉在2025年6月做了一次重要的策略調(diào)整：把此前依賴動作捕捉套裝和VR頭顯的采集方式，換成了攝像機頭盔，讓工人戴著裝有5個攝像頭的裝備錄制日常操作視頻，再用這些視頻訓練Optimus，公司內(nèi)部表示這樣能“更快規(guī)模化”。

順便說一句，自動駕駛就是Egocentric的數(shù)據(jù)，而且FSD也是用視頻數(shù)據(jù)驅(qū)動汽車這個物理本體的案例，所以O(shè)ptimus會在視頻數(shù)據(jù)路線上再次押注，這也非常符合馬斯克的第一性原理。

而同時，初創(chuàng)公司們也在如何將“低質(zhì)量數(shù)據(jù)”變得更可用這個路線上，也有著非常積極的嘗試。

在今年年初，Sharpa發(fā)布CraftNet，他們用一套觸覺反射層（System 0）做補償：機器人上層策略只需給出粗糙的動作意圖，底層觸覺感知系統(tǒng)根據(jù)實時力反饋自動完成精細調(diào)整。這個設(shè)計從硬件層降低了對上層數(shù)據(jù)精度的要求，使低質(zhì)量動作捕捉和視頻數(shù)據(jù)也可以被利用起來。

張凱峰 Sharpa研究科學家、學術(shù)負責人張凱峰因為有了System 0，所以我們可以達到一個點石成金的效果，能夠把大量的低質(zhì)量數(shù)據(jù)用起來。System 1只需要給出粗糙的動作意圖和手勢，就能夠?qū)崿F(xiàn)fine manipulation（精細操作）的能力。

說完了機器人數(shù)據(jù)的四層金字塔結(jié)構(gòu)，各自的優(yōu)劣勢以及各層級正在發(fā)生的進展，就會發(fā)現(xiàn)魚與熊掌不可兼得的真理，真的是有道理的。最精確最高質(zhì)量的真機數(shù)據(jù)是最少最難獲取的，而最容易獲取的視頻數(shù)據(jù)又是質(zhì)量最低最不可用的數(shù)據(jù)。

所以，行業(yè)現(xiàn)在的做法是：把他們混合起來用，能不能又平衡數(shù)據(jù)質(zhì)量，又能平衡一下成本呢？那么這個混合的配方又是如何的呢？

各家公司的混搭配方，數(shù)據(jù)與成本如何取舍？

我們在業(yè)界跟很多機器人公司聊，目前普遍的共識是，這個四層金字塔代表著數(shù)據(jù)的不同來源，并且也要適配不同的具身本體和模型，沒有一個統(tǒng)一標準，每個公司會有自己的配方和天平。

陳茜硅谷101聯(lián)合創(chuàng)始人它到最后可能是一個整合的solution（解決方案）？它們各自的比例大概是什么樣子？

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 對，它會是一個整合的solution（解決方案）。現(xiàn)在很難說什么樣的比例是黃金配方，因為這不是一個簡單配比然后達成單一目標的問題。首先在技術(shù)路線上還有很多路徑在探索，并沒有歸一到一種確定的范式。其次，訓練機器人模型的目標也不是唯一的：有些情況是讓機器人在某個特定場景干到極致，比如工業(yè)場景中人的節(jié)拍效率和100%的成功率；有些場景更看重泛化性，成功率98%、99%也可以接受，甚至允許人在過程中做一些干預、接管兜底，但對泛化性要求很高。面向不同目標，用到的數(shù)據(jù)比例也會不一樣。

對Sharpa來說，答案也很類似，不同的任務(wù)他們采取了不同的數(shù)據(jù)策略。

張凱峰 Sharpa研究科學家、學術(shù)負責人我們的乒乓球機器人是在仿真里面訓練的，大概是訓練了40小時左右，我們的發(fā)牌機器人用的是 imitation（模仿學習）的方式來訓練的，它大概是用到了兩三百小時的teleoperation data（遠程操作數(shù)據(jù)）以及一些Egocentric的數(shù)據(jù)。

張凱峰也給了我們一個很平均的估算，在訓練較為復雜的任務(wù)中，各層數(shù)據(jù)之間的軌跡數(shù)量比大約是，遙操作數(shù)據(jù)：動作捕捉數(shù)據(jù)=1:100，動作捕捉數(shù)據(jù)：互聯(lián)網(wǎng)視頻≈1:100。換算下來，遙操作數(shù)據(jù)在整個數(shù)據(jù)池里大約是萬分之一的存在。但就是這萬分之一，往往是最終決定模型能否在真實場景落地的關(guān)鍵。

張凱峰 Sharpa研究科學家、學術(shù)負責人非要我選一個更重要的點，我會選數(shù)據(jù)質(zhì)量，因為只有高質(zhì)量數(shù)據(jù)才能訓練出有用的模型。但如果數(shù)量很難規(guī)模化，我們就需要做折中，就像我剛才講的數(shù)據(jù)金字塔方式，把每一部分數(shù)據(jù)都利用起來：既能理解環(huán)境的變化，也能理解操作的語義，最終幫我們完成操作任務(wù)。

數(shù)據(jù)的“捷徑”硅谷路線

以上我們聊到了智元這樣的中國機器人公司如何處理數(shù)據(jù)問題：太貴、太慢，就直接把它做成工廠，利用人力成本和效率優(yōu)勢來打造護城河。但硅谷幾家最受關(guān)注的機器人公司，卻不得不走數(shù)據(jù)的“捷徑路線”。

7.1 PI：讓機器人在真實試錯中自我進化

比如說Physical Intelligence的數(shù)據(jù)策略就靠精度加迭代。他們在舊金山Dandelion Chocolate工廠部署了一臺機器人整天打包巧克力盒子，同時在辦公室提供咖啡服務(wù)，員工在Slack里發(fā)“我要一杯拿鐵”，機器人就去做。創(chuàng)始人Sergey Levine的哲學是：看當機器人不得不在真實世界完成任務(wù)時會發(fā)生什么，以及這類部署的數(shù)據(jù)能如何繼續(xù)改善系統(tǒng)。

在這個基礎(chǔ)上，PI試圖讓機器人在真實部署里通過強化學習持續(xù)自我改進。

2025年11月發(fā)布的π0.6，用一套叫RECAP的方法，在折疊衣物、裝紙箱、做濃縮咖啡等任務(wù)上，把最難任務(wù)的吞吐量提升了一倍以上，失敗率降低了約一半。2026年3月發(fā)布的RLT方法，引入了一個特殊的輸出token，作為VLA模型與輕量級強化學習策略之間的緊湊接口，只需幾小時真實操作練習，機器人在精細操作任務(wù)上的速度就能提升三倍，某些動作甚至超過人類遙操員。

這條強化學習路線的吸引力在于：機器人自己產(chǎn)生自己的訓練數(shù)據(jù)，繞過了人工采集。但它有三個今天還沒有好答案的真實問題。

第一是獎勵函數(shù)。衣服疊得“夠好”的標準很難量化，定義不準機器人就會找捷徑，比如把衣服揉成一團塞進角落，因為這樣“占用空間最小”，滿足了某個錯誤的優(yōu)化目標。

第二是安全邊界。機器人在客戶生產(chǎn)線上試錯，每次失敗都有現(xiàn)實代價：損壞產(chǎn)品、影響節(jié)拍、甚至傷到工人。

第三是數(shù)據(jù)歸屬。強化學習數(shù)據(jù)是機器人用客戶的物理空間和物理資產(chǎn)試錯產(chǎn)生的，所有權(quán)比遙操作數(shù)據(jù)更加模糊，遙操作好歹有明確的人工生產(chǎn)主體，但強化學習沒有。

如今PI在π0.6上驗證的場景，是相對結(jié)構(gòu)化的任務(wù)，在受控實驗環(huán)境里運行了13小時。距離真實工廠大規(guī)模部署、在陌生場景里穩(wěn)定運行，還有相當?shù)木嚯x。

除了強化學習路線，PI同時在探索用我們上面提到的Egocentric視頻補充訓練數(shù)據(jù)。PI在2025年12月發(fā)布的研究顯示，一旦機器人基礎(chǔ)模型積累了足夠的真實操作經(jīng)驗，加入第一人稱人類視頻后，各個泛化任務(wù)的平均成功率接近翻倍。

7.2 Figure AI：把最大的房東變成數(shù)據(jù)采集場

2025年9月，F(xiàn)igure AI與全球最大另類資產(chǎn)管理公司Brookfield簽署戰(zhàn)略合作。Brookfield管理著超過10萬套住宅、5億平方英尺的商業(yè)辦公空間和1.6億平方英尺的物流空間。

Figure的計劃：在這些真實的家和寫字樓里，讓人戴著攝像頭拍視頻，用這些視頻訓練Helix模型，目標是建成“全球規(guī)模最大、最多樣化的人形機器人預訓練數(shù)據(jù)集”。Brookfield同時跟投了Figure超10億美元的C輪融資。

Figure隨后發(fā)布了初步結(jié)果：Helix模型在只用第一人稱人類視頻訓練、沒有任何機器人數(shù)據(jù)的情況下，已經(jīng)能根據(jù)自然語言指令在雜亂的真實房間里導航移動。

7.3 Sunday Robotics：眾包做家務(wù)視頻

還有一家更小的創(chuàng)業(yè)公司Sunday Robotics，走的路更極端：直接付錢讓普通人在家里錄自己做家務(wù)的視頻，然后用這些視頻訓練機器人，把“數(shù)據(jù)采集員”變成眾包經(jīng)濟的工作。

如果我們看看不同機器人公司如何押注數(shù)據(jù)路線，我們會發(fā)現(xiàn)，不同的市場因為生態(tài)不同做出了不同的決策：整個硅谷在往視頻數(shù)據(jù)靠，減少對遙操作的依賴，押注可以被動規(guī)模化的采集方式。這和中國公司的方向形成了差異化。

但這兩種選擇可能也無所謂對錯，因為我們還在行業(yè)的初期，任何的嘗試都是有意義的，特別是對于數(shù)據(jù)來說，開源更是一件廣受歡迎和好評的事。

種樹人和數(shù)據(jù)飛輪，開源百萬條數(shù)據(jù)換來的是什么？

2024年，智元做了一件讓行業(yè)困惑的決定：把自己辛苦采集的百萬條遙操數(shù)據(jù)，打包成AgiBot World數(shù)據(jù)集，免費向全球開放。

但這背后有一個被大多數(shù)報道忽略的行業(yè)困境。2023年到2024年，具身智能公司大量涌現(xiàn)，但整個行業(yè)面臨一個根本性的認知危機：沒有公共的數(shù)據(jù)基準，就無法判斷一個模型的訓練方法對不對。谷歌的RT系列和開源模型OpenVLA在學術(shù)界引發(fā)了廣泛關(guān)注，開創(chuàng)了VLA這個范式，但因為訓練數(shù)據(jù)全是學術(shù)級的數(shù)據(jù)集，在實際場景里的效果依然有限，導致這個范式的真實潛力長期得不到驗證。

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 這件事一定得有人邁出第一步，工業(yè)界的人得邁出第一步，否則誰也無法真正訓練出高質(zhì)量的模型，也沒有一個公允的benchmark（基準測試）數(shù)據(jù)集來做評測。面對這個數(shù)據(jù)荒漠，我們算是種下了第一棵樹，希望將來能變成一片森林。

而這棵樹發(fā)芽了。

2025年3月，英偉達在GTC大會發(fā)布第一代具身基礎(chǔ)模型GROOT N1。而GROOT N1訓練所用真實世界數(shù)據(jù)里，約80%來自AgiBot World。

而開源的連鎖效應還不止于此。越來越多的學術(shù)團隊在用了AgiBot World之后，轉(zhuǎn)而采購智元的機器人本體做研發(fā)，因為在同一款本體上采集的數(shù)據(jù)，在這款本體上訓練出來的模型效果更好。

也就是說，數(shù)據(jù)開源帶來了生態(tài)，生態(tài)帶來了硬件銷量，硬件銷量產(chǎn)生更多數(shù)據(jù)。

同時我們也看到，機器人的數(shù)據(jù)工廠在建，開源生態(tài)在形成，下一個問題是：具身智能能否形成真正的數(shù)據(jù)飛輪？

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 數(shù)據(jù)飛輪絕對會存在。具身智能跟大語言模型一樣，數(shù)據(jù)飛輪的核心是：模型部署之后，在用戶的使用過程中持續(xù)接收到反饋，利用這些反饋不斷提升能力，最終變成用戶體驗的提升。機器人現(xiàn)在其實更需要這樣的飛輪，也更會催生這樣的飛輪。語言模型容錯度比較高，說錯幾個字、有些似是而非，用戶還能接受。但機器人如果是在工廠打螺絲，毫米級的精度，差一點可能就不行了，一定需要在現(xiàn)實部署中不斷遇到失敗場景，把這些數(shù)據(jù)采集回來持續(xù)提升，才能達到進工廠接近人類節(jié)拍的百小時、千小時MTBF（平均故障間隔）級別。

陳茜硅谷101聯(lián)合創(chuàng)始人這樣的一個數(shù)據(jù)飛輪，類比大語言模型的scaling law（縮放定律），它們是一回事嗎？還是有區(qū)別的？

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 基本上還是一回事。數(shù)據(jù)飛輪就是要在真正實地部署的形態(tài)下持續(xù)收集數(shù)據(jù)。這套我們現(xiàn)在已經(jīng)在所有機器人產(chǎn)品上作為標配搭售了，在用戶許可的情況下，會像自動駕駛的功能一樣，收集那些高優(yōu)的數(shù)據(jù)。

陳茜硅谷101聯(lián)合創(chuàng)始人部署的機器人收集到的數(shù)據(jù)，大概有多少比例可以回流回來再給你們進行訓練？

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 大概在5%以內(nèi)。因為大部分時間這些數(shù)據(jù)對我們來說沒有提升意義，因為都是成功的，屬于已經(jīng)會的東西。

陳茜硅谷101聯(lián)合創(chuàng)始人所以你們只需要失敗的。

姚卯青智元機器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長&CEO 對，要的是還不會的。不然天天這么多機器人在跑，全世界的存儲都存不下這些實時數(shù)據(jù)，大家都是觸發(fā)一些高價值的數(shù)據(jù)。

但飛輪能轉(zhuǎn)，不代表轉(zhuǎn)速能達到預期。這里有一個比飛輪更基礎(chǔ)的問題：具身智能的scaling law（縮放定律）是否成立？

在語言模型里，這個問題有明確的答案：數(shù)據(jù)翻倍、模型變大，能力就會涌現(xiàn)。但機器人行業(yè)，目前還沒有答案。

張凱峰 Sharpa研究科學家、學術(shù)負責人我們需要看到：隨著數(shù)據(jù)量增加、模型規(guī)模變大，能夠有智能的涌現(xiàn)，能夠?qū)崿F(xiàn)任務(wù)級的泛化能力。我認為現(xiàn)在還沒有看到有任務(wù)級別的泛化，我們現(xiàn)在能看到的泛化往往是物體層面的——見過很多種類的物體，能夠?qū)崿F(xiàn)物體層面的泛化，也能實現(xiàn)環(huán)境層面的泛化，但任務(wù)層級的泛化，還沒有。

這里就是關(guān)鍵區(qū)別：物體泛化（見過類似物體就能處理）和任務(wù)泛化（從沒見過這類任務(wù)也能舉一反三），是兩個完全不同量級的能力。前者今天已經(jīng)在一定程度上實現(xiàn)，后者還沒有可信的證據(jù)。而這個證據(jù)，是整個機器人行業(yè)走向下一步進化的鑰匙。而在機器人大規(guī)模部署之前，我們可能都不會有答案。

PI的創(chuàng)始人Sergey Levine教授在他的Substack上寫道：在美國有約1萬家麥當勞，一旦每家麥當勞各放一臺機器人，每天工作兩小時，一年就能產(chǎn)生1000萬小時的具身智能訓練數(shù)據(jù)，比現(xiàn)有全球積累的總量還要多幾個數(shù)量級。

在今年3月底，智元率先在產(chǎn)量上突破了10000臺具身機器人。我們距離找到這把機器人的數(shù)據(jù)鑰匙，是否更近了呢？我們拭目以待。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.