文 | 硅谷101
當Scaling Law讓大語言模型一路狂飆,用萬億參數涌現一代又一代更強大的智能之際,機器人領域卻被數據荒漠所困,讓具身智能的泛化性和自主性進展遲緩。
![]()
為什么AI能用的數據,機器人用不了?機器人的四層數據金字塔是如何運作的?每一層的進展和技術困境分別是什么,以及,我們如何才能解決機器人的數據難題呢?
這篇文章繼續我們的“機器人專輯”,之前我們已經講過了靈巧手、機器人閉源模型和開源模型,這一期我們來聊聊這個領域一個非常核心的部分:數據。
為此,我們飛到上海,走進了機器人數采工廠,甚至有機會親自嘗試了一下“遙操作采集員”這份工作。除此之外,我們也跟智元、Sharpa等機器人公司們一起深入聊了聊,當前機器人數據的技術路線以及未來發展。
稀缺的機器人數據,真實缺口有多大?
首先我們來回答一個問題:什么是機器人數據?它跟AI大語言模型,以及圖片和視頻模型的數據有什么不同呢?
大語言模型是靠“吃掉互聯網”變聰明的。GPT-4的訓練數據量以萬億token計,相當于把人類有記錄的知識積累全部攝入。
簡單來說,AI生文、生圖以及生聲音、生視頻的模型參數都可以在互聯網上找到。大語言模型用的是“世界的文本語言”,包括文本、代碼以及標注過的結構化文本,來幫助AI理解和生成“語言序列”。類似的,圖像模型用的是“世界的瞬間截圖”,聲音模型用的是“世界的震動信號”,而視頻模型用的是“世界的連續變化”,而這些數據,都大量存在互聯網上。
而機器人需要的數據是具身本體在真實物理世界里,和具體物體發生具體交互時產生的多維度傳感器信號:視覺、力覺、關節位置、電機控制量,全部精確同步,時間戳對齊,才構成一條有用的訓練軌跡。
這些信息從來沒有被系統性地記錄過,也沒有任何理由會被被動產生。
![]()
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 機器人完整的數據,包括各種傳感器所帶來的數據,有視頻,還有力觸覺傳感器等。它的輸出是對身體上每一個電機關節的控制量,能夠控制全身多達幾十個自由度的關節協調配合,去完成具體的任務。 它的難點就在于這些數據天然是不存在互聯網上的,它需要我們以某種方式去采集,無論是在真實環境里采集,還是在虛擬世界里采集,都需要先布設機器人、搭建場景,再引入遙操人員來控制機器人采集這類數據。
![]()
張凱峰 Sharpa研究科學家、學術負責人 我覺得數據最大的難點在于我們沒有辦法采集到機器人自己在干活的數據,我們能采集到的其實是人在操作的數據,比如動作捕捉(MOCAP data),比如YouTube數據。所以要做好teleoperation(遙操)、讓機器人自己去操作其實比較困難,主要原因是機器操作員是感受不到機器人的感受。
這就是整個行業數據困境的根源:每一條高質量數據都必須從零開始生產。我們來用幾個數字,試圖展示一下這個缺口有多大。
谷歌DeepMind在研發機器人模型RT系列第一代時,調動了13臺機器人,在辦公室廚房環境里持續采集了整整17個月,才積累了約13萬條操作軌跡、覆蓋700多項技能。
為了訓練RT-2,谷歌聯合了全球34所研究機構,把60個已有數據集全部合并,加上來自22種機器人平臺的真機數據,才湊出了Open X-Embodiment,一個包含超過100萬條操作軌跡的開源數據集。
![]()
這已經被認為是目前全球最大的跨機構真機數據集,但即便如此,它涵蓋的527項技能和對應的場景,和現實世界的需求之間,依然是以數量級計的差距。
面對如此難獲得的機器人數據,怎么辦呢?如今,行業摸索出了四條并行路線。它們的質量從低到高排列,構成一個金字塔,每一層都有自己的優勢、上限和真實代價,接下來我們來一層一層給大家拆解。
數據金字塔頂層,準確但昂貴的真機數據
金字塔的頂層,就是遙操數據,又被稱為“真機數據”。操作員通過外骨骼或遙操系統,實時控制機器人在真實場景里完成操作,機器人所有傳感器全程錄制。這層數據信息最完整,真實的物理接觸、真實的不確定性、真實的失敗和恢復,是今天讓機器人真正能在現實場景落地的核心原材料。
我們也正好有機會來到上海,走進智元機器人的數據采集工廠,看看真機數據是怎么采集的。
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 我們這里有200臺機器,每臺機器至少配一個采集員,有些任務還會配備一位同事來搭配布置場景。
但你以為遙操員是一個很簡單的工作嗎?答案是:并不是。反正我們在現場試了一下,發現這個工作還是很有門檻的。
陳茜 硅谷101聯合創始人 一個數據采集員,他需要什么樣的資質才能把這個數據采集好呢?
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 我覺得最重要的是天賦,好的數據采集員和差的數據采集員,效率可能相差3倍。我認為一個有天賦的數據采集員,首先是協調性非常好、空間感特別強的人。因為在采集數據的過程中,其實是在隔空控制另外一個身體,沒有直觀的觸覺反饋,只能通過肉眼來閉環。機器人手臂和人手臂的構型也不一樣,人能達到的很多姿態,機器人未必能夠到,所以還要預判機器人怎樣才能更高效地夠到目標,再去設計自己的動作軌跡。其次是對空間的精度判斷要很準,如果空間感差,明明想讓機器人去抓,結果抓過了,或夠不到,或一夾就滑,這種情況都非常常見。還有就是體力要好,一天下來其實非常辛苦。
智元機器人采集員 有些人是站著采的,有些人坐著采,兩種感覺不一樣。
陳茜 硅谷101聯合創始人 從剛入門的一個采集員到你這樣的金牌采集員需要多長時間?
智元機器人采集員 入職需要一周培訓時間,培訓完先入門,之后任務難度逐級遞加。
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 即使是有天賦的采集員,從零基礎到九成功力,大概也要一個月。Zero to hero(從平凡到英雄),要一個月吧。
對于一個專業的金牌數據采集員來說,我剛才失敗了N次的機器人擺放字母的任務,他一次就搞定了,而這樣的數據采集,為的就是機器人的精確控制能力。但就算是專家水平的遙操員,也不是每一條都可以被算作是有效數據的。
陳茜 硅谷101聯合創始人 人類遙操數據的成功率是多少?任務難易程度不一樣可能也會影響,我很好奇這個效率怎么算?
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 一個專業遙操員,8小時工作大概能平均產出2到3小時的有效數據。因為中間必然會涉及兩個采集之間的場景布置、數據上傳,以及操作失敗后的丟棄和重試。
陳茜 硅谷101聯合創始人 所以就大概1/ 4。
所以,真機數據的優勢是準確,更容易直接部署、后期調參成本也更低,但它的代價也非常直白:貴,并且慢,不容易指數級擴張。
數采工廠涉及到硬件成本、場地成本、人工標注和監督成本,以及時間成本,與互聯網數據相比,規模完全不是一個量級。
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 我們今年真機產能有200萬小時,對應著接近2000臺機器人和背后規模相當的采集員團隊。
陳茜 硅谷101聯合創始人 這個規模會越來越大嗎?
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 真機今年差不多穩定在這個水平,當然也會根據市場的動態需求相應擴產。 不可否認,人力成本我相信一定會是將來競爭力和效率里非常重要的一環。這也是為什么中國發展起了大量的數據采集,而美國相對進展比較緩慢,此前特斯拉招聘采集員的薪酬就是50美元一小時。如果是100萬小時,今天放在全球就一定是碾壓式的存在了。
陳茜 硅谷101聯合創始人 但100萬小時就能解決問題了嗎?
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 我覺得在一些特定領域100萬小時應該可以達到非常好的效果了。今年我們接觸了很多有數據需求的客戶,作為覓蜂的話,我們也在看很多客戶的需求,提出100萬小時需求的單個客戶已經非常多了。這只是第一步,大家到了100萬一定會想1000萬。但即使是1億小時,對于大型人工智能公司每年的基礎設施投入來講,也還是一個非常可控的部分。
![]()
順便說一句,智元正在將真機數據做成一站式的物理AI數據服務平臺,想要解決的就是當前機器人行業面臨的真機交互數據荒漠的問題。
覓蜂科技,押注的是構建物理 AI 數據基礎設施,實現真機遙操、無本體采集、仿真數據全范式覆蓋,并打通硬件、軟件、平臺、運營的全鏈路。覓蜂科技2026年真機遙操產能接近200萬小時,同時規劃采集約800萬小時的Human-Centric數據,背后是將近2000臺機器人和對應規模的采集團隊,在中國國內以及東南亞多地同步運作。 可以看到,這就是機器人行業中的“石油業務”,而數據生態正在迅速崛起,并且需求量非常大。
金字塔第二層,仿真合成數據
金字塔從上往下的第二層,就是“仿真合成數據”這條規模效應最極致的路線,這也是黃仁勛的英偉達重點押注的路線。
順便說個小八卦,聽說黃仁勛的一兒一女都在英偉達的Physical AI仿真部門,可見老黃對這一塊有多看重。
簡單來說,這不是從真實世界采集,而是在虛擬環境里“生成出來”的數據。與一條一條訓出來的真機數據做個對比:英偉達Isaac Lab可以在單臺GPU上并行運行成千上萬個虛擬機器人同時訓練。規模可以是無限的,你想要多少數據,就有多少數據。
![]()
比如說,機器人公司Sharpa在2026年CES上超火出圈的乒乓球機器人,就是花了40個小時用純仿真數據訓練出了0.2秒量級的擊球反應速度,這就是這條路線的一個具體案例。
仿真還能做一件真機采集做不到的事:生成現實中極難遇到的邊緣場景。機器人在仿真里可以反復摔倒、反復失敗,所有失敗都成為數據,而不造成任何真實損失。
此外,Sharpa的研究科學家還告訴我們,仿真技術讓“觸覺”這種真機更難采集的數據有了新的突破。
張凱峰 Sharpa研究科學家、學術負責人 我們最近跟英偉達合作了一個觸覺仿真工具叫Tacmap,它做了這樣一件事:對于傳統視觸覺而言,你需要在simulation(仿真)里建模視觸覺指尖,但你沒辦法在simulation(仿真)里安裝攝像頭去觀察marker(標記)點的形變。所以我們提出了Tacmap。
![]()
它用物體與指尖穿膜的深度圖作為介質,在仿真里可以高效獲取這個deformation map(形變圖),并且具有良好的物理特性。在現實環境中,我們也通過類似方式獲取deformation map(形變圖),通過大量數據采集訓練了一個翻譯模型叫translation model,將raw image(原始圖像)翻譯成deformation map(形變圖)。基于這個deformation map(形變圖),我們實現了一些技能的Sim-to-Real(從仿真到現實),能夠完成一些精細化操作。
當然,這個路線有一個巨大的漏洞,就是嘉賓剛才提到的Sim-to-Real Gap,字面意思是“仿真到現實的鴻溝”。問題的本質是:機器人在虛擬環境里練得再好,放到真實世界里往往會出問題。為什么會這樣呢?
因為仿真環境是人用代碼構建的物理世界的近似,但真實世界的物理復雜得多。
舉一個最簡單的例子:機器人在仿真里學會了抓一個塑料杯子,仿真里這個杯子的重量、摩擦系數、形變方式都是固定的參數。但真實世界里,濕手拿杯子和干手拿杯子的摩擦系數不一樣,杯子里有沒有水重量也不一樣,光滑桌面和粗糙桌面上的杯子滑動方式不一樣。這些細節,仿真里要么沒建模,要么建模不夠精確。
總的來說,運動學層面的問題,包括關節怎么彎、手臂走什么軌跡,相對容易在仿真里做好,放到真機上效果也還行。但真正難的是動力學層面,比如物體之間接觸時力怎么傳遞、軟性材料怎么形變、液體怎么流動。這些現象對今天的物理引擎來說還很難完整復現。
![]()
結果就是:機器人在仿真里練了一萬次疊衣服,放到真實的毛衣面前,因為布料的柔軟程度和仿真里的參數對不上,動作就會出錯。這不是模型不夠聰明,是它從來沒有經歷過真實的物理接觸。
目前,行業中的解決辦法包括:域隨機化(不去做一個“完美仿真”,而是做“很多不一樣的仿真”,逼模型學會忽略差異、抓住本質),還有把仿真做得更好更真(這也是英偉達主要在做的事情),以及用少量的真機數據去微調。但張凱峰認為,最終還需要一個更創新的解決之道。
張凱峰 Sharpa研究科學家、學術負責人 現在很難解決的一個動力學的Sim-to-Real Gap(從仿真到現實的鴻溝)是環境的dynamics(動力學),也就是說你很難對齊這個物理世界的環境和現實世界的環境的遷移,也就是我們所說的transition model(狀態轉移模型),所以這是我覺得是目前還需要一些科學方法上的創新。
除了Sim-to-real,Real-to-sim Gap(從現實到仿真的鴻溝)也是目前行業中的核心挑戰,這個詞和Sim-to-real是反過來的,意思是你沒辦法把真實世界準確“搬進”仿真里。
因為現實世界太復雜了,咱們的真實環境中有無限的細節、噪音和不規則的事件,還有很多難以觀測的參數。所以仿真世界,其實沒有那么好建。
金字塔第三層,動捕數據
我們繼續往機器人的數據金字塔下面走,到第三層,動作捕捉數據。動作捕捉數據集,被稱為MOCAP。這個派系是用光學設備或視覺算法追蹤人手的運動軌跡,比純視頻多了“怎么動”的信息維度。
動捕數據的本質是記錄“人是怎么動的”,然后再把這個動作“映射”到機器人上。比如說,機器人算法公司Physical Intelligence的π0系列就大量使用了這類數據。π0.5在大約400小時移動操作數據和大規模網絡數據的基礎上,實現了在真實家庭環境里完成長程任務的能力。
它的優點是:數據質量高,尤其在運動結構上,能大幅減少無效數據,對復雜動作特別有效。大家看到的很酷炫的很多機器人跳舞,武術等等任務都是用到了動作捕捉的數據收集,這是純強化學習很難達到的效果。
但這個路線除了成本貴和數據覆蓋有限之外,還有一個很關鍵的劣勢就是:人畢竟和機器人的結構不一樣,這就是Embodiment Gap(具身鴻溝)。
張凱峰 Sharpa研究科學家、學術負責人 一方面,視覺上看到的是人的手,而不是機器人的手,所以存在視覺上的gap(差異)。第二個問題是state(狀態)上的gap(差異),通過動捕或其他方式得到的state(狀態)其實不夠準確,會有自遮擋的問題,也會有被物體遮擋的問題,所以得到的動作也是不準確的。
Embodiment Gap的意思是,人的身體和機器人的身體之間,有一道操作語義上的溝壑。人手在操作時依賴皮膚上密布的觸覺感受器,每抓一個物體,神經系統都在實時根據觸覺反饋調整力度。機器人沒有這套系統,所以即使動作軌跡被精確復制,完成任務的能力也不會自動跟上。
除了Embodiment Gap,還有另外一個沒有克服的難題,叫做Functional Retargeting。它的意思是,機器人只是在模仿動作的形狀,而不是理解這個動作要完成什么。
張凱峰 Sharpa研究科學家、學術負責人 這意味著你把人的動作映射到機器人動作上之后,它只是做了運動學層面的對應,并沒有真正實現操作本身在語義上的對應。
也就是說,動捕數據會出現比如說關節角度超限、力矩不夠、平衡失敗等問題,這就讓這個層級的數據在一定程度上,和第四層的視頻數據一起,被認為是“低質量數據”。
金字塔最底層,互聯網視頻
從YouTube到抖音,人類完成各種任務的視頻海量存在。這是今天具身智能訓練里唯一真正“不缺”的原材料。但它能教會機器人什么?
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 更多是讓機器人的大腦模型學習一種通用的表征,比如簡單認知以及對物理規律有粗淺的認知,但它還只停留在認知階段。
姚卯青用了一個有趣的比喻:看再多別人打乒乓球的比賽視頻,你第一天拿起球拍,也接不住球。視頻給機器人建立了關于物理世界的基礎認知,知道乒乓球是什么形狀,知道打球大概是什么動作,但從“知道”到“會做”之間,隔著一道鴻溝。視頻里根本沒有動作信號,只有結果。
互聯網上的海量視頻數據,也被Sharpa稱之為最低質量的數據。
張凱峰 Sharpa研究科學家、學術負責人 YouTube videos最大的劣勢是它沒有力和觸覺信息,優勢是量非常大,能給我們提供一些有用的信息:一是世界是怎么變化的,比如我們常常講World Models(世界模型),就是利用這類in the wild(自然場景下)的數據來訓練World Models(世界模型);二是能給我們一些操作信息,比如affordance(預設用途)是什么,這對操作來講也非常關鍵。
再進一步聊視頻作為機器人數據之前,我們引入兩個關鍵的概念,分別是Egocentric和Human-Centric。這兩個分類是視頻數據中被認為對機器人最有用的數據。
![]()
Egocentric的意思是“自我中心數據”,也就是“以機器人的視角看出去”,看到桌子、杯子、自己的機械臂、甚至還有遮擋、接觸和動態變化這樣和行動綁定的“第一視角視頻”,并能直接用于決策的數據,被稱為Egocentric。
為什么這個視角很重要呢,是因為機器人從攝像頭,特別是人形機器人,看到的視角就是這樣的。
蘋果在2025年5月發布了一個Egocentric的數據集名為EgoDex:用Apple Vision Pro采集了829小時第一人稱視角視頻,每一幀都配有手部每個關節的精確3D追蹤數據,覆蓋系鞋帶、折疊衣物等194種桌面操作任務,數據集完全開源,希望推動機器人靈巧操作研究。
![]()
最近,我們剛才提到的覓蜂科技也推出了MEgo系列無本體數據采集設備MEgo Gripper和MEgo View,搭配MEgo Engine一站式數據治理服務平臺,試圖降低物理AI數據采集對實體機器人本體的依賴,讓高質量的第一視角數據走向輕量化、規模化和全場景化。
另外一個詞,Human-Centric數據的意思是圍繞“人類行為、意圖、偏好或示范”來構建,用來讓機器人學習人類想要的行為方式。比如說人類抓杯子,人類開門,人類折疊衣服這類“人直接做給機器人看”的視頻能讓具身智能理解“人想達到什么目標”,以及人類標準中的“正確做法”。而Human-Centric數據可以是第一視角,也可以是第三視角。
我們總結一下,Egocentric是第一人稱視角視頻,但任務不一定和人相關。而Human-Centric是人類意圖的視頻。這兩者相交集的區域就是Egocentric+Human-Centric,指的是“人類在第一視角下完成任務的數據”,這被視為是視頻數據里,最有價值的部分。
![]()
比如說,英偉達在今年3月推出的EgoScale,就使用超過20000小時的人類視頻進行預訓練,涵蓋數千個獨特的任務和環境。精確的骨骼手部追蹤使模型能夠提取并重新定位21個人體運動關鍵點,從而構建統一的機器人動作空間。
所以,雖然YouTube data被機器人專家們各種嫌棄,但因為它的海量存在和低成本效應,如果某家公司通過某種技術突破讓這些互聯網視頻變得“更可用”、能大幅提升機器人表現,那將有巨大的前景,而這也正是目前各大公司押注的重點。
特斯拉在2025年6月做了一次重要的策略調整:把此前依賴動作捕捉套裝和VR頭顯的采集方式,換成了攝像機頭盔,讓工人戴著裝有5個攝像頭的裝備錄制日常操作視頻,再用這些視頻訓練Optimus,公司內部表示這樣能“更快規模化”。
![]()
順便說一句,自動駕駛就是Egocentric的數據,而且FSD也是用視頻數據驅動汽車這個物理本體的案例,所以Optimus會在視頻數據路線上再次押注,這也非常符合馬斯克的第一性原理。
而同時,初創公司們也在如何將“低質量數據”變得更可用這個路線上,也有著非常積極的嘗試。
在今年年初,Sharpa發布CraftNet,他們用一套觸覺反射層(System 0)做補償:機器人上層策略只需給出粗糙的動作意圖,底層觸覺感知系統根據實時力反饋自動完成精細調整。這個設計從硬件層降低了對上層數據精度的要求,使低質量動作捕捉和視頻數據也可以被利用起來。
![]()
張凱峰 Sharpa研究科學家、學術負責人張凱峰 因為有了System 0,所以我們可以達到一個點石成金的效果,能夠把大量的低質量數據用起來。System 1只需要給出粗糙的動作意圖和手勢,就能夠實現fine manipulation(精細操作)的能力。
說完了機器人數據的四層金字塔結構,各自的優劣勢以及各層級正在發生的進展,就會發現魚與熊掌不可兼得的真理,真的是有道理的。最精確最高質量的真機數據是最少最難獲取的,而最容易獲取的視頻數據又是質量最低最不可用的數據。
所以,行業現在的做法是:把他們混合起來用,能不能又平衡數據質量,又能平衡一下成本呢?那么這個混合的配方又是如何的呢?
各家公司的混搭配方,數據與成本如何取舍?
我們在業界跟很多機器人公司聊,目前普遍的共識是,這個四層金字塔代表著數據的不同來源,并且也要適配不同的具身本體和模型,沒有一個統一標準,每個公司會有自己的配方和天平。
陳茜 硅谷101聯合創始人 它到最后可能是一個整合的solution(解決方案)?它們各自的比例大概是什么樣子?
![]()
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 對,它會是一個整合的solution(解決方案)。現在很難說什么樣的比例是黃金配方,因為這不是一個簡單配比然后達成單一目標的問題。首先在技術路線上還有很多路徑在探索,并沒有歸一到一種確定的范式。其次,訓練機器人模型的目標也不是唯一的:有些情況是讓機器人在某個特定場景干到極致,比如工業場景中人的節拍效率和100%的成功率;有些場景更看重泛化性,成功率98%、99%也可以接受,甚至允許人在過程中做一些干預、接管兜底,但對泛化性要求很高。面向不同目標,用到的數據比例也會不一樣。
對Sharpa來說,答案也很類似,不同的任務他們采取了不同的數據策略。
![]()
張凱峰 Sharpa研究科學家、學術負責人 我們的乒乓球機器人是在仿真里面訓練的,大概是訓練了40小時左右,我們的發牌機器人用的是 imitation(模仿學習)的方式來訓練的,它大概是用到了兩三百小時的teleoperation data(遠程操作數據)以及一些Egocentric的數據。
張凱峰也給了我們一個很平均的估算,在訓練較為復雜的任務中,各層數據之間的軌跡數量比大約是,遙操作數據:動作捕捉數據=1:100,動作捕捉數據:互聯網視頻≈1:100。換算下來,遙操作數據在整個數據池里大約是萬分之一的存在。但就是這萬分之一,往往是最終決定模型能否在真實場景落地的關鍵。
張凱峰 Sharpa研究科學家、學術負責人 非要我選一個更重要的點,我會選數據質量,因為只有高質量數據才能訓練出有用的模型。但如果數量很難規模化,我們就需要做折中,就像我剛才講的數據金字塔方式,把每一部分數據都利用起來:既能理解環境的變化,也能理解操作的語義,最終幫我們完成操作任務。數據的“捷徑”硅谷路線
以上我們聊到了智元這樣的中國機器人公司如何處理數據問題:太貴、太慢,就直接把它做成工廠,利用人力成本和效率優勢來打造護城河。但硅谷幾家最受關注的機器人公司,卻不得不走數據的“捷徑路線”。
7.1 PI:讓機器人在真實試錯中自我進化
比如說Physical Intelligence的數據策略就靠精度加迭代。他們在舊金山Dandelion Chocolate工廠部署了一臺機器人整天打包巧克力盒子,同時在辦公室提供咖啡服務,員工在Slack里發“我要一杯拿鐵”,機器人就去做。創始人Sergey Levine的哲學是:看當機器人不得不在真實世界完成任務時會發生什么,以及這類部署的數據能如何繼續改善系統。
![]()
在這個基礎上,PI試圖讓機器人在真實部署里通過強化學習持續自我改進。
2025年11月發布的π0.6,用一套叫RECAP的方法,在折疊衣物、裝紙箱、做濃縮咖啡等任務上,把最難任務的吞吐量提升了一倍以上,失敗率降低了約一半。2026年3月發布的RLT方法,引入了一個特殊的輸出token,作為VLA模型與輕量級強化學習策略之間的緊湊接口,只需幾小時真實操作練習,機器人在精細操作任務上的速度就能提升三倍,某些動作甚至超過人類遙操員。
這條強化學習路線的吸引力在于:機器人自己產生自己的訓練數據,繞過了人工采集。但它有三個今天還沒有好答案的真實問題。
第一是獎勵函數。衣服疊得“夠好”的標準很難量化,定義不準機器人就會找捷徑,比如把衣服揉成一團塞進角落,因為這樣“占用空間最小”,滿足了某個錯誤的優化目標。
第二是安全邊界。機器人在客戶生產線上試錯,每次失敗都有現實代價:損壞產品、影響節拍、甚至傷到工人。
第三是數據歸屬。強化學習數據是機器人用客戶的物理空間和物理資產試錯產生的,所有權比遙操作數據更加模糊,遙操作好歹有明確的人工生產主體,但強化學習沒有。
如今PI在π0.6上驗證的場景,是相對結構化的任務,在受控實驗環境里運行了13小時。距離真實工廠大規模部署、在陌生場景里穩定運行,還有相當的距離。
![]()
除了強化學習路線,PI同時在探索用我們上面提到的Egocentric視頻補充訓練數據。PI在2025年12月發布的研究顯示,一旦機器人基礎模型積累了足夠的真實操作經驗,加入第一人稱人類視頻后,各個泛化任務的平均成功率接近翻倍。
7.2 Figure AI:把最大的房東變成數據采集場
2025年9月,Figure AI與全球最大另類資產管理公司Brookfield簽署戰略合作。Brookfield管理著超過10萬套住宅、5億平方英尺的商業辦公空間和1.6億平方英尺的物流空間。
Figure的計劃:在這些真實的家和寫字樓里,讓人戴著攝像頭拍視頻,用這些視頻訓練Helix模型,目標是建成“全球規模最大、最多樣化的人形機器人預訓練數據集”。Brookfield同時跟投了Figure超10億美元的C輪融資。
![]()
Figure隨后發布了初步結果:Helix模型在只用第一人稱人類視頻訓練、沒有任何機器人數據的情況下,已經能根據自然語言指令在雜亂的真實房間里導航移動。
7.3 Sunday Robotics:眾包做家務視頻
還有一家更小的創業公司Sunday Robotics,走的路更極端:直接付錢讓普通人在家里錄自己做家務的視頻,然后用這些視頻訓練機器人,把“數據采集員”變成眾包經濟的工作。
![]()
如果我們看看不同機器人公司如何押注數據路線,我們會發現,不同的市場因為生態不同做出了不同的決策:整個硅谷在往視頻數據靠,減少對遙操作的依賴,押注可以被動規模化的采集方式。這和中國公司的方向形成了差異化。
但這兩種選擇可能也無所謂對錯,因為我們還在行業的初期,任何的嘗試都是有意義的,特別是對于數據來說,開源更是一件廣受歡迎和好評的事。
種樹人和數據飛輪,開源百萬條數據換來的是什么?
2024年,智元做了一件讓行業困惑的決定:把自己辛苦采集的百萬條遙操數據,打包成AgiBot World數據集,免費向全球開放。
![]()
但這背后有一個被大多數報道忽略的行業困境。2023年到2024年,具身智能公司大量涌現,但整個行業面臨一個根本性的認知危機:沒有公共的數據基準,就無法判斷一個模型的訓練方法對不對。谷歌的RT系列和開源模型OpenVLA在學術界引發了廣泛關注,開創了VLA這個范式,但因為訓練數據全是學術級的數據集,在實際場景里的效果依然有限,導致這個范式的真實潛力長期得不到驗證。
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 這件事一定得有人邁出第一步,工業界的人得邁出第一步,否則誰也無法真正訓練出高質量的模型,也沒有一個公允的benchmark(基準測試)數據集來做評測。面對這個數據荒漠,我們算是種下了第一棵樹,希望將來能變成一片森林。
而這棵樹發芽了。
![]()
2025年3月,英偉達在GTC大會發布第一代具身基礎模型GROOT N1。而GROOT N1訓練所用真實世界數據里,約80%來自AgiBot World。
而開源的連鎖效應還不止于此。越來越多的學術團隊在用了AgiBot World之后,轉而采購智元的機器人本體做研發,因為在同一款本體上采集的數據,在這款本體上訓練出來的模型效果更好。
也就是說,數據開源帶來了生態,生態帶來了硬件銷量,硬件銷量產生更多數據。
同時我們也看到,機器人的數據工廠在建,開源生態在形成,下一個問題是:具身智能能否形成真正的數據飛輪?
![]()
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 數據飛輪絕對會存在。具身智能跟大語言模型一樣,數據飛輪的核心是:模型部署之后,在用戶的使用過程中持續接收到反饋,利用這些反饋不斷提升能力,最終變成用戶體驗的提升。機器人現在其實更需要這樣的飛輪,也更會催生這樣的飛輪。語言模型容錯度比較高,說錯幾個字、有些似是而非,用戶還能接受。但機器人如果是在工廠打螺絲,毫米級的精度,差一點可能就不行了,一定需要在現實部署中不斷遇到失敗場景,把這些數據采集回來持續提升,才能達到進工廠接近人類節拍的百小時、千小時MTBF(平均故障間隔)級別。
陳茜 硅谷101聯合創始人 這樣的一個數據飛輪,類比大語言模型的scaling law(縮放定律),它們是一回事嗎?還是有區別的?
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 基本上還是一回事。數據飛輪就是要在真正實地部署的形態下持續收集數據。這套我們現在已經在所有機器人產品上作為標配搭售了,在用戶許可的情況下,會像自動駕駛的功能一樣,收集那些高優的數據。
陳茜 硅谷101聯合創始人 部署的機器人收集到的數據,大概有多少比例可以回流回來再給你們進行訓練?
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 大概在5%以內。因為大部分時間這些數據對我們來說沒有提升意義,因為都是成功的,屬于已經會的東西。
陳茜 硅谷101聯合創始人 所以你們只需要失敗的。
姚卯青 智元機器人合伙人&具身智能業務部總裁、覓蜂科技董事長&CEO 對,要的是還不會的。不然天天這么多機器人在跑,全世界的存儲都存不下這些實時數據,大家都是觸發一些高價值的數據。
但飛輪能轉,不代表轉速能達到預期。這里有一個比飛輪更基礎的問題:具身智能的scaling law(縮放定律)是否成立?
在語言模型里,這個問題有明確的答案:數據翻倍、模型變大,能力就會涌現。但機器人行業,目前還沒有答案。
![]()
張凱峰 Sharpa研究科學家、學術負責人 我們需要看到:隨著數據量增加、模型規模變大,能夠有智能的涌現,能夠實現任務級的泛化能力。我認為現在還沒有看到有任務級別的泛化,我們現在能看到的泛化往往是物體層面的——見過很多種類的物體,能夠實現物體層面的泛化,也能實現環境層面的泛化,但任務層級的泛化,還沒有。
這里就是關鍵區別:物體泛化(見過類似物體就能處理)和任務泛化(從沒見過這類任務也能舉一反三),是兩個完全不同量級的能力。前者今天已經在一定程度上實現,后者還沒有可信的證據。而這個證據,是整個機器人行業走向下一步進化的鑰匙。而在機器人大規模部署之前,我們可能都不會有答案。
![]()
PI的創始人Sergey Levine教授在他的Substack上寫道:在美國有約1萬家麥當勞,一旦每家麥當勞各放一臺機器人,每天工作兩小時,一年就能產生1000萬小時的具身智能訓練數據,比現有全球積累的總量還要多幾個數量級。
在今年3月底,智元率先在產量上突破了10000臺具身機器人。我們距離找到這把機器人的數據鑰匙,是否更近了呢?我們拭目以待。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.