无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

對話覓蜂CEO姚卯青:全民參與具身智能數據采集的時代已來|甲子光年

0
分享至



要像投入算力一樣投入數據。

作者|衛琳聰

2026年,39歲的姚卯青有了新頭銜:覓蜂科技董事長兼CEO。他同時也是智元機器人合伙人、高級副總裁,主管具身業務。

2023年加入智元以來,這位清華畢業、工作履歷貫穿谷歌、甲骨文、蔚來汽車的行業老兵在具身智能領域做了不少工作。先后發布機器人智元精靈G2、智元啟元大模型GO-1,后者是全國首個通用具身基座模型。

除了模型和機器人,他的工作中還有一塊相對靠后但重要性日漸凸顯的領域——數據。

2024年,姚卯青牽頭建成行業規模最大、場景最豐富的數采超級工廠之一,并開源全球首個基于全域真實場景的百萬真機數據集AgiBot World。

到了2026年,數據開始占據姚卯青更多精力。2月份上海覓蜂具身智能科技有限公司成立,姚卯青擔任一把手。

姚卯青告訴「甲子光年」,他在智元做具身智能迭代的過程中發現,真正的卡點不在算法,而在數據。于是專門成立了覓蜂科技,想通過獨立的公司以更聚焦、開放的方式突破數據瓶頸。

覓蜂科技致力于構建物理AI數據基礎設施,“讓高質量物理AI數據像水電一樣即取即用?!?/strong>覓蜂在2026年4月發布MEgo系列無本體、可穿戴數據采集設備,并配套數據治理服務平臺MEgo Engine。

這背后更大的變化是具身智能數據掀起的熱潮。業內關于2026年是“具身數據元年”的說法不絕于耳,具身數據采集正從實驗室、采集場邁向全民參與。

近期,姚卯青和我們聊了聊他對具身數據的看法和做法。以下為「甲子光年」專訪姚卯青文字實錄,經編輯整理,略有刪改。


覓蜂科技董事長兼CEO姚卯青

1.百億小時具身數據能實現智能涌現,現在只有幾十萬

甲子光年:大家都知道具身智能缺數據,目前行業有效數據量級大概是什么級別?缺口有多大?

姚卯青:目前整個行業來講,我們認為有效數據在全球大概在幾十萬小時這樣的規模。但要達到像GPT-3.5那樣開箱即用的類人初步能力,我們認為大概需要一億小時量級。從幾十萬到一億,中間還有2~3個數量級的差距。

甲子光年覓蜂的目標是2026年達到千萬小時級數據產能,2030年達到百億小時。如果能達到百億級,對具身智能意味著什么?

姚卯青:百億級如果是高質量、多元化的數據,我們認為對機器人應該能達到甚至GPT-4的效果,通過超大規模數據訓練出的基礎模型,會具備一些專家能力。

甲子光年也就是說,達到百億小時數量級,就可能出現大家一直期待的智能涌現?

姚卯青是的,我們還是比較堅信的。

甲子光年最初為什么成立覓蜂?大家都知道覓蜂和智元有很強的聯系。

姚卯青:契機是大家雖然覺得具身智能是AI驅動、算法很重要,但經過我們前期迭代發現,核心卡點不在算法——算法可以通過優秀人員創新實現,但數據實在太少了。數據獲取需要時間、投入和迭代方法,不可能一蹴而就、一夜造出來。未來真正制約行業發展和形成壁壘的一定是數據。

具身智能的模型我們認為不會有強壁壘,只是投多少算力和工程人員的事。在這樣的背景下,數據是非常重要的商業模式。即使在AGI還沒出來之前,數據本身就有很大的市場。

所以我們孵化了獨立業務,讓它更聚焦,通過市場化方式融資獲得資金支持,讓數據采集、生產、標注的方法和基礎設施更扎實。作為獨立的第三方公司,也能更好地服務全行業用戶。

甲子光年如果為了提高數據量級,為什么不在智元內部做,而要成立覓蜂,以這種第三方的形式來做?

姚卯青:第三方業務更聚焦,覓蜂的人員唯一的OKR就是把數據這件事做好,大家更專注。另外可以獨立融資,有更多資金支持數據。最近有人建議全球具身智能從業人員停止研發一年,全來搞數據,不要再搞模型代碼——說明聚焦數據很重要。

再者,獨立公司的決策更公允,才能保證服務行業。在智元體內,可能會給自身團隊優先級和資源傾斜,至少外界會這么覺得。成為獨立公司,智元就是正常客戶,大家都一樣,有什么需求就來采購,大家一起排隊,該排隊就排隊。

甲子光年獨立出來也能更大量地采集數據,更開放?

姚卯青:對,更開放。智元的主要業務還是智能機器人,在各場景創造生產力價值,要聚焦那里。我們作為專門的數據公司,可以更開放、更大刀闊斧地搞各種數據創新。

2.眾包、加盟,全民采數據

甲子光年現在離2030年只有四年,數據量從幾十萬小時增長到百億小時,怎么能實現?

姚卯青:從當前量級到百億,涉及幾個點。

第一,大家在使用和迭代中逐漸探索、收斂出什么樣的數據是更好的標準——從采集設備、采集方式,到場景分布、任務分布,再到標注格式、顆粒度、準確度。這需要和數據用戶、模型團隊反復迭代,逐漸沉淀和收斂。

第二,要支撐這么大的數據量,必須變成全民參與的形式。我們公司的使命是"讓全世界的數據為AI所用",加速智能體的到來.所以首先要提供大量采集設備,做好產品定義和量產化;其次要有一套強大的數據傳輸、存儲和處理的軟件、算法基礎設施。

第三,要有好的機制來吸納、分配數據。達到這種成熟度,才能真正讓全世界數據為AI所用。

甲子光年:覓蜂具體會怎么擴大數據量?據說你們要用眾包和加盟的方式來采集?

姚卯青:是的,已經在做了,我們現在有不同形式的生態合作。一些獨立的數據采集運營團隊會根據我們的標準和流程進行委托式采集——我們規定任務和場景,委托他們按標準采集,我們驗收結算。

甲子光年:怎么找到足夠多的采集人員?

姚卯青:有兩種方式。一種是在很多城市,我們的運營伙伴會集中招募人員,比如從職業院校等渠道,安排到各種場景里采集。另一種是和勞務平臺合作,他們本身每天有很多外包員工在各行各業工作,工作期間就可以采集數據。

將來我們還會推出更面向全民的形式:大家可以領取設備,把自己認為有價值的場景錄制成數據,我們根據質量、場景新穎性和價值來判定,有價值就會購買。這是純全民參與的眾包形式。

甲子光年:這種全民參與的形式,是由覓蜂直接開放組織嗎?還是通過中介?

姚卯青:前期我們直接在自己平臺上招募、篩選。估計會有很多人相應,在有限資源下,我們會篩選申請者,分配設備,規定需要的場景任務,他們采集后我們核驗。目前主要還是跟勞務公司合作,招募外包員工采集。


采集人員使用覓蜂的設備進行數據采集

甲子光年:加盟的采集方式具體會怎么做?

姚卯青:我們在各個地方有加盟的采集基地,往往是一些具備運營能力的伙伴——有人力、運營能力和本地場景觸達能力。他們拿著采集設備,自己招募人員,分配場景和所需數據時長,讓他們進入可觸達、可控制的場景里采數據。

甲子光年:這些合作方以前就是做數據的嗎?

姚卯青:都有,有些過去做其他領域的數據,比如自動駕駛、語言模型、機器視覺等。也有些原來不是做數據運營的,我們可以從零培訓他們如何管理和運營采集隊伍。

甲子光年:如果以前不是做數據的,他們可能有什么基礎適合加盟合作?

姚卯青:沒有特別強的標準。很多做算力運營的也有一定資金實力,這是需要的——因為要持有一批設備、招人,采集數據肯定有成本支出。

甲子光年:相當于是輕資產運營,加盟方或眾包組織方提供人力、場地,你們提供采集設備,他們采集后返回數據給你們?

姚卯青:對。

甲子光年:這個模式和真機采集、大型數據場采集相比,效率能提高多少?成本能降低多少?

姚卯青:人員采集效率有提升。真機采集8小時可能產出2~3小時有效數據,但像這種無本體、可穿戴設備,8小時采集甚至能產出5小時左右數據,幾乎翻倍。

成本上人力取決于人效,物力方面無本體采集用的設備比機器人真機便宜很多。

甲子光年:數據采集回來后要怎么用?

姚卯青:采集回來首先要做處理,處理完的數據才會給算法用戶做模型訓練。要做位置提取、語義標注、任務描述標注,有些情況下還要做視覺語義標注,做同一時間下各路傳感器、執行器的對齊,可能還要打語音標簽等。這些都做完形成數據集,才能交付使用。

甲子光年:你們還配套推出了數據處理引擎,這對數據采集的成本、效率有改善嗎?

姚卯青:是的,人員高效采集能減少不必要的時間浪費和低質量數據積累。采集完后的數據管線——位置提取、標注、預標注、清洗等,引入自動化環節,各方面都能提效。

3.標準不是拍腦袋想出來的

甲子光年:覓蜂想要成為具身數據的基礎設施,不過具身數據和機器人本體綁定性強,你們采集的數據能面向行業通用嗎?

姚卯青無本體數據天然和機器人本體解耦,大家都能用。其實真機數據本身也可以跨本體使用。真機數據很多時候用于預訓練階段,學術上驗證過,用某些機器人本體產生的數據進行預訓練得到的模型,可以通過少樣本的后訓練數據微調,在另外的本體上落地部署。

甲子光年:這些數據的使用方主要是哪些?

姚卯青:主要是機器人、具身智能的研發團隊,包括機器人公司、大廠的具身團隊,還有大模型和視頻生成類公司,現在也叫世界模型。

他們使用完靜態互聯網數據后,需要更多真實物理世界的、與環境有交互、有任務執行和規劃的數據,來進一步提升多模態模型的智能化程度。這些都需要物理AI的數據。

甲子光年:你們發布了“蜂巢數據共創行動”,合作方很多。具體如何共創合作?

姚卯青:蜂巢數據共創行動里有不同參與角色。一類是場景提供方,他們有很多場景愿意開放出來做數據變現,對我們很有價值。第二類是本身在做數據生產、標注業務的。覓蜂希望成為平臺型公司,以靈活方式鏈接數據需求和供給,他們可以通過覓蜂平臺交易,觸達數據使用方。還有一類是和覓蜂合作、具備運營能力的委托數據生產方。

甲子光年:目前比較需要哪些場景?

姚卯青:像零售、酒店、物流、家居、家政、工業,各種各樣的場景都希望有。

甲子光年:比如一個藥店小老板,如果愿意合作就可以把設備放到他店里采集,是嗎?

姚卯青:對的。

甲子光年:現在不少地方政府牽頭建設大型數據采集場,覓蜂和這些采集場之間是什么關系?

姚卯青:我們和采集場有一些合作,他們算是我們的委托生產伙伴。覓蜂自己輕資產,人力密集型采集會委托采集場按我們的標準和流程進行采集。

甲子光年:市面上其他數據供給方,也可以通過覓蜂平臺進行數據供給和交易嗎?

姚卯青:是的。

甲子光年:在這種平臺模式下,覓蜂未來的商業模式是什么?賺哪部分錢?

姚卯青:覓蜂做數據的高價值增值部分,比如采集回來的數據,我們通過覓蜂的數據平臺做精細的后處理、標注、位置提取等,把原始數據變成模型能直接用于訓練VLA、世界模型的數據。我們從數據處理這部分獲取商業價值。

甲子光年:也就是說,你們還是希望從提高數據質量和附加值上賺取收益,而不是像互聯網平臺那樣做撮合交易、賺傭金?

姚卯青:對,不是簡單收取傭金的模式,這里面有很多技術含量。

甲子光年:大家談到具身數據都會說缺數據、質量低、沒有統一標準。覓蜂的模式能推動數據標準建立嗎?

姚卯青:我覺得可以。現在沒有標準是因為大家都沒有找到快速迭代標準的路徑。標準不是拍腦袋想出來的,一定是在使用中迭代收斂的。過去大家碎片化地滿足自己的數據需求,找一堆供應商,從質量、場景到采集設備五花八門,很難高效沉淀出真正有效的格式和質量標準。通過覓蜂提供大批量快速標準化的服務,我相信大家能和我們一起,通過模型效果的反饋來更快迭代出這套標準。

甲子光年:具身數據這個生態里,現在不同參與方更多是各自為戰,覓蜂怎么推動大家達成數據標準?

姚卯青:標準本身不是為了推而推就能推出來的。我們懂數據,不是簡單的開環盲采。覓蜂有數據閉環的團隊和能力,知道數據要經過怎樣的后處理,也會通過模型評估評測來閉環驗證數據效果。通過這些方法和能力,我們能保證和用戶一起設計、迭代出來的數據是真正能為模型所用的。最終這就是一個事實標準。

4.大力出奇跡

甲子光年:很多機器人廠商覺得數據是核心壁壘,更傾向于自采自用,不共享。但你之前在智元推動開放了100多萬條機器人軌跡數據集和仿真框架。不擔心沖擊自己的數據壁壘嗎?

姚卯青:不太擔心。整個行業太早期了,大家都需要高質量數據來啟動創新研發。沒有這些數據,所有創新都會被扼殺在搖籃里。

另外我們的開源是有設計的,不是盲目開源。我們會篩選典型場景和任務,保證質量有效后再開源。但背后還有更大的不開源部分。開源相當于讓大家試用,感受高質量數據的價值,但真要走到AGI、走到通用模型,需要的數據量還有幾個數量級的差別,這部分可以用閉源方式構建壁壘。

甲子光年:如果大家都不開源、各自為戰,數據量上不去、質量也差,但核心東西各家也不敢放出來。這怎么平衡?

姚卯青:我認為逐步會往閉源方向走。數據很核心,大家花了很大代價構建數據壁壘,會越來越多地像投入算力一樣投入數據。如果有足夠預算,大家不會完全依賴開源數據迭代能力,更可能和覓蜂這樣專業的一站式平臺合作,獲取定制化數據需求。

甲子光年:也就是說具身數據還是會以閉源為主?

姚卯青:對,將來全球總量肯定以閉源為主。

甲子光年:所以即便覓蜂做平臺基礎設施,也是定制化合作會更多?

姚卯青:是的。

甲子光年:之前大家討論比較多的是真機遙操采集,現在包括覓蜂在內,不少團隊都在做無本體采集。數據采集的范式發生變化了嗎?

姚卯青:肯定有很多新的數據需求在涌現,但也不是替代或互斥的關系。面向預訓練、前沿探索,大家需要以人為中心、無本體的數據,研究如何將人的行為遷移到機器人。但面向場景真正落地、形成部署或做demo,大家一定依賴真機數據,因為那是后訓練的范疇,必須用本體數據。不同用戶會產生不同的數據需求。

甲子光年:為什么之前真機采集數據比較多,無本體采集聲浪小一些?

姚卯青:因為真機數據直接拿來就能用,非常確定。有真機數據就可以訓練機器人的策略,直接部署。

直到今天,這也是一個開放式問題:無本體的數據有效性到底如何?怎么遷移到機器人上高效高性能運行?這還在探索中,比較前沿。

甲子光年:這跟機器人的發展階段有關嗎?前面大家在造本體,需要更精確;現在相對成熟,要做更大規模部署,就需要更大量數據,無本體采集能更快、更多地獲取數據?

姚卯青:對,這是其中比較重要的一個方面。大家都在沿用大語言模型的路線,相信大力出奇跡,只要數據夠多。在這種情況下,想盡可能短時間獲取盡可能多數據,無本體是一種scale up的方式。雖然它的數據質量和可用性有一些疑問,但至少容易堆量,哪怕從試錯角度,大家也愿意先嘗試。

(封面圖片來源:智元機器人官網;其他圖片來源:覓蜂科技)



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
茅臺董事長陳華:即便沒有喝過茅臺的消費者,也知道茅臺是最能代表中國白酒的品牌

茅臺董事長陳華:即便沒有喝過茅臺的消費者,也知道茅臺是最能代表中國白酒的品牌

新浪財經
2026-06-11 15:39:53
首秀連吃2紅牌!半場9人作戰,南非主帥發聲,態度強硬,或遭處罰

首秀連吃2紅牌!半場9人作戰,南非主帥發聲,態度強硬,或遭處罰

萌蘭聊個球
2026-06-12 08:55:35
渦扇20對中國航空發動機提升的意義

渦扇20對中國航空發動機提升的意義

喜之春
2026-04-15 06:28:37
200萬拿下280平!61歲港星楊玉梅直言:這點錢在香港只夠買個廁所

200萬拿下280平!61歲港星楊玉梅直言:這點錢在香港只夠買個廁所

行者聊官
2026-06-12 09:13:50
谷愛凌一家遭排擠?美媒報道谷燕遭鄰居投訴,豪宅外垃圾遍地

谷愛凌一家遭排擠?美媒報道谷燕遭鄰居投訴,豪宅外垃圾遍地

藝兔體壇
2026-06-11 15:15:51
菲防長沒想到,中國制裁說來就來,多名親屬受牽連,馬科斯也沒招

菲防長沒想到,中國制裁說來就來,多名親屬受牽連,馬科斯也沒招

小俎娛樂
2026-06-12 00:03:30
今日賽事!6月12日CCTV5、CCTV5+直播節目表,韓國PK捷克

今日賽事!6月12日CCTV5、CCTV5+直播節目表,韓國PK捷克

薇說體育
2026-06-12 09:59:25
央視突襲!每天入口吃食,竟是化工廢桶加爛拖鞋做的,官方已出手

央視突襲!每天入口吃食,竟是化工廢桶加爛拖鞋做的,官方已出手

無情有思ss
2026-06-12 00:05:26
心理學上有個詞叫:破窗效應。如果你整天不學習,不運動,不節制消費,不反省自律,無興趣愛好、無目標、無期望,生活是不會變好的……

心理學上有個詞叫:破窗效應。如果你整天不學習,不運動,不節制消費,不反省自律,無興趣愛好、無目標、無期望,生活是不會變好的……

LULU生活家
2026-06-11 14:51:01
相親喝口咖啡就吐,姑娘報警說被下藥了,警察一查:是懷孕了!

相親喝口咖啡就吐,姑娘報警說被下藥了,警察一查:是懷孕了!

今朝牛馬
2026-06-11 18:52:18
饒穎:趙忠祥曾和我發生關系7年,他有特殊癖好,讓我身心受傷害

饒穎:趙忠祥曾和我發生關系7年,他有特殊癖好,讓我身心受傷害

妙知
2026-05-26 04:45:18
阿里高層震怒!釘釘“阿里緬北”內幕曝光,高壓管理終遭反噬

阿里高層震怒!釘釘“阿里緬北”內幕曝光,高壓管理終遭反噬

侃故事的阿慶
2026-06-12 01:13:04
一對黃埔兄弟:陳賡被捕宋希濂冒死相救,宋希濂被俘陳賡千里探望

一對黃埔兄弟:陳賡被捕宋希濂冒死相救,宋希濂被俘陳賡千里探望

北海史記
2026-06-12 06:38:55
A股:全體股民做好心理準備了,今天6.12,A股或將再次歷史重演!

A股:全體股民做好心理準備了,今天6.12,A股或將再次歷史重演!

趨勢清風俠
2026-06-12 07:24:00
看完高考英語試卷后,我驚出一身汗:唯有父母看懂這趨勢,孩子才能少走10年彎路!

看完高考英語試卷后,我驚出一身汗:唯有父母看懂這趨勢,孩子才能少走10年彎路!

萌芽研究所BUD
2026-06-11 22:25:56
1955年,韓先楚被列入中將名單,毛主席看后質問到:叫羅榮桓來

1955年,韓先楚被列入中將名單,毛主席看后質問到:叫羅榮桓來

談古論今歷史有道
2026-06-11 09:30:05
“鵝腿阿姨”被舉報后續:營業執照是別人的,微信也無法登錄了

“鵝腿阿姨”被舉報后續:營業執照是別人的,微信也無法登錄了

游戲收藏指南
2026-06-11 10:52:13
他汀藥有7種,只有一種不影響血糖,早知道早收益!

他汀藥有7種,只有一種不影響血糖,早知道早收益!

藥師方健
2026-05-31 22:45:44
再次提醒:不要吃!不要購買,里面含大量防腐劑,損害肝腎

再次提醒:不要吃!不要購買,里面含大量防腐劑,損害肝腎

健康科普365
2026-06-11 21:00:14
截胡大戰!巴黎圣日耳曼搶先談判,截胡曼聯8000萬鎊引援目標

截胡大戰!巴黎圣日耳曼搶先談判,截胡曼聯8000萬鎊引援目標

夜白侃球
2026-06-12 10:48:24
2026-06-12 11:04:49
甲子光年
甲子光年
中國科技產業化前沿智庫
3477文章數 9272關注度
往期回顧 全部

科技要聞

SpaceX IPO募資750億美元,馬斯克身家萬億

頭條要聞

含精神藥品釣魚餌料熱銷 部分漁獲被消費者買回家

頭條要聞

含精神藥品釣魚餌料熱銷 部分漁獲被消費者買回家

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

與熱巴戀情曝光1天,陳飛宇現身

財經要聞

“員工不值這么多錢”引爭議 胖東來回應

汽車要聞

佟湘北:全新smart#6 自成一派好看更好開

態度原創

教育
游戲
時尚
健康
手機

教育要聞

福建這4所大學,不是“雙一流”,卻是本地就業的硬通貨

自由交易+佛系養成!這款寶藏回合制,憑實力圈粉四千萬玩家

一個高考狀元的崩塌:全職陪讀 18 年,女兒進了精神科

為什么不建議晚上吃粽子?

手機要聞

蘋果升級iOS 27版天氣應用:可簡要顯示未來幾天重要天氣事件

無障礙瀏覽 進入關懷版