![]()
具身智能包括本體、數(shù)據(jù)集、模型、場景四大組成要素,其中,數(shù)據(jù)集關(guān)系到具身智能的智能涌現(xiàn)和能力泛化。當(dāng)前,在數(shù)據(jù)集領(lǐng)域,國家級數(shù)據(jù)訓(xùn)練場、行業(yè)級開源社區(qū)與企業(yè)級數(shù)據(jù)開發(fā)平臺協(xié)同發(fā)力,形成了“真機(jī)遙操+靈巧手采集+仿真數(shù)據(jù)”三層數(shù)據(jù)供給體系,支撐視覺-語言-動作(VLA)模型與世界模型并進(jìn)式發(fā)展。但具身智能數(shù)據(jù)集供給仍呈現(xiàn)點(diǎn)狀分散格局,受限于標(biāo)注工具不足、采集成本高昂、多模態(tài)技術(shù)滯后與標(biāo)準(zhǔn)體系缺失等瓶頸,掣肘了具身智能從技術(shù)驗(yàn)證向規(guī)模化商業(yè)應(yīng)用的進(jìn)程。亟需培育高質(zhì)量具身智能數(shù)據(jù)訓(xùn)練場,打造數(shù)據(jù)集標(biāo)注平臺,建設(shè)數(shù)據(jù)集開源社區(qū),研制數(shù)據(jù)集標(biāo)準(zhǔn)規(guī)范,開展規(guī)模化場景應(yīng)用示范,探索具身智能數(shù)據(jù)集產(chǎn)業(yè)高質(zhì)量發(fā)展的“中國路徑”。
一、我國具身智能數(shù)據(jù)集的建設(shè)現(xiàn)狀
從建設(shè)主體看,國家級數(shù)據(jù)訓(xùn)練場、行業(yè)級開源社區(qū)與企業(yè)級數(shù)據(jù)開發(fā)平臺協(xié)同發(fā)力,具身智能數(shù)據(jù)集開發(fā)生態(tài)縱深性發(fā)展。一是國家級訓(xùn)練場構(gòu)建“2+N”數(shù)據(jù)生產(chǎn)體系。國家層面,已在北京和上海建成2個(gè)國家級具身智能訓(xùn)練場。其中,北京國家地方共建具身智能機(jī)器人創(chuàng)新中心已建成近萬平米的中試驗(yàn)證工廠,年產(chǎn)能達(dá)數(shù)千臺套,配備近百套關(guān)鍵測試儀器,支持整機(jī)、一體化關(guān)節(jié)、機(jī)械臂等全鏈條測試驗(yàn)證。上海國家地方共建人形機(jī)器人創(chuàng)新中心訓(xùn)練場已部署102臺異構(gòu)人形機(jī)器人,具備每日生成5萬條數(shù)據(jù)的能力。地方層面,河南、江蘇、北京、深圳等省市正積極推進(jìn)人形機(jī)器人創(chuàng)新中心分訓(xùn)練場建設(shè)。其中河南分訓(xùn)練場聚焦12大傳統(tǒng)產(chǎn)業(yè),部署近百臺機(jī)器人,覆蓋20多個(gè)真實(shí)場景。二是行業(yè)級開源社區(qū)推動關(guān)鍵資源共建共享。地方、企業(yè)及科研機(jī)構(gòu)主動開放資源,以共建方式降低行業(yè)創(chuàng)新門檻。如傅利葉智能開源了包含3萬條真機(jī)數(shù)據(jù)的ActionNet數(shù)據(jù)集及配套工具鏈,地瓜機(jī)器人等也積極打造開發(fā)者社區(qū)。北京國家地方共建具身智能機(jī)器人創(chuàng)新中心上線了開源社區(qū),提供具身天工機(jī)器人本體、慧思開物SDK、RoboMIND數(shù)據(jù)集及訓(xùn)練工具鏈等資源。三是機(jī)器人本體企業(yè)和技術(shù)服務(wù)平臺企業(yè)推動企業(yè)級數(shù)據(jù)研發(fā)和服務(wù)。機(jī)器人本體企業(yè)基于自有硬件進(jìn)行真機(jī)數(shù)據(jù)的采集積累,如智元機(jī)器人AgiBot World真機(jī)數(shù)據(jù)集、宇樹科技G1機(jī)器人操作數(shù)據(jù)集、帕西OmniSharing DB全模態(tài)具身智能數(shù)據(jù)集。技術(shù)服務(wù)平臺企業(yè)則提供數(shù)據(jù)采集平臺、仿真工具、數(shù)據(jù)標(biāo)注服務(wù)等數(shù)據(jù)服務(wù),助力企業(yè)數(shù)據(jù)集開發(fā)。如群核科技提供虛擬數(shù)字道場平臺SpatialVerse,通過生成可交互的三維合成數(shù)據(jù),支持機(jī)器人進(jìn)行避障、抓取及緊急制動等任務(wù)的仿真訓(xùn)練;智源研究院則打造高保真仿真框架AgiBot Digital World,為機(jī)器人設(shè)計(jì)提供仿真數(shù)據(jù)生成解決方案。
從技術(shù)路徑看,形成了數(shù)據(jù)供給“真機(jī)遙操+靈巧手采集+仿真數(shù)據(jù)”三層體系,規(guī)模化采集能力初步建成。一是真機(jī)遙操。智元機(jī)器人、傅利葉智能等企業(yè),通過覆蓋單臂、多臂、人形、四足等多形態(tài)機(jī)器人,可在家居、餐飲、工業(yè)、辦公等200多個(gè)真實(shí)場景中執(zhí)行復(fù)雜操作,積累大量真實(shí)交互數(shù)據(jù)。二是靈巧手采集,通過觸覺傳感器精準(zhǔn)記錄人手精細(xì)動作,為精密裝配、柔性物體操控等任務(wù)提供關(guān)鍵數(shù)據(jù)。靈巧智能DexCanvas數(shù)據(jù)集,匯聚了22類人手操作模式、超1000小時(shí)真人多模態(tài)演示數(shù)據(jù),驅(qū)動五指靈巧操作模型。三是仿真數(shù)據(jù)。銀河通用、光輪智能、深信科創(chuàng)、云道智造等企業(yè),借助物理引擎和圖形學(xué)構(gòu)建虛擬環(huán)境,可低成本生成大規(guī)模數(shù)據(jù)。
從建設(shè)成效看,具身智能數(shù)據(jù)集支撐VLA與世界模型發(fā)展,涌現(xiàn)一批典型模型。一是在VLA模型方向,大規(guī)模、多模態(tài)數(shù)據(jù)集為其提供了訓(xùn)練基礎(chǔ),使機(jī)器人能夠融合視覺感知、語言理解與動作控制,高效執(zhí)行復(fù)雜任務(wù)。比如銀河通用機(jī)器人依托具身大模型GraspVLA,通過十億幀數(shù)據(jù)訓(xùn)練,掌握機(jī)器人泛化閉環(huán)抓取能力。星動紀(jì)元發(fā)布VLA模型ERA-42驅(qū)動的雙足機(jī)器人,學(xué)習(xí)人類操作視頻和真機(jī)數(shù)據(jù),可實(shí)現(xiàn)4m/s疾速奔跑、360°旋轉(zhuǎn)跳及工業(yè)級精細(xì)作業(yè)。二是在世界模型方向,機(jī)器人通過海量視頻數(shù)據(jù),學(xué)習(xí)環(huán)境中物體與事件的演變規(guī)律,提升其對未來狀態(tài)的預(yù)測與因果推理能力。如智元機(jī)器人的Genie Envisioner世界模型平臺,基于3000小時(shí)的真機(jī)操控視頻數(shù)據(jù),賦能機(jī)器人實(shí)現(xiàn)“制作三明治”“倒茶”“擦拭桌面”等任務(wù)。宇樹科技基于5個(gè)涵 蓋 機(jī) 械 臂 和 人 形 機(jī) 器 人 的 任 務(wù) 數(shù) 據(jù) 集 , 搭 建UnifoLM-WMA-0世界模型架構(gòu)。三是技術(shù)架構(gòu)正從分層架構(gòu)向端到端演進(jìn),VLA與世界模型或?qū)⑷诤稀?/strong>當(dāng)前具身智能仍以分層架構(gòu)為主,隨著仿真與真實(shí)數(shù)據(jù)的進(jìn)一步融合,“世界模型為大腦、VLA為手眼”的融合架構(gòu)將成為新趨勢。
二、具身智能數(shù)據(jù)集工程化落地存在四大瓶頸
當(dāng)前,我國具身智能數(shù)據(jù)集建設(shè)已形成多主體協(xié)同、多層次供給的格局,但仍呈點(diǎn)狀分散狀態(tài)。要實(shí)現(xiàn)具身智能領(lǐng)域的技術(shù)迭代與規(guī)模化商業(yè)落地,必須加快推進(jìn)數(shù)據(jù)集工程化落地——即構(gòu)建覆蓋數(shù)據(jù)采集、標(biāo)注、應(yīng)用、評估全流程的標(biāo)準(zhǔn)化和產(chǎn)品化,實(shí)現(xiàn)數(shù)據(jù)集的高效生產(chǎn)與可靠復(fù)用,為具身智能模型訓(xùn)練與場景適配提供系統(tǒng)化支撐。目前,該進(jìn)程仍面臨四大瓶頸制約。
(一)數(shù)據(jù)標(biāo)注工具制約高質(zhì)量數(shù)據(jù)集構(gòu)建
一是具身智能標(biāo)注工具仍顯匱乏。VLA模型要求對視覺場景、語言指令及動作軌跡進(jìn)行時(shí)空關(guān)聯(lián)標(biāo)注,世界模型更需要標(biāo)注視頻序列中的物理屬性、物體狀態(tài)變化及潛在的因果聯(lián)系。然而,現(xiàn)有工具多側(cè)重于靜態(tài)圖像或簡單視頻標(biāo)注,難以高效支持VLA模型和世界模型對長序列、3D空間和物理動態(tài)標(biāo)注的需求,數(shù)據(jù)標(biāo)注精度不足。二是缺乏數(shù)據(jù)標(biāo)注全生命周期平臺。標(biāo)注規(guī)范、工具接口和數(shù)據(jù)格式各異,使得不同企業(yè)的標(biāo)注數(shù)據(jù)復(fù)用性與集成性較差,制約了數(shù)據(jù)生態(tài)的協(xié)同效率。
(二)數(shù)據(jù)采集成本限制數(shù)據(jù)集規(guī)模化擴(kuò)張
一是軟硬件投入高。與傳統(tǒng)AI數(shù)據(jù)集采集相比,構(gòu)建覆蓋多任務(wù)、多環(huán)境的具身智能真實(shí)數(shù)據(jù)集需投入大量機(jī)器人、傳感器及專業(yè)標(biāo)注工具,成本高昂,單臺設(shè)備產(chǎn)生一萬小時(shí)訓(xùn)練數(shù)據(jù)需要消耗上百萬元。二是人員成本高。一個(gè)數(shù)采員一天只能采集300-500條數(shù)據(jù),如果是復(fù)雜任務(wù),數(shù)據(jù)采集產(chǎn)出會更低。
(三)多模態(tài)融合技術(shù)影響數(shù)據(jù)集有效性
一是仿真數(shù)據(jù)的遷移可靠性不足。由于物理引擎難以完全模擬復(fù)雜的真實(shí)力學(xué)特性,如接觸、摩擦、材料變形,導(dǎo)致依托仿真數(shù)據(jù)訓(xùn)練的策略模型遷移到真實(shí)環(huán)境時(shí)出現(xiàn)顯著性能衰減。例如依托仿真數(shù)據(jù)LIBERO-LONG訓(xùn)練的世界模型在辦公桌面的現(xiàn)實(shí)環(huán)境中失效。二是多模態(tài)數(shù)據(jù)精準(zhǔn)融合困難。視覺和觸覺數(shù)據(jù)的精度需求存在跨量級鴻溝,精準(zhǔn)對齊和標(biāo)注仍是行業(yè)難題,制約人形機(jī)器人作業(yè)的精確性和適應(yīng)性。盡管戴盟、帕西尼、疊動等企業(yè)在傳感器與算法層面已取得突破,但高精度的視觸覺融合技術(shù)仍有待攻克。
(四)數(shù)據(jù)標(biāo)準(zhǔn)缺失阻礙數(shù)據(jù)集共享與復(fù)用
一是開源數(shù)據(jù)標(biāo)準(zhǔn)化程度不高。不同機(jī)構(gòu)的開源數(shù)據(jù)集在數(shù)據(jù)格式、標(biāo)注體系、傳感器參數(shù)與任務(wù)定義等方面存在顯著差異,缺乏統(tǒng)一的本體描述與接口規(guī)范,導(dǎo)致數(shù)據(jù)難以跨項(xiàng)目集成與復(fù)用。此外,數(shù)據(jù)采集設(shè)備、環(huán)境配置與操作協(xié)議不統(tǒng)一,也使得多源數(shù)據(jù)難以有效對齊與合并。二是具身智能數(shù)據(jù)標(biāo)準(zhǔn)體系有待完善。目前國家和地方層面發(fā)布或正在起草的標(biāo)準(zhǔn)多集中于數(shù)據(jù)生產(chǎn)環(huán)節(jié),對數(shù)據(jù)質(zhì)量評估、數(shù)據(jù)集泛化性能評測等,仍需更完善的標(biāo)準(zhǔn)制定和平臺支持。
三、對策建議
(一)加強(qiáng)載體建設(shè),培育高質(zhì)量數(shù)據(jù)訓(xùn)練場
一是支持國家級具身智能數(shù)據(jù)訓(xùn)練場聚焦行業(yè)發(fā)展的前瞻性、基礎(chǔ)性問題,攻克共性技術(shù)難題、制定數(shù)據(jù)標(biāo)準(zhǔn)、建設(shè)普惠性基礎(chǔ)設(shè)施。二是鼓勵有條件的地方立足自身產(chǎn)業(yè)優(yōu)勢,通過設(shè)立專項(xiàng)、配套政策與資金,建設(shè)一批聚焦工業(yè)裝配、家庭服務(wù)等細(xì)分領(lǐng)域的具身智能數(shù)據(jù)訓(xùn)練場,構(gòu)建特色化、差異化的具身智能數(shù)據(jù)體系。
(二)突破關(guān)鍵技術(shù),打造數(shù)據(jù)集標(biāo)注平臺
一是強(qiáng)化軟硬件協(xié)同,系統(tǒng)發(fā)展具身智能多模態(tài)傳感器、仿真建模、數(shù)字孿生等關(guān)鍵技術(shù),深度適配VLA模型和世界模型發(fā)展。二是突破數(shù)據(jù)處理的核心算法,加強(qiáng)多模態(tài)數(shù)據(jù)融合、仿真-真實(shí)數(shù)據(jù)遷移、數(shù)據(jù)合成與增強(qiáng)等核心技術(shù)攻關(guān),為高效、高精度數(shù)據(jù)標(biāo)注提供核心驅(qū)動力。三是鼓勵標(biāo)注企業(yè)與機(jī)器人企業(yè)共建具身智能多模態(tài)數(shù)據(jù)集標(biāo)注平臺,加強(qiáng)核心算法研發(fā),推動標(biāo)注工具智能化,形成可復(fù)用、可推廣的行業(yè)級解決方案。
(三)注重開源開放,建設(shè)數(shù)據(jù)集開源社區(qū)
一是建設(shè)具身智能開源社區(qū),推動基礎(chǔ)模型、訓(xùn)練數(shù)據(jù)、工具鏈、操作系統(tǒng)、仿真環(huán)境等技術(shù)開源,推動構(gòu)建萬億級多模態(tài)開源數(shù)據(jù)庫。二是支持高校、龍頭企業(yè)與開源社區(qū)共建課程與實(shí)踐平臺,通過舉辦具身智能算法競賽、設(shè)立開源貢獻(xiàn)獎勵等方式,培育一批既懂技術(shù)又具開源精神的復(fù)合型人才,激發(fā)產(chǎn)業(yè)創(chuàng)新活力。
(四)加快標(biāo)準(zhǔn)制定,研制數(shù)據(jù)集標(biāo)準(zhǔn)規(guī)范
一是加強(qiáng)標(biāo)準(zhǔn)統(tǒng)籌。堅(jiān)持“統(tǒng)籌部署、軟硬協(xié)同、急用先上、開源先行”的原則,加快推進(jìn)具身智能分行業(yè)、分場景數(shù)據(jù)集標(biāo)準(zhǔn)體系制定,積極推動開源數(shù)據(jù)集標(biāo)準(zhǔn)化。二是突出核心任務(wù)。面向物體抓取、自主導(dǎo)航、復(fù)雜指令遵循等核心任務(wù),支持行業(yè)建設(shè)具身智能數(shù)據(jù)集測試標(biāo)準(zhǔn)體系。三是開展評測認(rèn)證。鼓勵第三方機(jī)構(gòu)建立數(shù)據(jù)集質(zhì)量評測與認(rèn)證體系,推動標(biāo)準(zhǔn)在典型場景中先行試用與迭代優(yōu)化,為數(shù)據(jù)流通與應(yīng)用建立基礎(chǔ)信任。
(五)深化行業(yè)應(yīng)用,開展規(guī)模化場景應(yīng)用示范
一是聚焦工業(yè)制造、商業(yè)零售、醫(yī)療康養(yǎng)、家政服務(wù)等重點(diǎn)領(lǐng)域,開展場景征集與任務(wù)揭榜,探索具身智能應(yīng)用新業(yè)態(tài)。二是組織開展具身智能數(shù)據(jù)集典型案例遴選,支持行業(yè)企業(yè)打造可推廣可復(fù)制的示范應(yīng)用標(biāo)桿,推動具身智能規(guī)模化商用落地。
來源 | 賽迪智庫
編輯 | 辦公室
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.