走進(jìn)中國雄安集團(tuán)數(shù)城公司具身智能訓(xùn)練場,最搶眼的不是冷冰冰的機(jī)器人,而是一群頭戴VR(虛擬現(xiàn)實技術(shù))眼鏡、手舞操作手柄的年輕人。他們雙臂懸空,動作時而如打游戲般靈巧,時而如做手術(shù)般精準(zhǔn)。
不遠(yuǎn)處的操作臺上,一臺人形機(jī)器人正在他們的遙控下,小心翼翼地將面包夾起、送入烤面包機(jī),再從烤面包機(jī)拿出、穩(wěn)穩(wěn)地擺入餐盤——動作雖略顯笨拙,卻已初具人類廚房的節(jié)奏感。
![]()
訓(xùn)練場內(nèi)正在被數(shù)據(jù)采集員遙控夾面包的機(jī)器人 圖片來源:每經(jīng)記者 張蕊 攝
這是《每日經(jīng)濟(jì)新聞》記者(以下簡稱“每經(jīng)記者”)近日跟隨2026年“活力中國調(diào)研行”,在訓(xùn)練場現(xiàn)場看到的真實一幕。
在這個被稱作“機(jī)器人訓(xùn)練工廠”的地方,工業(yè)搬運(yùn)、家居生活、商業(yè)零售、物流裝配等場景一應(yīng)俱全。有人穿著外骨骼機(jī)械臂遙控機(jī)器人搬箱子,有人通過手柄指揮機(jī)器人擺桌簽,還有人盯著傳送帶上的物品,一遍遍地訓(xùn)練機(jī)器人完成分揀。所有看似枯燥的重復(fù)操作,目的只有一個:喂給機(jī)器人足夠優(yōu)質(zhì)的數(shù)據(jù)“養(yǎng)料”。
不過,目前市面上已經(jīng)有機(jī)器人品牌在便利店等場景落地,為何還需要持續(xù)進(jìn)行數(shù)據(jù)采集工作?一個訓(xùn)練場每天能產(chǎn)生多少有效數(shù)據(jù)?采集數(shù)據(jù)過程中有什么難點?數(shù)據(jù)上架到雄安新區(qū)城市可信數(shù)據(jù)空間后的商業(yè)模式是怎樣的?圍繞這些問題,每經(jīng)記者進(jìn)行了深入采訪。
當(dāng)前具身智能行業(yè)存在“數(shù)據(jù)荒”
談及做具身智能訓(xùn)練場的初衷,數(shù)城公司總經(jīng)理助理李國良表示,目前具身智能數(shù)據(jù)需求非常迫切,存在“數(shù)據(jù)荒”問題。真正要讓一臺機(jī)器人在多場景下靈活作業(yè),需要至少10億條數(shù)據(jù)支撐,這個數(shù)據(jù)量相當(dāng)大。
“去年9月、10月,一些合作伙伴就向我們提出采購5000萬小時具身智能高質(zhì)量數(shù)據(jù)集的需求。當(dāng)時我們跑了很多訓(xùn)練場,發(fā)現(xiàn)全國范圍內(nèi)這種大規(guī)模、長時長的數(shù)據(jù)儲備是不夠的。”李國良說,“我們正是為了滿足社會共性需求來做這件事,同時,雄安新區(qū)周邊人工成本較低,做這件事既能帶動地方就業(yè),也能推動產(chǎn)業(yè)發(fā)展。”
事實上,在李國良看來,對具身智能行業(yè)而言,目前亟需在兩個方向提升:一是模型研發(fā)能力,即世界模型的能力,讓模型具備足夠強(qiáng)的多場景適配能力;二是各種場景數(shù)據(jù)的足夠儲備,用來訓(xùn)練模型的泛化能力。
![]()
訓(xùn)練場內(nèi)搭建的真實商業(yè)零售場景 圖片來源:每經(jīng)記者 張蕊 攝""
李國良進(jìn)一步闡釋,不同的機(jī)器人應(yīng)用場景各不相同。如果把具身智能行業(yè)的發(fā)展比作一個人的成長過程,那么數(shù)據(jù)就相當(dāng)于“養(yǎng)料”。在“幼兒園”階段,數(shù)據(jù)為機(jī)器人提供認(rèn)知世界的基礎(chǔ);到了“小學(xué)”階段,則需要通過多場景的數(shù)據(jù)采集和不斷迭代,為模型訓(xùn)練提供支撐。“只有經(jīng)過反復(fù)的數(shù)據(jù)采集和模型訓(xùn)練,再將模型遷移到機(jī)器人本體上,機(jī)器人才能真正發(fā)揮作用。”
不過,目前市面上已經(jīng)有機(jī)器人品牌在便利店等場景落地,為什么還需要持續(xù)進(jìn)行數(shù)據(jù)采集工作?
對此,李國良表示,目前這些已經(jīng)落地的機(jī)器人場景雖然相對成熟,但機(jī)器人本體實際上并不具備泛化能力,這意味著機(jī)器人只能完成固定位置、固定物品的動作。比如,在一個固定位置放了一瓶可樂,機(jī)器人可以識別并完成抓取動作;但如果這個位置換成了方便面,或者可樂被移到了其他位置,機(jī)器人就無法完成動作了。因此,依然需要通過大量數(shù)據(jù)訓(xùn)練模型,提升模型的泛化能力。
當(dāng)前,要讓機(jī)器人做到“舉一反三”、靈活應(yīng)變,仍然面臨很大挑戰(zhàn)。李國良舉例說,比如今天讓機(jī)器人跳了一段霹靂舞,采集了相關(guān)數(shù)據(jù),遷移到另一臺機(jī)器人上,后者就能跳古典舞——這絕不是一條數(shù)據(jù)就能實現(xiàn)的,而是需要幾千次的數(shù)據(jù)采集和訓(xùn)練才能達(dá)到。模型遷移到機(jī)器人本體上,可能需要幾千條甚至上萬條數(shù)據(jù)。因此,提升模型泛化能力和開發(fā)世界模型,是當(dāng)前頭部企業(yè)和科研院所正在努力的方向。
數(shù)據(jù)采集真正挑戰(zhàn)在于場景復(fù)雜性
“通過移動手柄將面包拿起來,放到烤面包機(jī)里,然后再把它從面包機(jī)里拿出來,放到盤子里,通過這一系列操作來完成一條數(shù)據(jù)采集。”數(shù)據(jù)采集員梁儷珊告訴每經(jīng)記者,每一個動作都需要重復(fù)1000多次“它”才能記住,像環(huán)境、操作角度、力度等因素都會影響機(jī)器人的識別。
正是由于一個動作要做幾千次甚至上萬次,很枯燥,所以數(shù)據(jù)采集員在采集數(shù)據(jù)之余也做數(shù)據(jù)標(biāo)注工作。“網(wǎng)好的話一天能標(biāo)三四十條,因為數(shù)據(jù)時長、網(wǎng)速快慢都會有影響。”梁儷珊說。
![]()
訓(xùn)練場內(nèi)屏幕上展示的烤面包的數(shù)據(jù)標(biāo)注頁面 圖片來源:每經(jīng)記者 張蕊 攝
每天大概產(chǎn)生多少條數(shù)據(jù)?李國良告訴每經(jīng)記者,一臺機(jī)器人一天工作8小時,每天數(shù)據(jù)采集員通過機(jī)械臂或操作桿操作,大概會產(chǎn)生1000個動作、1000條數(shù)據(jù)。但在標(biāo)注和核查過程中,有些是無效數(shù)據(jù),比如抓取失敗、角度不對或位置不對等情況,當(dāng)然,這些失敗數(shù)據(jù)對某些單位訓(xùn)練模型也有意義。總體而言,每天用于正向訓(xùn)練的有效數(shù)據(jù)在200~400條之間,但訓(xùn)練一個動作或一個模型,需要幾千條甚至上萬條數(shù)據(jù)才能完成。
記者了解到,目前國內(nèi)機(jī)器人廠商有100多家,各家廠商數(shù)據(jù)標(biāo)準(zhǔn)尚未統(tǒng)一,這是行業(yè)面臨的普遍問題,也是要實現(xiàn)不同廠家、不同構(gòu)型的機(jī)器人在統(tǒng)一平臺上訓(xùn)練的難點。
為解決這一問題,李國良對每經(jīng)記者表示,通過與合作方共同研發(fā)的平臺,能夠適配國內(nèi)所有主流機(jī)器人品牌的數(shù)據(jù)格式,通過點對點的數(shù)據(jù)解析技術(shù),解析每個時段的含義和格式,實現(xiàn)通過一個平臺完成主流機(jī)器人的統(tǒng)一數(shù)據(jù)采集。“這是我們與合作伙伴共同完成的一項創(chuàng)新。”
記者在現(xiàn)場了解到,具身智能訓(xùn)練場目前已經(jīng)與智元機(jī)器人等多家廠商進(jìn)行合作,涉及的機(jī)器人構(gòu)型已有五六種,包括輪式、輪臂、折疊式等。除了雙足機(jī)器人外,其他類型基本都已覆蓋。四足機(jī)器人目前尚未涉及,因為四足機(jī)器人大多用于線路規(guī)劃等既定動作,不需要進(jìn)行類似的訓(xùn)練。
不過,“沒有統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)其實不是最大的挑戰(zhàn)。”李國良認(rèn)為,具身智能數(shù)據(jù)采集真正的挑戰(zhàn)在于場景的復(fù)雜性——家居、酒店、餐館、城市環(huán)衛(wèi)、巡檢等,面臨的場景太多了。不同場景、不同應(yīng)用方面,面臨的小場景又各不相同,所需的密度也不一樣。千行百業(yè)都需要對機(jī)器人進(jìn)行訓(xùn)練,機(jī)器人才能逐漸替代人工,尤其是重復(fù)性、危險性的動作。這說明市場潛力非常大。
探索具身智能數(shù)據(jù)在城市可信數(shù)據(jù)空間交易
記者注意到,為落實《可信數(shù)據(jù)空間發(fā)展行動計劃(2024—2028年)》,去年7月,國家數(shù)據(jù)局綜合司發(fā)布了可信數(shù)據(jù)空間創(chuàng)新發(fā)展試點名單,涵蓋城市、行業(yè)、企業(yè)三個方向,其中數(shù)城公司是13個城市可信數(shù)據(jù)空間試點之一。
記者在現(xiàn)場了解到,目前,訓(xùn)練場已進(jìn)入真機(jī)數(shù)據(jù)采集與標(biāo)注的常態(tài)化運(yùn)營階段,高質(zhì)量數(shù)據(jù)同步上架至雄安新區(qū)城市可信數(shù)據(jù)空間,需求方可以從可信數(shù)據(jù)空間選用下單。
對此,李國良介紹道,其實公司在做數(shù)據(jù)要素流通、數(shù)據(jù)交易的同時,面臨具身智能數(shù)據(jù)的需求,才開始研究具身智能訓(xùn)練場。“去年八九月份我們進(jìn)入這個行業(yè)時,具身智能發(fā)展特別迅速。目前需求方主要包括具身智能本體企業(yè)、具身智能模型企業(yè),以及一些科研院所和高校。”
“目前我們正在與一家單位洽談從平臺上下單。因為我們的機(jī)器人數(shù)量還不多,規(guī)模還不大,所以目前數(shù)據(jù)儲備還不是特別大,我們自己有8萬條數(shù)據(jù)。但是通過這些機(jī)器人,我們實現(xiàn)了技術(shù)路線的打通和閉環(huán)。”
被問及從可信數(shù)據(jù)空間下單的商業(yè)模式,李國良告訴每經(jīng)記者,目前具身智能數(shù)據(jù)有兩種銷售模式:一種是按小時計算,一種是按條數(shù)計算。按條計算的話,每條價格在8元~48元之間。價格差距主要取決于兩個層面:一是數(shù)據(jù)的獨(dú)占性,如果數(shù)據(jù)賣給一家后不能再賣給其他家,即轉(zhuǎn)移了數(shù)據(jù)持有權(quán),價格會比較高;二是如果數(shù)據(jù)可以復(fù)制銷售,不轉(zhuǎn)移權(quán)屬,價格會低一些。現(xiàn)在講數(shù)據(jù)也是“三權(quán)分置”,即持有權(quán)、加工使用權(quán)和經(jīng)營權(quán)。
談及下一步的具體規(guī)劃,李國良表示:“從數(shù)據(jù)方面入手是最迫切的。近一兩年,我們一定要做更大規(guī)模的具身智能訓(xùn)練場,具備更強(qiáng)大的數(shù)據(jù)采集生產(chǎn)能力。一方面是固定場景的數(shù)據(jù)采集,搭建更多固定場景;另一方面是走出固定場景,工作人員或采集員通過穿戴式設(shè)備、背包式數(shù)據(jù)采集設(shè)備,到社會上采集更廣泛的數(shù)據(jù),也可以給酒店、餐館等真實工作人員配備可穿戴的采集設(shè)備,在不影響其工作效率的情況下采集數(shù)據(jù),滿足城市運(yùn)營管理、城市治理等方面的數(shù)據(jù)需求。”
![]()
訓(xùn)練場內(nèi)數(shù)據(jù)采集員正在遙控機(jī)器人擺桌簽 圖片來源:每經(jīng)記者 張蕊 攝
持續(xù)訓(xùn)練最終能達(dá)到怎樣的效果?
李國良舉例道,比如通過對酒店住宿場景的反復(fù)訓(xùn)練,實現(xiàn)離店后的打掃、清掃、疊被子等動作的自動化,最終實現(xiàn)無人化酒店;餐館也可以實現(xiàn)無人化。但這需要兩個方面的突破:一是模型泛化能力的突破,二是足夠的數(shù)據(jù)儲備用于模型訓(xùn)練。
“我認(rèn)為,具身智能走向千家萬戶在幾年內(nèi)是可以做到的。通過具身智能產(chǎn)業(yè)的發(fā)展來改變?nèi)藗兊纳罘绞胶蜕a(chǎn)方式,不斷提高人民生活水平。”他說。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.