作者|黃楠
編輯|袁斯來
6月24日,通用具身智能企業(yè)RoboScience機器科學通用具身大模型發(fā)布,首次完整披露自研Visics大模型的技術(shù)架構(gòu)VLOA(Vision-Language-Object-Action),并展示了模型在家具拼裝、靈巧抓取、動態(tài)流水線等多項真實場景的應(yīng)用。
大語言模型有標準的文本Token,自動駕駛有統(tǒng)一的視覺或點云表征,這些基礎(chǔ)格式的確定,讓數(shù)據(jù)和模型可以在不同場景之間復(fù)用。但具身智能至今沒有一個被行業(yè)公認的基礎(chǔ)表征單元,其決定了數(shù)據(jù)如何采、模型從哪學、以及學習后是否能遷移至新場景。
過去兩年,行業(yè)主流做法是讓模型直接學習機器人的關(guān)節(jié)運動軌跡,即復(fù)刻某一個特定硬件在特定任務(wù)下的動作坐標。這套邏輯的問題在于,換一臺機器人、換一個物體、換一個場景,模型此前所習得能力無法直接遷移復(fù)用。它學會的是“夾爪怎么抓起杯子”,而非理解“抓取”這個動作本身,即什么是抓、需要多大的力、物體受力后會怎么反應(yīng)。
RoboScience機器科學創(chuàng)始人兼CEO田野指出,當前機器人操作面臨泛化能力差、精細操作難、長程任務(wù)誤差累積三大核心瓶頸。為此,團隊選擇從底層出發(fā),搭建一套全新的具身基礎(chǔ)表征單元。
![]()
RoboScience機器科學創(chuàng)始人兼CEO田野(圖源/企業(yè))
作為整套技術(shù)體系的核心底座,RoboScience機器科學自研了Visics通用具身大模型,提出Object Trajectory(物體3D點云軌跡)統(tǒng)一中間表征標準,以此搭建分層解耦的VLOA架構(gòu),圍繞物體為中心,重構(gòu)機器人的認知與執(zhí)行邏輯。
田野解釋稱,“Object這個詞同時包含物體、目標兩層含義,能夠精準定義機器人與物件的交互關(guān)系,以及操作后物體需要達成的運動變化狀態(tài)。”
Visics通用具身大模型內(nèi)部采用雙引擎架構(gòu),由具身世界模型和通用操作模型各自獨立運轉(zhuǎn),分開預(yù)訓練、分別迭代,互不干擾。其中,具身世界模型以海量互聯(lián)網(wǎng)視頻作為預(yù)訓練數(shù)據(jù),圍繞物體狀態(tài)、三維軌跡、接觸力與物理因果關(guān)系建模,學習物體在真實世界中的運動規(guī)律。
![]()
Visics通用具身大模型,VLOA架構(gòu)(圖源/企業(yè))
通用操作模型則負責把“物體運動軌跡”轉(zhuǎn)化為“機器人該怎么做”。它通過物理引擎生成大規(guī)模仿真數(shù)據(jù)持續(xù)迭代,能夠操作剛體、鉸鏈件、軟質(zhì)可形變體等各類物體,支持跨本體部署與閉環(huán)控制,同時兼容視覺、觸覺、力覺等多模態(tài)感知輸入。
兩大引擎通過VLOA架構(gòu)完成分層協(xié)同,Object Trajectory作為統(tǒng)一中間接口,上層具身世界模型負責預(yù)判、推演物體合理運動軌跡,下層通用操作模型給出適配各類機器人的硬件控制指令、負責落地執(zhí)行軌跡。
這種分層解耦的設(shè)計,最終實現(xiàn)三大維度的全域泛化,適配任意機器人本體、操作任意類型物體、自主完成多樣化任務(wù)。以抓取動作為例,對比傳統(tǒng)綁定單一機械臂、單一物件的訓練方案,基于VLOT架構(gòu)的模型在抓取成功率、操作姿態(tài)豐富度、運算響應(yīng)速度上均有明顯提升。
![]()
搭載Visics通用具身大模型的機械臂執(zhí)行拼家具任務(wù)(圖源/企業(yè))
在具身智能領(lǐng)域,數(shù)據(jù)是模型能力的根基,但傳統(tǒng)數(shù)據(jù)路線正面臨成本與產(chǎn)能的雙重天花板。
RoboScience機器科學以自研高精度仿真引擎RoboMirage為核心,結(jié)合全自動視頻數(shù)據(jù)標注與清洗管線,構(gòu)建了一套“仿真+視頻”雙數(shù)據(jù)飛輪。這套體系可將單條數(shù)據(jù)的獲取成本壓至傳統(tǒng)方案的1/20至1/200,并以每周數(shù)十萬小時的速度持續(xù)擴張,預(yù)計2026年將構(gòu)建超過1T高質(zhì)量manipulation操作軌跡數(shù)據(jù)集。
![]()
RoboScience機器科學聯(lián)合創(chuàng)始人汪濤(圖源/企業(yè))
自成立以來,RoboScience機器科學已獲得京東集團、商湯科技、達晨財智、招商局創(chuàng)投、零一創(chuàng)投、普華資本等多家CVC和財務(wù)機構(gòu)的投資及產(chǎn)業(yè)支持,在北京、深圳、蘇州、杭州設(shè)有研發(fā)和生產(chǎn)中心。公司以大模型為核心,縱向打通自研本體、控制器與RobotOS,橫向構(gòu)建模型泛化、便捷開發(fā)與多層級生態(tài),搭建軟硬一體、閉環(huán)協(xié)同的商業(yè)模式。
聯(lián)合創(chuàng)始人汪濤指出,具身智能真正的規(guī)模化落地尚未到來,公司選擇先從物體維度切入,即解決對剛性、柔性及各種屬性物體的泛化操作能力,而非直接進入工業(yè)場景與自動化方案競爭。如商超、電商物流等場景,天然面臨海量SKU、多品類的揀選與補貨需求,正是驗證物體維度泛化能力的最佳試驗場。
目前,RoboScience機器科學已同多家零售、物流、康養(yǎng)服務(wù)企業(yè)及機器人本體、靈巧手公司開展試點合作,計劃于今年實現(xiàn)面向工業(yè)與商業(yè)場景的標準化機器人本體產(chǎn)品量產(chǎn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.