![]()
不想只賣機(jī)器人,樂聚還要做具身智能的infra。
編輯丨李希
具身智能現(xiàn)在最缺什么?
不是更會(huì)聊天的大模型,也不是又一臺(tái)會(huì)翻跟頭、會(huì)跳舞的人形機(jī)器人。真正卡住產(chǎn)業(yè)落地的,是一件更樸素、也更難的事:
怎么把一個(gè)在論文和demo里看起來很強(qiáng)的模型,穩(wěn)定搬到真實(shí)機(jī)器、真實(shí)場景、真實(shí)任務(wù)里。
同樣是“把瓶子拿起來”,瓶身材質(zhì)變了,夾爪受力就變了;相機(jī)角度偏了一點(diǎn),抓取點(diǎn)就可能漂掉;任務(wù)從單步抓放變成“識(shí)別、靠近、抓取、搬運(yùn)、放置”的多階段流程,中間任何一步失誤,最后成功率都可能歸零。
所以行業(yè)走到今天,一個(gè)越來越明顯的共識(shí)是:具身智能不能只拼預(yù)訓(xùn)練模型。預(yù)訓(xùn)練模型像通才,知道很多東西,但它要進(jìn)工廠、進(jìn)真實(shí)生產(chǎn)線,還需要一套能把通才調(diào)成專才的系統(tǒng)。
樂聚最近聯(lián)合螞蟻靈波,進(jìn)行了一次機(jī)器人與大模型配適的評(píng)測,并發(fā)布后訓(xùn)練系統(tǒng),瞄準(zhǔn)的就是這個(gè)位置。
這次不是簡單做一個(gè)機(jī)器人本體,也不是只做一個(gè)模型適配demo,而是把真機(jī)數(shù)據(jù)采集、模型后訓(xùn)練、多本體部署、真實(shí)場景評(píng)測,連成一條閉環(huán)。換句話說,過去很多團(tuán)隊(duì)是在“調(diào)一個(gè)模型”,樂聚想做的是“交付一套讓模型持續(xù)變好用、易部署的開發(fā)基礎(chǔ)設(shè)施”。
這也是它值得被單獨(dú)拿出來看的原因。
01
螞蟻預(yù)訓(xùn)練,樂聚后訓(xùn)練
近日,樂聚完成了螞蟻靈波LingBot-VLA具身大模型,在KUAVO 4 Pro上的后訓(xùn)練適配,并基于95個(gè)真機(jī)操作場景做了系統(tǒng)性測評(píng)。
看點(diǎn)不只是“跑通了一個(gè)模型”,而是做了兩個(gè)方向的交叉驗(yàn)證。
一方面,以夸父KUAVO 4 Pro為本體,橫向適配五個(gè)主流VLA模型,看不同模型在同一本體上的表現(xiàn)。
另一方面,把LingBot-VLA放到四款不同機(jī)器人本體上做適配測評(píng),看同一個(gè)模型在不同硬件平臺(tái)上的遷移能力。
這套設(shè)計(jì)本身就很能說明問題。
如果只是本體廠,最自然的展示方式是“我的機(jī)器人加我的合作模型,能完成任務(wù)”;如果只是模型廠,通常會(huì)強(qiáng)調(diào)“我的模型能在常見本體上運(yùn)行”。
但樂聚這次參與做橫縱交叉驗(yàn)證,實(shí)際上是在證明另一件事:它要站在基座模型和機(jī)器人本體之間,做后訓(xùn)練與真機(jī)落地的中間層。
我們先來看看結(jié)果。
以KUAVO 4 Pro為評(píng)價(jià)對(duì)象,使用樂聚真機(jī)數(shù)據(jù)訓(xùn)練的LingBot-VLA平均成功率SR為17.59%,平均過程得分PS為36.22%。兩項(xiàng)指標(biāo)均取得當(dāng)前最優(yōu),其中PS比強(qiáng)基線π0.5高出9.87個(gè)百分點(diǎn)。
![]()
KUAVO4Pro-主流模型benchmark雙指標(biāo)對(duì)比
單看17.59%的成功率,很多人第一反應(yīng)可能是:這也不高。但真機(jī)具身任務(wù),不能只拿“最終成功率”當(dāng)唯一指標(biāo)。
這95個(gè)場景不是簡單的單步抓放,而是覆蓋多類型物體交互與長尾任務(wù),包括精細(xì)插入、工具使用、小目標(biāo)按壓、動(dòng)態(tài)接觸、穩(wěn)定搬運(yùn)、多階段狀態(tài)轉(zhuǎn)換等。很多任務(wù)換成人手做,也需要集中注意力。
SR只看最終是否完整做完。中間任何一步失敗,最后都算0。對(duì)于多階段任務(wù)來說,這個(gè)指標(biāo)很嚴(yán)苛。
PS過程得分則更能體現(xiàn)模型推進(jìn)任務(wù)的能力。比如一個(gè)機(jī)器人雖然最后沒完成完整任務(wù),但它正確識(shí)別了對(duì)象,完成了接近,抓取也基本成功,只是在最后放置環(huán)節(jié)失敗。這樣的能力進(jìn)展,在SR里看不到,在PS里才能體現(xiàn)出來。
在縱向測試中,將LingBot-VLA放到四款不同機(jī)器人本體中進(jìn)行比較,夸父則是唯一跑通完整閉環(huán)的雙足人形平臺(tái)。
![]()
LingBot-VLA多款機(jī)器人平臺(tái)benchmark雙指標(biāo)對(duì)比
雙足人形比輪臂、固定機(jī)械臂更難,這一點(diǎn)不需要過多解釋。輪臂有穩(wěn)定底盤,機(jī)械臂動(dòng)作空間更規(guī)整,而雙足人形光是保持姿態(tài)穩(wěn)定,就已經(jīng)消耗大量控制余量。
可以看出,樂聚把螞蟻的預(yù)訓(xùn)練模型放到自己的雙足本體上跑通,驗(yàn)證的不是某個(gè)單點(diǎn)能力,而是它能否把外部基座模型接入復(fù)雜真機(jī)系統(tǒng),并通過后訓(xùn)練讓它跑起來。
這件事的行業(yè)意義在于:模型會(huì)不斷更新,本體會(huì)不斷分化,場景也會(huì)越來越碎片化,誰能把不同模型、不同本體、不同場景連接起來,誰就有機(jī)會(huì)成為產(chǎn)業(yè)里的基礎(chǔ)設(shè)施層。
樂聚這次押的,正是這一層,這比一次漂亮demo更重要。
02
后訓(xùn)練:把通才逼成專才
預(yù)訓(xùn)練模型解決的是“廣泛知道”。后訓(xùn)練解決的是“具體會(huì)做”。
對(duì)于VLA模型來說,這個(gè)區(qū)別尤其明顯。
一個(gè)預(yù)訓(xùn)練模型可能理解“拿起杯子”,“把物體放進(jìn)盒子”,“按下按鈕”,這些語言指令,也可能從大量數(shù)據(jù)里學(xué)到基本視覺和動(dòng)作關(guān)聯(lián)。但到了真實(shí)場景里,它還必須處理一堆非常局部、非常工程化、但又決定成敗的問題。
比如,這個(gè)杯子是軟的還是硬的?相機(jī)看到的抓取點(diǎn)和機(jī)械臂實(shí)際可達(dá)位置是否一致?
這些問題,靠預(yù)訓(xùn)練很難一次性解決。
后訓(xùn)練要做的,就是讓模型在真實(shí)任務(wù)、真實(shí)本體、真實(shí)反饋中,把通用先驗(yàn)轉(zhuǎn)化成穩(wěn)定技能。
![]()
KUAVO 4 Pro機(jī)器人操作場景
樂聚這次發(fā)布的后訓(xùn)練系統(tǒng),其核心是自研VLA后訓(xùn)練算法庫。它針對(duì)的不是一個(gè)單一指標(biāo),而是VLA模型真機(jī)落地中一組高頻痛點(diǎn)。
比如,模型微調(diào)最怕“學(xué)會(huì)新技能,忘了老本事”,樂聚用輕量化微調(diào)盡量保住基座模型的通用能力;傳統(tǒng)VLA很多時(shí)候只是在模仿動(dòng)作,樂聚則把物理世界預(yù)測引進(jìn)來,讓機(jī)器人動(dòng)手前先“想一想后果”;語言指令和真實(shí)抓取點(diǎn)之間常常對(duì)不齊,樂聚也做了語義、幾何和操作熱區(qū)之間的映射。
再往真機(jī)側(cè)走,還會(huì)遇到視角變化、動(dòng)作策略單一、多攝像頭信息利用效率低等問題。樂聚把這些都納入后訓(xùn)練系統(tǒng)里處理。
這些算法模塊聽起來偏技術(shù),但它們共同指向一個(gè)非常實(shí)際的目標(biāo):讓VLA模型不是只在數(shù)據(jù)里學(xué)會(huì)動(dòng)作,而是在真實(shí)機(jī)器人上更穩(wěn)地執(zhí)行任務(wù)。
如果只有算法庫,樂聚的故事還不完整。
真正讓這套系統(tǒng)更接近開發(fā)基礎(chǔ)設(shè)施的,是算法庫之外的三條工具鏈。
第一條是數(shù)據(jù)采集與處理平臺(tái)。
它覆蓋數(shù)據(jù)采集、清洗、標(biāo)注、質(zhì)檢、管理與輸出等環(huán)節(jié),支持全身運(yùn)控?cái)?shù)據(jù)、靈巧手操作數(shù)據(jù)、輪臂基礎(chǔ)運(yùn)控?cái)?shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)模化生產(chǎn)。樂聚把數(shù)據(jù)平臺(tái)做成一站式處理平臺(tái),本質(zhì)是在把過去很依賴人工經(jīng)驗(yàn)的數(shù)據(jù)生產(chǎn),變成更工業(yè)化的流水線。
第二條是后訓(xùn)練工具鏈。
它適配Pi系列、GR00T系列、OpenVLA、LingBot-VLA等主流VLA基礎(chǔ)模型,并結(jié)合自研后訓(xùn)練算法庫,面向觸覺精細(xì)操作、桌面操作、移動(dòng)搬運(yùn)等場景做高效調(diào)優(yōu)。它把不同模型納入同一套開發(fā)流程里,讓開發(fā)者更關(guān)注任務(wù)本身,而不是每次都從環(huán)境配置和適配細(xì)節(jié)開始。
第三條是部署評(píng)測工具鏈。
機(jī)器人本體算力有限,模型不可能無限大。樂聚這套工具鏈面向高性能量化壓縮、端側(cè)部署和現(xiàn)場效果評(píng)估,讓模型不只是訓(xùn)練出來,而是真正能在機(jī)器人上跑、在場景里測。
三條工具鏈連起來,就是“數(shù)據(jù)采集—模型后訓(xùn)練—部署測評(píng)”的閉環(huán)。
這也是樂聚后訓(xùn)練系統(tǒng)優(yōu)越性的核心:它不是只優(yōu)化某一個(gè)環(huán)節(jié),而是把具身智能開發(fā)中最容易斷開的幾個(gè)環(huán)節(jié)接上了。
現(xiàn)在這套系統(tǒng)也在垂直工業(yè)場景得到了驗(yàn)證。
比如,在汽車制造的料箱拆垛任務(wù)中,實(shí)現(xiàn)95%以上的綜合成功率;在3C電子SMT出庫環(huán)節(jié),提升了高精度料盤的定位與抓取能力;在物流行業(yè)的快遞分揀與紙箱搬運(yùn),顯著提高了完成效率和穩(wěn)定性。
后訓(xùn)練系統(tǒng)的意義,就是把“看起來會(huì)一點(diǎn)”的通用能力,壓實(shí)成“在某個(gè)場景里可靠工作”的專用能力。
這也是為什么樂聚這套系統(tǒng)更像基礎(chǔ)設(shè)施,而不只是算法能力展示。
03
打造開發(fā)者生態(tài),把真機(jī)門檻降下來
具身智能產(chǎn)業(yè)要真正做大,只靠少數(shù)頭部算法團(tuán)隊(duì)肯定不夠。
原因很簡單:真實(shí)世界里的機(jī)器人需求太碎了。
工廠里有大量場景和工位,理論上都可以用機(jī)器人。但每個(gè)工廠、每條產(chǎn)線、每個(gè)工位,都有自己的物體規(guī)格、空間布局、節(jié)拍要求、異常情況和驗(yàn)收標(biāo)準(zhǔn)。這些場景不是沒有價(jià)值,而是太多、太散、太具體。
![]()
如果每一個(gè)工位都要由機(jī)器人廠商或頭部算法公司從頭開發(fā),根本忙不過來。結(jié)果就是,大量本來可以被機(jī)器人改造的場景,卡在沒人有精力專門為它開發(fā)這一步。
這也是樂聚后訓(xùn)練系統(tǒng)的商業(yè)化意義。
它要解決的不是某一個(gè)具體需求,而是把“為場景、工位開發(fā)機(jī)器人技能”這件事,變得更標(biāo)準(zhǔn)、更快、更容易復(fù)制。
過去,開發(fā)者想做機(jī)器人二次開發(fā),門檻非常高。要懂模型、懂本體,要會(huì)采數(shù)據(jù)、清洗數(shù)據(jù),要能訓(xùn)練、能部署。任何一環(huán)踩坑,項(xiàng)目都可能停住。
樂聚做后訓(xùn)練系統(tǒng)和一整套工具鏈,本質(zhì)上是在把這條復(fù)雜鏈路產(chǎn)品化。
數(shù)據(jù)采集與處理平臺(tái)負(fù)責(zé)把真機(jī)數(shù)據(jù)生產(chǎn)變得標(biāo)準(zhǔn);后訓(xùn)練工具鏈負(fù)責(zé)把基礎(chǔ)模型調(diào)成具體場景里的技能;部署評(píng)測工具鏈負(fù)責(zé)把模型壓縮到端側(cè)、跑到真機(jī)上,并用真實(shí)結(jié)果繼續(xù)反饋迭代。
這套流程連起來,開發(fā)者就不必每次都從底層工程開始重搭,而是可以站在樂聚已經(jīng)做好的工具鏈之上,圍繞具體場景做二次開發(fā)。
一個(gè)很有代表性的例子,是ICRA 2026 REAL-I挑戰(zhàn)賽。
全球高校學(xué)生依托樂聚開放的數(shù)據(jù)集和全棧工具鏈,一天之內(nèi)從零起步,把模型部署到真機(jī)上,跑通金屬件翻正、日化瓶取放、快遞包裹掃描三個(gè)真實(shí)工業(yè)場景。
“一天,從零到真機(jī)跑通”,這個(gè)信號(hào)比單個(gè)指標(biāo)更有意義。
它說明樂聚不是只把系統(tǒng)給內(nèi)部工程師用,而是在嘗試把機(jī)器人開發(fā)流程做成開發(fā)者也能用的工具。
對(duì)想做具身智能二次開發(fā)的團(tuán)隊(duì)來說,有了這套工具,不用先把底層鏈路摸一遍,而是可以更快進(jìn)入具體應(yīng)用,解決某個(gè)工位最具體的問題。
這對(duì)商業(yè)化落地很關(guān)鍵。
因?yàn)榫呱碇悄芪磥聿豢赡苤豢繋卓钔ㄓ胐emo打開市場,只有讓更多開發(fā)者、集成商、場景方參與進(jìn)來,機(jī)器人應(yīng)用才可能從少數(shù)標(biāo)桿項(xiàng)目,擴(kuò)展到大量中小場景。
樂聚在這里扮演的角色,有點(diǎn)像把手機(jī)系統(tǒng)先搭起來。
手機(jī)系統(tǒng)負(fù)責(zé)底層能力:硬件調(diào)度、應(yīng)用接口、開發(fā)工具、分發(fā)和運(yùn)行環(huán)境。開發(fā)團(tuán)隊(duì)則在這個(gè)系統(tǒng)之上,做導(dǎo)航、支付、辦公、短視頻、游戲等一個(gè)個(gè)APP。
放到具身智能里,樂聚后訓(xùn)練工具鏈就是類似的底層系統(tǒng):它負(fù)責(zé)數(shù)據(jù)、模型、部署、評(píng)測這些基礎(chǔ)能力;不同開發(fā)團(tuán)隊(duì)則可以基于這套系統(tǒng),去開發(fā)面向汽車制造、電子、物流、倉儲(chǔ)等具體行業(yè)的“機(jī)器人APP”。
對(duì)開發(fā)者來說,這意味著更低的開發(fā)部署門檻、更短的試錯(cuò)周期,以及更清晰的商業(yè)化路徑。
對(duì)樂聚來說,這也意味著它的站位不只是“賣機(jī)器人”,而是成為具身智能應(yīng)用開發(fā)的infra和入口。開發(fā)團(tuán)隊(duì)想做機(jī)器人技能、想快速驗(yàn)證一個(gè)工業(yè)場景,可以圍繞樂聚的后訓(xùn)練工具鏈展開。
未來真正重要的,可能不只是“誰的模型最強(qiáng)”或“誰的本體最好”,而是誰能把模型、本體、數(shù)據(jù)、部署和開發(fā)者連接成一個(gè)可持續(xù)增長的生態(tài)。
![]()
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.