網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

1天跑通后訓(xùn)練閉環(huán)，樂聚把機(jī)器人開發(fā)門檻打下來了

2026-06-12 18:35:32　來源: AI科技評(píng)論

廣東舉報(bào)

分享至

不想只賣機(jī)器人，樂聚還要做具身智能的infra。

編輯丨李希

具身智能現(xiàn)在最缺什么？

不是更會(huì)聊天的大模型，也不是又一臺(tái)會(huì)翻跟頭、會(huì)跳舞的人形機(jī)器人。真正卡住產(chǎn)業(yè)落地的，是一件更樸素、也更難的事：

怎么把一個(gè)在論文和demo里看起來很強(qiáng)的模型，穩(wěn)定搬到真實(shí)機(jī)器、真實(shí)場景、真實(shí)任務(wù)里。

同樣是“把瓶子拿起來”，瓶身材質(zhì)變了，夾爪受力就變了；相機(jī)角度偏了一點(diǎn)，抓取點(diǎn)就可能漂掉；任務(wù)從單步抓放變成“識(shí)別、靠近、抓取、搬運(yùn)、放置”的多階段流程，中間任何一步失誤，最后成功率都可能歸零。

所以行業(yè)走到今天，一個(gè)越來越明顯的共識(shí)是：具身智能不能只拼預(yù)訓(xùn)練模型。預(yù)訓(xùn)練模型像通才，知道很多東西，但它要進(jìn)工廠、進(jìn)真實(shí)生產(chǎn)線，還需要一套能把通才調(diào)成專才的系統(tǒng)。

樂聚最近聯(lián)合螞蟻靈波，進(jìn)行了一次機(jī)器人與大模型配適的評(píng)測，并發(fā)布后訓(xùn)練系統(tǒng)，瞄準(zhǔn)的就是這個(gè)位置。

這次不是簡單做一個(gè)機(jī)器人本體，也不是只做一個(gè)模型適配demo，而是把真機(jī)數(shù)據(jù)采集、模型后訓(xùn)練、多本體部署、真實(shí)場景評(píng)測，連成一條閉環(huán)。換句話說，過去很多團(tuán)隊(duì)是在“調(diào)一個(gè)模型”，樂聚想做的是“交付一套讓模型持續(xù)變好用、易部署的開發(fā)基礎(chǔ)設(shè)施”。

這也是它值得被單獨(dú)拿出來看的原因。

螞蟻預(yù)訓(xùn)練，樂聚后訓(xùn)練

近日，樂聚完成了螞蟻靈波LingBot-VLA具身大模型，在KUAVO 4 Pro上的后訓(xùn)練適配，并基于95個(gè)真機(jī)操作場景做了系統(tǒng)性測評(píng)。

看點(diǎn)不只是“跑通了一個(gè)模型”，而是做了兩個(gè)方向的交叉驗(yàn)證。

一方面，以夸父KUAVO 4 Pro為本體，橫向適配五個(gè)主流VLA模型，看不同模型在同一本體上的表現(xiàn)。

另一方面，把LingBot-VLA放到四款不同機(jī)器人本體上做適配測評(píng)，看同一個(gè)模型在不同硬件平臺(tái)上的遷移能力。

這套設(shè)計(jì)本身就很能說明問題。

如果只是本體廠，最自然的展示方式是“我的機(jī)器人加我的合作模型，能完成任務(wù)”；如果只是模型廠，通常會(huì)強(qiáng)調(diào)“我的模型能在常見本體上運(yùn)行”。

但樂聚這次參與做橫縱交叉驗(yàn)證，實(shí)際上是在證明另一件事：它要站在基座模型和機(jī)器人本體之間，做后訓(xùn)練與真機(jī)落地的中間層。

我們先來看看結(jié)果。

以KUAVO 4 Pro為評(píng)價(jià)對(duì)象，使用樂聚真機(jī)數(shù)據(jù)訓(xùn)練的LingBot-VLA平均成功率SR為17.59%，平均過程得分PS為36.22%。兩項(xiàng)指標(biāo)均取得當(dāng)前最優(yōu)，其中PS比強(qiáng)基線π0.5高出9.87個(gè)百分點(diǎn)。

KUAVO4Pro-主流模型benchmark雙指標(biāo)對(duì)比

單看17.59%的成功率，很多人第一反應(yīng)可能是：這也不高。但真機(jī)具身任務(wù)，不能只拿“最終成功率”當(dāng)唯一指標(biāo)。

這95個(gè)場景不是簡單的單步抓放，而是覆蓋多類型物體交互與長尾任務(wù)，包括精細(xì)插入、工具使用、小目標(biāo)按壓、動(dòng)態(tài)接觸、穩(wěn)定搬運(yùn)、多階段狀態(tài)轉(zhuǎn)換等。很多任務(wù)換成人手做，也需要集中注意力。

SR只看最終是否完整做完。中間任何一步失敗，最后都算0。對(duì)于多階段任務(wù)來說，這個(gè)指標(biāo)很嚴(yán)苛。

PS過程得分則更能體現(xiàn)模型推進(jìn)任務(wù)的能力。比如一個(gè)機(jī)器人雖然最后沒完成完整任務(wù)，但它正確識(shí)別了對(duì)象，完成了接近，抓取也基本成功，只是在最后放置環(huán)節(jié)失敗。這樣的能力進(jìn)展，在SR里看不到，在PS里才能體現(xiàn)出來。

在縱向測試中，將LingBot-VLA放到四款不同機(jī)器人本體中進(jìn)行比較，夸父則是唯一跑通完整閉環(huán)的雙足人形平臺(tái)。

LingBot-VLA多款機(jī)器人平臺(tái)benchmark雙指標(biāo)對(duì)比

雙足人形比輪臂、固定機(jī)械臂更難，這一點(diǎn)不需要過多解釋。輪臂有穩(wěn)定底盤，機(jī)械臂動(dòng)作空間更規(guī)整，而雙足人形光是保持姿態(tài)穩(wěn)定，就已經(jīng)消耗大量控制余量。

可以看出，樂聚把螞蟻的預(yù)訓(xùn)練模型放到自己的雙足本體上跑通，驗(yàn)證的不是某個(gè)單點(diǎn)能力，而是它能否把外部基座模型接入復(fù)雜真機(jī)系統(tǒng)，并通過后訓(xùn)練讓它跑起來。

這件事的行業(yè)意義在于：模型會(huì)不斷更新，本體會(huì)不斷分化，場景也會(huì)越來越碎片化，誰能把不同模型、不同本體、不同場景連接起來，誰就有機(jī)會(huì)成為產(chǎn)業(yè)里的基礎(chǔ)設(shè)施層。

樂聚這次押的，正是這一層，這比一次漂亮demo更重要。

后訓(xùn)練：把通才逼成專才

預(yù)訓(xùn)練模型解決的是“廣泛知道”。后訓(xùn)練解決的是“具體會(huì)做”。

對(duì)于VLA模型來說，這個(gè)區(qū)別尤其明顯。

一個(gè)預(yù)訓(xùn)練模型可能理解“拿起杯子”，“把物體放進(jìn)盒子”，“按下按鈕”，這些語言指令，也可能從大量數(shù)據(jù)里學(xué)到基本視覺和動(dòng)作關(guān)聯(lián)。但到了真實(shí)場景里，它還必須處理一堆非常局部、非常工程化、但又決定成敗的問題。

比如，這個(gè)杯子是軟的還是硬的？相機(jī)看到的抓取點(diǎn)和機(jī)械臂實(shí)際可達(dá)位置是否一致？

這些問題，靠預(yù)訓(xùn)練很難一次性解決。

后訓(xùn)練要做的，就是讓模型在真實(shí)任務(wù)、真實(shí)本體、真實(shí)反饋中，把通用先驗(yàn)轉(zhuǎn)化成穩(wěn)定技能。

KUAVO 4 Pro機(jī)器人操作場景

樂聚這次發(fā)布的后訓(xùn)練系統(tǒng)，其核心是自研VLA后訓(xùn)練算法庫。它針對(duì)的不是一個(gè)單一指標(biāo)，而是VLA模型真機(jī)落地中一組高頻痛點(diǎn)。

比如，模型微調(diào)最怕“學(xué)會(huì)新技能，忘了老本事”，樂聚用輕量化微調(diào)盡量保住基座模型的通用能力；傳統(tǒng)VLA很多時(shí)候只是在模仿動(dòng)作，樂聚則把物理世界預(yù)測引進(jìn)來，讓機(jī)器人動(dòng)手前先“想一想后果”；語言指令和真實(shí)抓取點(diǎn)之間常常對(duì)不齊，樂聚也做了語義、幾何和操作熱區(qū)之間的映射。

再往真機(jī)側(cè)走，還會(huì)遇到視角變化、動(dòng)作策略單一、多攝像頭信息利用效率低等問題。樂聚把這些都納入后訓(xùn)練系統(tǒng)里處理。

這些算法模塊聽起來偏技術(shù)，但它們共同指向一個(gè)非常實(shí)際的目標(biāo)：讓VLA模型不是只在數(shù)據(jù)里學(xué)會(huì)動(dòng)作，而是在真實(shí)機(jī)器人上更穩(wěn)地執(zhí)行任務(wù)。

如果只有算法庫，樂聚的故事還不完整。

真正讓這套系統(tǒng)更接近開發(fā)基礎(chǔ)設(shè)施的，是算法庫之外的三條工具鏈。

第一條是數(shù)據(jù)采集與處理平臺(tái)。

它覆蓋數(shù)據(jù)采集、清洗、標(biāo)注、質(zhì)檢、管理與輸出等環(huán)節(jié)，支持全身運(yùn)控?cái)?shù)據(jù)、靈巧手操作數(shù)據(jù)、輪臂基礎(chǔ)運(yùn)控?cái)?shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)模化生產(chǎn)。樂聚把數(shù)據(jù)平臺(tái)做成一站式處理平臺(tái)，本質(zhì)是在把過去很依賴人工經(jīng)驗(yàn)的數(shù)據(jù)生產(chǎn)，變成更工業(yè)化的流水線。

第二條是后訓(xùn)練工具鏈。

它適配Pi系列、GR00T系列、OpenVLA、LingBot-VLA等主流VLA基礎(chǔ)模型，并結(jié)合自研后訓(xùn)練算法庫，面向觸覺精細(xì)操作、桌面操作、移動(dòng)搬運(yùn)等場景做高效調(diào)優(yōu)。它把不同模型納入同一套開發(fā)流程里，讓開發(fā)者更關(guān)注任務(wù)本身，而不是每次都從環(huán)境配置和適配細(xì)節(jié)開始。

第三條是部署評(píng)測工具鏈。

機(jī)器人本體算力有限，模型不可能無限大。樂聚這套工具鏈面向高性能量化壓縮、端側(cè)部署和現(xiàn)場效果評(píng)估，讓模型不只是訓(xùn)練出來，而是真正能在機(jī)器人上跑、在場景里測。

三條工具鏈連起來，就是“數(shù)據(jù)采集—模型后訓(xùn)練—部署測評(píng)”的閉環(huán)。

這也是樂聚后訓(xùn)練系統(tǒng)優(yōu)越性的核心：它不是只優(yōu)化某一個(gè)環(huán)節(jié)，而是把具身智能開發(fā)中最容易斷開的幾個(gè)環(huán)節(jié)接上了。

現(xiàn)在這套系統(tǒng)也在垂直工業(yè)場景得到了驗(yàn)證。

比如，在汽車制造的料箱拆垛任務(wù)中，實(shí)現(xiàn)95%以上的綜合成功率；在3C電子SMT出庫環(huán)節(jié)，提升了高精度料盤的定位與抓取能力；在物流行業(yè)的快遞分揀與紙箱搬運(yùn)，顯著提高了完成效率和穩(wěn)定性。

后訓(xùn)練系統(tǒng)的意義，就是把“看起來會(huì)一點(diǎn)”的通用能力，壓實(shí)成“在某個(gè)場景里可靠工作”的專用能力。

這也是為什么樂聚這套系統(tǒng)更像基礎(chǔ)設(shè)施，而不只是算法能力展示。

打造開發(fā)者生態(tài)，把真機(jī)門檻降下來

具身智能產(chǎn)業(yè)要真正做大，只靠少數(shù)頭部算法團(tuán)隊(duì)肯定不夠。

原因很簡單：真實(shí)世界里的機(jī)器人需求太碎了。

工廠里有大量場景和工位，理論上都可以用機(jī)器人。但每個(gè)工廠、每條產(chǎn)線、每個(gè)工位，都有自己的物體規(guī)格、空間布局、節(jié)拍要求、異常情況和驗(yàn)收標(biāo)準(zhǔn)。這些場景不是沒有價(jià)值，而是太多、太散、太具體。

如果每一個(gè)工位都要由機(jī)器人廠商或頭部算法公司從頭開發(fā)，根本忙不過來。結(jié)果就是，大量本來可以被機(jī)器人改造的場景，卡在沒人有精力專門為它開發(fā)這一步。

這也是樂聚后訓(xùn)練系統(tǒng)的商業(yè)化意義。

它要解決的不是某一個(gè)具體需求，而是把“為場景、工位開發(fā)機(jī)器人技能”這件事，變得更標(biāo)準(zhǔn)、更快、更容易復(fù)制。

過去，開發(fā)者想做機(jī)器人二次開發(fā)，門檻非常高。要懂模型、懂本體，要會(huì)采數(shù)據(jù)、清洗數(shù)據(jù)，要能訓(xùn)練、能部署。任何一環(huán)踩坑，項(xiàng)目都可能停住。

樂聚做后訓(xùn)練系統(tǒng)和一整套工具鏈，本質(zhì)上是在把這條復(fù)雜鏈路產(chǎn)品化。

數(shù)據(jù)采集與處理平臺(tái)負(fù)責(zé)把真機(jī)數(shù)據(jù)生產(chǎn)變得標(biāo)準(zhǔn)；后訓(xùn)練工具鏈負(fù)責(zé)把基礎(chǔ)模型調(diào)成具體場景里的技能；部署評(píng)測工具鏈負(fù)責(zé)把模型壓縮到端側(cè)、跑到真機(jī)上，并用真實(shí)結(jié)果繼續(xù)反饋迭代。

這套流程連起來，開發(fā)者就不必每次都從底層工程開始重搭，而是可以站在樂聚已經(jīng)做好的工具鏈之上，圍繞具體場景做二次開發(fā)。

一個(gè)很有代表性的例子，是ICRA 2026 REAL-I挑戰(zhàn)賽。

全球高校學(xué)生依托樂聚開放的數(shù)據(jù)集和全棧工具鏈，一天之內(nèi)從零起步，把模型部署到真機(jī)上，跑通金屬件翻正、日化瓶取放、快遞包裹掃描三個(gè)真實(shí)工業(yè)場景。

“一天，從零到真機(jī)跑通”，這個(gè)信號(hào)比單個(gè)指標(biāo)更有意義。

它說明樂聚不是只把系統(tǒng)給內(nèi)部工程師用，而是在嘗試把機(jī)器人開發(fā)流程做成開發(fā)者也能用的工具。

對(duì)想做具身智能二次開發(fā)的團(tuán)隊(duì)來說，有了這套工具，不用先把底層鏈路摸一遍，而是可以更快進(jìn)入具體應(yīng)用，解決某個(gè)工位最具體的問題。

這對(duì)商業(yè)化落地很關(guān)鍵。

因?yàn)榫呱碇悄芪磥聿豢赡苤豢繋卓钔ㄓ胐emo打開市場，只有讓更多開發(fā)者、集成商、場景方參與進(jìn)來，機(jī)器人應(yīng)用才可能從少數(shù)標(biāo)桿項(xiàng)目，擴(kuò)展到大量中小場景。

樂聚在這里扮演的角色，有點(diǎn)像把手機(jī)系統(tǒng)先搭起來。

手機(jī)系統(tǒng)負(fù)責(zé)底層能力：硬件調(diào)度、應(yīng)用接口、開發(fā)工具、分發(fā)和運(yùn)行環(huán)境。開發(fā)團(tuán)隊(duì)則在這個(gè)系統(tǒng)之上，做導(dǎo)航、支付、辦公、短視頻、游戲等一個(gè)個(gè)APP。

放到具身智能里，樂聚后訓(xùn)練工具鏈就是類似的底層系統(tǒng)：它負(fù)責(zé)數(shù)據(jù)、模型、部署、評(píng)測這些基礎(chǔ)能力；不同開發(fā)團(tuán)隊(duì)則可以基于這套系統(tǒng)，去開發(fā)面向汽車制造、電子、物流、倉儲(chǔ)等具體行業(yè)的“機(jī)器人APP”。

對(duì)開發(fā)者來說，這意味著更低的開發(fā)部署門檻、更短的試錯(cuò)周期，以及更清晰的商業(yè)化路徑。

對(duì)樂聚來說，這也意味著它的站位不只是“賣機(jī)器人”，而是成為具身智能應(yīng)用開發(fā)的infra和入口。開發(fā)團(tuán)隊(duì)想做機(jī)器人技能、想快速驗(yàn)證一個(gè)工業(yè)場景，可以圍繞樂聚的后訓(xùn)練工具鏈展開。

未來真正重要的，可能不只是“誰的模型最強(qiáng)”或“誰的本體最好”，而是誰能把模型、本體、數(shù)據(jù)、部署和開發(fā)者連接成一個(gè)可持續(xù)增長的生態(tài)。

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.