![]()
機(jī)器之心發(fā)布
2026 年,世界動(dòng)作模型(WAM)在具身智能領(lǐng)域逐漸成為一個(gè)集中討論的方向,英偉達(dá)等公司也陸續(xù)在這一領(lǐng)域投入資源。
這類(lèi)模型要做的事情,大致可以分成兩部分:一是從數(shù)據(jù)中學(xué)習(xí)現(xiàn)實(shí)世界里常見(jiàn)的變化規(guī)律,二是學(xué)習(xí)機(jī)器人能用來(lái)介入這些變化的各類(lèi)動(dòng)作。但一個(gè)懸而未決的問(wèn)題是 —— 世界模型“看懂了”環(huán)境變化,動(dòng)作策略卻依然“做不對(duì)”,中間的傳導(dǎo)斷層怎么補(bǔ)?
最近,臥安機(jī)器人(OneRobotics,6600.HK)發(fā)布的OneModel 1.7 FrontoStria-RL給出了一種回答。該模型在LIBERO標(biāo)準(zhǔn)測(cè)試中取得99%平均成功率,超越 π0.5、GR00T-N1.5、OpenVLA-OFT;真機(jī)日常操作成功率99%,高精度任務(wù)97%,真人對(duì)打乒乓球接球91.2%。這組成績(jī)背后的核心不是更大的參數(shù)規(guī)模,而是一條從世界理解到動(dòng)作執(zhí)行的隱式傳導(dǎo)通路 ——Predictive Policy Latent,以及讓這條通路持續(xù)進(jìn)化的RL 閉環(huán)機(jī)制。我們來(lái)拆解一下它的技術(shù)細(xì)節(jié)。
![]()
圖 1:標(biāo)準(zhǔn) LIBERO 平均成功率對(duì)比。One Model 1.7 以 99% 領(lǐng)先于 π0.5、GR00T-N1.5、OpenVLA-OFT 等主流公開(kāi)模型。
一、機(jī)器人在你家廚房,
為什么總是 "看懂了卻做不對(duì)"?
想象一個(gè)場(chǎng)景:機(jī)器人昨天在你家廚房洗完碗,順利把碗放回了櫥柜。今天你把碗架挪到了右邊,櫥柜門(mén)也換了個(gè)角度 —— 對(duì)人來(lái)說(shuō)這根本不算事兒,但對(duì)機(jī)器人來(lái)說(shuō),這可能就是一個(gè) "從沒(méi)見(jiàn)過(guò)的全新任務(wù)"。
這不是個(gè)別現(xiàn)象。家庭環(huán)境是具身智能最難、也最有價(jià)值的戰(zhàn)場(chǎng):沒(méi)有兩間完全相同的廚房,沒(méi)有兩個(gè)擺放一致的客廳,每天的任務(wù)組合也在不斷變化。機(jī)器人不僅要精確完成疊衣、端碗、收納等動(dòng)作,還得在物品陌生、光照變化、戶(hù)型各異的情況下,仍能讀懂意圖并做出合理行動(dòng)。更不用說(shuō)拔插試管、倒咖啡豆這類(lèi)容錯(cuò)空間極小的高精度操作,或者真人對(duì)打乒乓球這種對(duì)實(shí)時(shí)感知和高速響應(yīng)要求極高的極限場(chǎng)景。
這背后的技術(shù)困境,可以歸結(jié)為當(dāng)前兩條主流路線(xiàn)各自的瓶頸。
VLA(Vision-Language-Action)路線(xiàn)做得很直接:把視覺(jué)觀(guān)測(cè)和語(yǔ)言指令端到端映射成機(jī)器人動(dòng)作,在訓(xùn)練數(shù)據(jù)覆蓋充分的場(chǎng)景中表現(xiàn)高效。但問(wèn)題在于,物體位置變了、視角偏了、光照換了,動(dòng)作策略就容易出錯(cuò);碰到多階段的復(fù)雜任務(wù),也容易在中途丟失全局目標(biāo)。
World Model 路線(xiàn)走的是另一條路,試圖讓模型建立對(duì)環(huán)境狀態(tài)和任務(wù)演化的預(yù)測(cè)能力 —— 物體關(guān)系、空間結(jié)構(gòu)、動(dòng)作后果。理論上泛化潛力更強(qiáng),但落地時(shí)有一個(gè)核心難題:世界模型 "看懂了",不代表動(dòng)作策略就 "做對(duì)了"。如果用顯式的未來(lái)圖像或中間坐標(biāo)來(lái)銜接動(dòng)作模塊,會(huì)引入生成誤差、信息冗余和推理延遲;如果不做有效傳導(dǎo),"理解世界" 和 "動(dòng)得準(zhǔn)" 之間就存在一道斷層。
OneModel 1.7 要解決的核心問(wèn)題,正是這道斷層。
二、Predictive Policy Latent:
打通斷層的隱式通路
OneModel 1.7 FrontoStria-RL 采用臥安自研的 RL-Latent World Action Model 架構(gòu)( RL-LWAM),其完整信息流如下:
Instruction / Observation /Skill→World Model→Predictive Policy Latent→Understand Expert→Action Expert→ Robot Execution → RL / Success Memory / HITL ?
![]()
圖 2:One Model 1.7 FrontoStria-RL 完整架構(gòu)。 Predictive Policy Latent 作為核心傳導(dǎo)機(jī)制,連接 World Model、Understand Expert 與 Action Expert。
整個(gè)架構(gòu)由三個(gè)模塊組成:World Model 負(fù)責(zé)跨場(chǎng)景泛化,Understand Expert 負(fù)責(zé)任務(wù)理解與 Skill 調(diào)度,Action Expert 負(fù)責(zé)精準(zhǔn)執(zhí)行。但讓這三個(gè)模塊真正 "通" 起來(lái)的關(guān)鍵,是中間的Predictive Policy Latent
"FrontoStria" 這個(gè)名字是什么意思?
FrontoStria 來(lái)自神經(jīng)科學(xué)中的 "額紋狀體通路"( Frontostriatal Pathway) —— 大腦中連接前額葉皮層(負(fù)責(zé)決策和規(guī)劃)與紋狀體(負(fù)責(zé)動(dòng)作執(zhí)行) 的神經(jīng)回路。這條通路的核心功能,正是將高層認(rèn)知決策傳導(dǎo)到底層運(yùn)動(dòng)執(zhí)行。
OneModel 1.7 的 Predictive Policy Latent 扮演的就是這條通路的角色:將 World Model 對(duì)場(chǎng)景的高層理解( "前額葉"),隱式傳導(dǎo)到 Action Expert 的動(dòng)作生成( "運(yùn)動(dòng)皮層")。
Predictive Policy Latent 具體怎么工作?
傳統(tǒng)方案要把世界模型的理解傳給動(dòng)作模塊,通常的做法是生成預(yù)測(cè)圖像( "我預(yù)測(cè)未來(lái)場(chǎng)景長(zhǎng)這樣")或輸出顯式目標(biāo)坐標(biāo)( "目標(biāo)物在 xyz 位置")。但這些方式有三個(gè)代價(jià):像素冗余(傳了很多與決策無(wú)關(guān)的信息)、生成幻覺(jué)(預(yù)測(cè)圖像本身可能有誤差)、模塊割裂(上下游耦合度低)。
Predictive Policy Latent 的做法不同。 它用一種面向動(dòng)作策略的隱式表征來(lái)替代顯式信號(hào) ——
- 訓(xùn)練階段:模型可以 "看到" 動(dòng)作執(zhí)行后的未來(lái)觀(guān)測(cè)結(jié)果,以此塑造對(duì)任務(wù)后果的理解,形成隱式的物理推理表征
- 部署階段:模型不再依賴(lài)未來(lái)信息,僅憑當(dāng)前觀(guān)測(cè)即可輸出等效的調(diào)制信號(hào)
換句話(huà)說(shuō),這條隱式通路在訓(xùn)練時(shí)用 "未來(lái)信息" 來(lái)教會(huì)模型什么是好的動(dòng)作決策方向,部署時(shí)則只靠當(dāng)前觀(guān)測(cè)就能做出等效判斷 — 信息密度更高,推理更快,且不引入生成式噪聲。
這正是 OneModel 1.7 區(qū)別于現(xiàn)有方案的核心設(shè)計(jì):不是把 VLA 和 World Model 簡(jiǎn)單拼在一起,而是用一條隱式通路真正把世界理解傳導(dǎo)到動(dòng)作執(zhí)行。
三、RL 閉環(huán) + Retrieve-then-Steer:
讓通路持續(xù)進(jìn)化
光打通這條通路還不夠。訓(xùn)練完成后模型參數(shù)固定,面對(duì)真實(shí)部署中的長(zhǎng)尾場(chǎng)景 — 手滑了、物體形變了、用戶(hù)臨時(shí)介入了 — 零樣本泛化總有邊界。
OneModel 1.7 的第二個(gè)核心設(shè)計(jì)是讓這條通路不是一次性的,而是持續(xù)增強(qiáng)的。這也是模型代號(hào)中 "RL" 的含義。
強(qiáng)化學(xué)習(xí)閉環(huán)
在明確獎(jiǎng)勵(lì)、 安全約束和人在環(huán)監(jiān)督( HITL)下,模型通過(guò)真實(shí)任務(wù)反饋進(jìn)行策略?xún)?yōu)化,突破模仿學(xué)習(xí) "只能模仿示范數(shù)據(jù)" 的上限,發(fā)現(xiàn)更穩(wěn)健、更高效的執(zhí)行路徑。
Retrieve-then-Steer:越用越好的成功記憶
這背后有一個(gè)關(guān)鍵觀(guān)察:現(xiàn)有評(píng)測(cè)把每次測(cè)試視為獨(dú)立的零樣本試驗(yàn),但真實(shí)機(jī)器人往往在同一個(gè)或緩慢變化的環(huán)境中反復(fù)操作 — 昨天成功洗過(guò)的碗,今天大概率還是用類(lèi)似的方式洗。成功執(zhí)行本身就是 "經(jīng)過(guò)環(huán)境驗(yàn)證的可靠行為模式"。
具體機(jī)制如下:
- 存儲(chǔ):部署過(guò)程中,將經(jīng)過(guò)進(jìn)度校準(zhǔn)的成功觀(guān)測(cè) - 動(dòng)作片段存入長(zhǎng)期記憶(Success Memory)
- 檢索:推理時(shí),檢索與當(dāng)前狀態(tài)相關(guān)的動(dòng)作塊
- 過(guò)濾:通過(guò)軌跡級(jí)一致性過(guò)濾不一致的候選
- 引導(dǎo):聚合為精英動(dòng)作先驗(yàn),通過(guò) Confidence-Adaptive Prior Guidance 注入 flow-matching 動(dòng)作采樣器的中間狀態(tài),根據(jù)檢索置信度自適應(yīng)調(diào)整引導(dǎo)強(qiáng)度
這意味著 OneModel 部署后可以 "越用越好"— 同一個(gè)家庭的環(huán)境相對(duì)固定,機(jī)器人每天積累的成功經(jīng)驗(yàn)會(huì)持續(xù)提升后續(xù)任務(wù)的成功率,而且這個(gè)過(guò)程是輕量級(jí)的、非參數(shù)的。
![]()
圖 3:SimplerEnv 平均成功率對(duì)比。 Retrieve-then-Steer 將 CogACT 的平均成功率從 75.8% 提升至 79.5%,提升 3.7 個(gè)百分點(diǎn)。
RL 閉環(huán)和 Retrieve-then-Steer 的關(guān)系是互補(bǔ)的:RL 解決的是能力上限問(wèn)題(突破模仿學(xué)習(xí)天花板),Retrieve-then-Steer 解決的是部署適應(yīng)問(wèn)題(無(wú)需重訓(xùn)即可自適應(yīng))。兩條路徑共同讓 Predictive Policy Latent 這條傳導(dǎo)通路從 "一次性連通" 變成 "持續(xù)增強(qiáng)"。
四、支撐通路的兩個(gè)關(guān)鍵模塊
Predictive Policy Latent 這條主通路要跑得好,還需要兩個(gè)支撐模塊在通路的中段和末端分別解決問(wèn)題。
Understand Expert + Skill:通路中段的任務(wù)規(guī)劃
真實(shí)操作任務(wù)往往包含明確的階段劃分和子目標(biāo)依賴(lài):疊衣服要先展平、再對(duì)折、最后整理邊緣;洗碗機(jī)操作要識(shí)別碗碟類(lèi)型、選擇擺放位置、確認(rèn)關(guān)門(mén)。這些結(jié)構(gòu)化的操作規(guī)程,既不屬于 World Model 的環(huán)境建模,也不屬于 Action Expert 的動(dòng)作生成,而是連接理解與執(zhí)行的中間層。
Understand Expert 在架構(gòu)中承擔(dān)的就是這個(gè)角色:接收 Predictive Policy Latent 的調(diào)制信號(hào),對(duì)任務(wù)進(jìn)行結(jié)構(gòu)化分解 —— 識(shí)別階段、確定子目標(biāo)依賴(lài)、調(diào)度對(duì)應(yīng)的 Skill 序列。面對(duì)新任務(wù)組合時(shí)可以復(fù)用已有 Skill,面對(duì)長(zhǎng)流程時(shí)不丟失階段目標(biāo)。
MCF-Proto:通路末端的動(dòng)作魯棒性
當(dāng)前 VLA 模型的骨干( backbone)、預(yù)訓(xùn)練和數(shù)據(jù)集都在快速進(jìn)化,但 action head 幾乎是同質(zhì)的 —— 大多在固定的世界坐標(biāo)系下直接預(yù)測(cè)動(dòng)作命令。這種方式對(duì)相機(jī)視角變化和機(jī)器人初始位姿偏差非常敏感。
![]()
一個(gè)有趣的發(fā)現(xiàn)是:無(wú)需顯式的方向標(biāo)簽,學(xué)到的局部坐標(biāo)系會(huì)自發(fā)形成穩(wěn)定的幾何結(jié)構(gòu),其坐標(biāo)軸與示教中末端執(zhí)行器的運(yùn)動(dòng)方向高度一致。動(dòng)作表征也變得更加緊湊,由更少的主方向捕獲變化,并由共享原型更規(guī)則地組織起來(lái)。
在 LIBERO-plus 擾動(dòng)測(cè)試中, MCF-Proto 在七類(lèi)擾動(dòng)中六類(lèi)取得最優(yōu)結(jié)果。最值得關(guān)注的是兩類(lèi)幾何擾動(dòng) ——Camera(相機(jī)視角變化) 領(lǐng)先最強(qiáng)基線(xiàn) 3.3 個(gè)百分點(diǎn)(69.7% vs. 66.4%),Robot(機(jī)器人初始位姿偏差) 領(lǐng)先 15.7 個(gè)百分點(diǎn)(66.0% vs. 50.3%)。這兩類(lèi)恰恰是家庭環(huán)境中最常見(jiàn)、也最影響動(dòng)作執(zhí)行的變化。
![]()
圖 4:LIBERO-plus 七類(lèi)擾動(dòng)魯棒性對(duì)比。 MCF-Proto 在 Camera 和 Robot 兩類(lèi)幾何擾動(dòng)下優(yōu)勢(shì)最為顯著。
![]()
圖 5:One Model 1.7 FrontoStria-RL 四大核心技術(shù)模塊總覽。
五、OneModel 1.7 與主流具身智能模型對(duì)比
為了更清晰地理解 OneModel 1.7 在當(dāng)前技術(shù)格局中的位置,以下將其與主流具身智能模型做一個(gè)架構(gòu)層面的對(duì)比:
![]()
OneModel 1.7 的兩個(gè)獨(dú)特之處在這張表中非常清晰:
1. 唯一的隱式傳導(dǎo)通道。從 "規(guī)劃 / 中間表征" 一行可以看到,π0.5 和 GR00T N1.7 沒(méi)有顯式規(guī)劃表征;π0.7 通過(guò)未來(lái)圖像或子目標(biāo)圖像承載世界模型輸出,DreamZero 進(jìn)一步生成未來(lái)視頻。OneModel 1.7 走了一條不同的路:通過(guò) Predictive Policy Latent 將世界模型的高層理解以隱式表征直接傳導(dǎo)到動(dòng)作策略,不生成任何中間圖像或視頻,實(shí)現(xiàn)了世界理解到動(dòng)作執(zhí)行之間的低冗余連通。
2. 唯一的強(qiáng)化學(xué)習(xí)閉環(huán)。從 "強(qiáng)化學(xué)習(xí)閉環(huán)" 一行可以看到,π0.5、GR00T N1.7、π0.7 和 DreamZero 的核心范式都不依賴(lài)部署后的強(qiáng)化學(xué)習(xí)閉環(huán)。OneModel 1.7 的定位不同: 它把隱式 WAM 與強(qiáng)化學(xué)習(xí)結(jié)合起來(lái),讓機(jī)器人在日常使用中積累成功經(jīng)驗(yàn),并通過(guò) Retrieve-then-Steer 在不更新模型參數(shù)的情況下提升后續(xù)任務(wù)的成功率。
六、真機(jī)驗(yàn)證:從疊衣服到打乒乓球
benchmark 成績(jī)只是一部分。OneModel 1.7 在真實(shí)機(jī)器人平臺(tái)上覆蓋了三類(lèi)難度梯度的任務(wù)。
日常操作:平均成功率 99%
洗衣服、疊衣服、洗碗機(jī)操作、傳送帶拿取物品 —— 這些任務(wù)涉及柔性物體操作、多階段流程和環(huán)境多樣性,要求模型在泛化理解與穩(wěn)定執(zhí)行之間取得平衡。
高精度操作:平均成功率 97%
拔插試管、疊紙杯、倒咖啡豆 —— 容錯(cuò)空間極小,對(duì)末端位置精度、姿態(tài)控制和力控穩(wěn)定性要求很高。MCF-Proto 圍繞局部運(yùn)動(dòng)結(jié)構(gòu)組織動(dòng)作原型的設(shè)計(jì),在此類(lèi)任務(wù)中體現(xiàn)出顯著優(yōu)勢(shì)。
極限動(dòng)態(tài):乒乓球接球成功率 91.2%
真人對(duì)打乒乓球?qū)?shí)時(shí)感知、軌跡預(yù)測(cè)和高速動(dòng)作生成要求極高,是 "高動(dòng)態(tài) + 高精度" 的典型代表。World Model 提供來(lái)球軌跡的快速預(yù)測(cè),Action Expert 在極短時(shí)間窗口內(nèi)生成精準(zhǔn)動(dòng)作,RL 閉環(huán)通過(guò)大量對(duì)打訓(xùn)練持續(xù)優(yōu)化擊球策略。
![]()
圖 6:日常操作與高精度任務(wù)真機(jī)驗(yàn)證成功率。
![]()
圖 7:真人對(duì)打乒乓球動(dòng)作階段成功率。接球成功率達(dá)到 91.2%。
![]()
總結(jié)
OneModel 1.7 FrontoStria-RL回應(yīng)的是具身智能從實(shí)驗(yàn)室走向真實(shí)部署時(shí)面臨的一組系統(tǒng)性問(wèn)題 —— 世界模型的理解如何傳導(dǎo)到動(dòng)作執(zhí)行、任務(wù)如何結(jié)構(gòu)化分解、動(dòng)作如何對(duì)環(huán)境擾動(dòng)保持魯棒、模型如何在部署后持續(xù)進(jìn)化。
它給出的回答是:用Predictive Policy Latent建立一條隱式通路,讓世界理解真正驅(qū)動(dòng)動(dòng)作策略;用Understand Expert + Skill體系為長(zhǎng)程任務(wù)提供結(jié)構(gòu)化規(guī)劃;用MCF-Proto讓動(dòng)作表達(dá)對(duì)幾何擾動(dòng)保持穩(wěn)定;用RL 閉環(huán)和 Retrieve-then-Steer讓整個(gè)系統(tǒng)越用越好。
家庭機(jī)器人要真正走進(jìn)日常使用,靠的不是更大的參數(shù)規(guī)模,也不是在特定場(chǎng)景下偶爾成功的演示,需要的是一套能同時(shí)處理泛化、執(zhí)行和持續(xù)更新這三件事的模型系統(tǒng)。
OneModel 1.7 FrontoStria-RL 是臥安在這個(gè)方向上的一次階段性工作。對(duì)臥安而言,模型發(fā)布并不是孤立的技術(shù)事件,而是與其家庭機(jī)器人本體、真實(shí)場(chǎng)景數(shù)據(jù)采集和服務(wù)部署體系共同構(gòu)成閉環(huán)。隨著臥安機(jī)器人圍繞真實(shí)家庭與服務(wù)場(chǎng)景推進(jìn) OneModel 模型的迭代,相信在不久,機(jī)器人將從 “能看懂、能行動(dòng)”,進(jìn)一步走向 “能適應(yīng)、能進(jìn)化、能持久可靠地工作”。
![]()
- 論文鏈接:https://arxiv.org/abs/2605.11809
![]()
- 論文鏈接:https://arxiv.org/abs/2605.10094
- 官網(wǎng)詳情:https://www.onerobot.com/OneModel
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.