網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

實(shí)測(cè)第一：臥安 OneModel 1.7用一條隱式通路打通看懂到做對(duì)

2026-05-21 18:39:21　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心發(fā)布

2026 年，世界動(dòng)作模型（WAM）在具身智能領(lǐng)域逐漸成為一個(gè)集中討論的方向，英偉達(dá)等公司也陸續(xù)在這一領(lǐng)域投入資源。

這類(lèi)模型要做的事情，大致可以分成兩部分：一是從數(shù)據(jù)中學(xué)習(xí)現(xiàn)實(shí)世界里常見(jiàn)的變化規(guī)律，二是學(xué)習(xí)機(jī)器人能用來(lái)介入這些變化的各類(lèi)動(dòng)作。但一個(gè)懸而未決的問(wèn)題是 —— 世界模型“看懂了”環(huán)境變化，動(dòng)作策略卻依然“做不對(duì)”，中間的傳導(dǎo)斷層怎么補(bǔ)？

最近，臥安機(jī)器人（OneRobotics，6600.HK）發(fā)布的OneModel 1.7 FrontoStria-RL給出了一種回答。該模型在LIBERO標(biāo)準(zhǔn)測(cè)試中取得99%平均成功率，超越 π0.5、GR00T-N1.5、OpenVLA-OFT；真機(jī)日常操作成功率99%，高精度任務(wù)97%，真人對(duì)打乒乓球接球91.2%。這組成績(jī)背后的核心不是更大的參數(shù)規(guī)模，而是一條從世界理解到動(dòng)作執(zhí)行的隱式傳導(dǎo)通路 ——Predictive Policy Latent，以及讓這條通路持續(xù)進(jìn)化的RL 閉環(huán)機(jī)制。我們來(lái)拆解一下它的技術(shù)細(xì)節(jié)。

圖 1：標(biāo)準(zhǔn) LIBERO 平均成功率對(duì)比。One Model 1.7 以 99% 領(lǐng)先于 π0.5、GR00T-N1.5、OpenVLA-OFT 等主流公開(kāi)模型。

一、機(jī)器人在你家廚房，

為什么總是 "看懂了卻做不對(duì)"？

想象一個(gè)場(chǎng)景：機(jī)器人昨天在你家廚房洗完碗，順利把碗放回了櫥柜。今天你把碗架挪到了右邊，櫥柜門(mén)也換了個(gè)角度 —— 對(duì)人來(lái)說(shuō)這根本不算事兒，但對(duì)機(jī)器人來(lái)說(shuō)，這可能就是一個(gè) "從沒(méi)見(jiàn)過(guò)的全新任務(wù)"。

這不是個(gè)別現(xiàn)象。家庭環(huán)境是具身智能最難、也最有價(jià)值的戰(zhàn)場(chǎng)：沒(méi)有兩間完全相同的廚房，沒(méi)有兩個(gè)擺放一致的客廳，每天的任務(wù)組合也在不斷變化。機(jī)器人不僅要精確完成疊衣、端碗、收納等動(dòng)作，還得在物品陌生、光照變化、戶(hù)型各異的情況下，仍能讀懂意圖并做出合理行動(dòng)。更不用說(shuō)拔插試管、倒咖啡豆這類(lèi)容錯(cuò)空間極小的高精度操作，或者真人對(duì)打乒乓球這種對(duì)實(shí)時(shí)感知和高速響應(yīng)要求極高的極限場(chǎng)景。

這背后的技術(shù)困境，可以歸結(jié)為當(dāng)前兩條主流路線(xiàn)各自的瓶頸。

VLA（Vision-Language-Action）路線(xiàn)做得很直接：把視覺(jué)觀(guān)測(cè)和語(yǔ)言指令端到端映射成機(jī)器人動(dòng)作，在訓(xùn)練數(shù)據(jù)覆蓋充分的場(chǎng)景中表現(xiàn)高效。但問(wèn)題在于，物體位置變了、視角偏了、光照換了，動(dòng)作策略就容易出錯(cuò)；碰到多階段的復(fù)雜任務(wù)，也容易在中途丟失全局目標(biāo)。

World Model 路線(xiàn)走的是另一條路，試圖讓模型建立對(duì)環(huán)境狀態(tài)和任務(wù)演化的預(yù)測(cè)能力 —— 物體關(guān)系、空間結(jié)構(gòu)、動(dòng)作后果。理論上泛化潛力更強(qiáng)，但落地時(shí)有一個(gè)核心難題：世界模型 "看懂了"，不代表動(dòng)作策略就 "做對(duì)了"。如果用顯式的未來(lái)圖像或中間坐標(biāo)來(lái)銜接動(dòng)作模塊，會(huì)引入生成誤差、信息冗余和推理延遲；如果不做有效傳導(dǎo)，"理解世界" 和 "動(dòng)得準(zhǔn)" 之間就存在一道斷層。

OneModel 1.7 要解決的核心問(wèn)題，正是這道斷層。

二、Predictive Policy Latent：

打通斷層的隱式通路

OneModel 1.7 FrontoStria-RL 采用臥安自研的 RL-Latent World Action Model 架構(gòu)（ RL-LWAM），其完整信息流如下：

Instruction / Observation /Skill→World Model→Predictive Policy Latent→Understand Expert→Action Expert→ Robot Execution → RL / Success Memory / HITL ?

圖 2：One Model 1.7 FrontoStria-RL 完整架構(gòu)。 Predictive Policy Latent 作為核心傳導(dǎo)機(jī)制，連接 World Model、Understand Expert 與 Action Expert。

整個(gè)架構(gòu)由三個(gè)模塊組成：World Model 負(fù)責(zé)跨場(chǎng)景泛化，Understand Expert 負(fù)責(zé)任務(wù)理解與 Skill 調(diào)度，Action Expert 負(fù)責(zé)精準(zhǔn)執(zhí)行。但讓這三個(gè)模塊真正 "通" 起來(lái)的關(guān)鍵，是中間的Predictive Policy Latent

"FrontoStria" 這個(gè)名字是什么意思？

FrontoStria 來(lái)自神經(jīng)科學(xué)中的 "額紋狀體通路"（ Frontostriatal Pathway） —— 大腦中連接前額葉皮層（負(fù)責(zé)決策和規(guī)劃）與紋狀體（負(fù)責(zé)動(dòng)作執(zhí)行）的神經(jīng)回路。這條通路的核心功能，正是將高層認(rèn)知決策傳導(dǎo)到底層運(yùn)動(dòng)執(zhí)行。

OneModel 1.7 的 Predictive Policy Latent 扮演的就是這條通路的角色：將 World Model 對(duì)場(chǎng)景的高層理解（ "前額葉"），隱式傳導(dǎo)到 Action Expert 的動(dòng)作生成（ "運(yùn)動(dòng)皮層"）。

Predictive Policy Latent 具體怎么工作？

傳統(tǒng)方案要把世界模型的理解傳給動(dòng)作模塊，通常的做法是生成預(yù)測(cè)圖像（ "我預(yù)測(cè)未來(lái)場(chǎng)景長(zhǎng)這樣"）或輸出顯式目標(biāo)坐標(biāo)（ "目標(biāo)物在 xyz 位置"）。但這些方式有三個(gè)代價(jià)：像素冗余（傳了很多與決策無(wú)關(guān)的信息）、生成幻覺(jué)（預(yù)測(cè)圖像本身可能有誤差）、模塊割裂（上下游耦合度低）。

Predictive Policy Latent 的做法不同。它用一種面向動(dòng)作策略的隱式表征來(lái)替代顯式信號(hào) ——

訓(xùn)練階段：模型可以 "看到" 動(dòng)作執(zhí)行后的未來(lái)觀(guān)測(cè)結(jié)果，以此塑造對(duì)任務(wù)后果的理解，形成隱式的物理推理表征
部署階段：模型不再依賴(lài)未來(lái)信息，僅憑當(dāng)前觀(guān)測(cè)即可輸出等效的調(diào)制信號(hào)

換句話(huà)說(shuō)，這條隱式通路在訓(xùn)練時(shí)用 "未來(lái)信息" 來(lái)教會(huì)模型什么是好的動(dòng)作決策方向，部署時(shí)則只靠當(dāng)前觀(guān)測(cè)就能做出等效判斷 — 信息密度更高，推理更快，且不引入生成式噪聲。

這正是 OneModel 1.7 區(qū)別于現(xiàn)有方案的核心設(shè)計(jì)：不是把 VLA 和 World Model 簡(jiǎn)單拼在一起，而是用一條隱式通路真正把世界理解傳導(dǎo)到動(dòng)作執(zhí)行。

三、RL 閉環(huán) + Retrieve-then-Steer：

讓通路持續(xù)進(jìn)化

光打通這條通路還不夠。訓(xùn)練完成后模型參數(shù)固定，面對(duì)真實(shí)部署中的長(zhǎng)尾場(chǎng)景 — 手滑了、物體形變了、用戶(hù)臨時(shí)介入了 — 零樣本泛化總有邊界。

OneModel 1.7 的第二個(gè)核心設(shè)計(jì)是讓這條通路不是一次性的，而是持續(xù)增強(qiáng)的。這也是模型代號(hào)中 "RL" 的含義。

強(qiáng)化學(xué)習(xí)閉環(huán)

在明確獎(jiǎng)勵(lì)、安全約束和人在環(huán)監(jiān)督（ HITL）下，模型通過(guò)真實(shí)任務(wù)反饋進(jìn)行策略?xún)?yōu)化，突破模仿學(xué)習(xí) "只能模仿示范數(shù)據(jù)" 的上限，發(fā)現(xiàn)更穩(wěn)健、更高效的執(zhí)行路徑。

Retrieve-then-Steer：越用越好的成功記憶

這背后有一個(gè)關(guān)鍵觀(guān)察：現(xiàn)有評(píng)測(cè)把每次測(cè)試視為獨(dú)立的零樣本試驗(yàn)，但真實(shí)機(jī)器人往往在同一個(gè)或緩慢變化的環(huán)境中反復(fù)操作 — 昨天成功洗過(guò)的碗，今天大概率還是用類(lèi)似的方式洗。成功執(zhí)行本身就是 "經(jīng)過(guò)環(huán)境驗(yàn)證的可靠行為模式"。

具體機(jī)制如下：

存儲(chǔ)：部署過(guò)程中，將經(jīng)過(guò)進(jìn)度校準(zhǔn)的成功觀(guān)測(cè) - 動(dòng)作片段存入長(zhǎng)期記憶（Success Memory）
檢索：推理時(shí)，檢索與當(dāng)前狀態(tài)相關(guān)的動(dòng)作塊
過(guò)濾：通過(guò)軌跡級(jí)一致性過(guò)濾不一致的候選
引導(dǎo)：聚合為精英動(dòng)作先驗(yàn)，通過(guò) Confidence-Adaptive Prior Guidance 注入 flow-matching 動(dòng)作采樣器的中間狀態(tài)，根據(jù)檢索置信度自適應(yīng)調(diào)整引導(dǎo)強(qiáng)度

這意味著 OneModel 部署后可以 "越用越好"— 同一個(gè)家庭的環(huán)境相對(duì)固定，機(jī)器人每天積累的成功經(jīng)驗(yàn)會(huì)持續(xù)提升后續(xù)任務(wù)的成功率，而且這個(gè)過(guò)程是輕量級(jí)的、非參數(shù)的。

圖 3：SimplerEnv 平均成功率對(duì)比。 Retrieve-then-Steer 將 CogACT 的平均成功率從 75.8% 提升至 79.5%，提升 3.7 個(gè)百分點(diǎn)。

RL 閉環(huán)和 Retrieve-then-Steer 的關(guān)系是互補(bǔ)的：RL 解決的是能力上限問(wèn)題（突破模仿學(xué)習(xí)天花板），Retrieve-then-Steer 解決的是部署適應(yīng)問(wèn)題（無(wú)需重訓(xùn)即可自適應(yīng)）。兩條路徑共同讓 Predictive Policy Latent 這條傳導(dǎo)通路從 "一次性連通" 變成 "持續(xù)增強(qiáng)"。

四、支撐通路的兩個(gè)關(guān)鍵模塊

Predictive Policy Latent 這條主通路要跑得好，還需要兩個(gè)支撐模塊在通路的中段和末端分別解決問(wèn)題。

Understand Expert + Skill：通路中段的任務(wù)規(guī)劃

真實(shí)操作任務(wù)往往包含明確的階段劃分和子目標(biāo)依賴(lài)：疊衣服要先展平、再對(duì)折、最后整理邊緣；洗碗機(jī)操作要識(shí)別碗碟類(lèi)型、選擇擺放位置、確認(rèn)關(guān)門(mén)。這些結(jié)構(gòu)化的操作規(guī)程，既不屬于 World Model 的環(huán)境建模，也不屬于 Action Expert 的動(dòng)作生成，而是連接理解與執(zhí)行的中間層。

Understand Expert 在架構(gòu)中承擔(dān)的就是這個(gè)角色：接收 Predictive Policy Latent 的調(diào)制信號(hào)，對(duì)任務(wù)進(jìn)行結(jié)構(gòu)化分解 —— 識(shí)別階段、確定子目標(biāo)依賴(lài)、調(diào)度對(duì)應(yīng)的 Skill 序列。面對(duì)新任務(wù)組合時(shí)可以復(fù)用已有 Skill，面對(duì)長(zhǎng)流程時(shí)不丟失階段目標(biāo)。

MCF-Proto：通路末端的動(dòng)作魯棒性

當(dāng)前 VLA 模型的骨干（ backbone）、預(yù)訓(xùn)練和數(shù)據(jù)集都在快速進(jìn)化，但 action head 幾乎是同質(zhì)的 —— 大多在固定的世界坐標(biāo)系下直接預(yù)測(cè)動(dòng)作命令。這種方式對(duì)相機(jī)視角變化和機(jī)器人初始位姿偏差非常敏感。

一個(gè)有趣的發(fā)現(xiàn)是：無(wú)需顯式的方向標(biāo)簽，學(xué)到的局部坐標(biāo)系會(huì)自發(fā)形成穩(wěn)定的幾何結(jié)構(gòu)，其坐標(biāo)軸與示教中末端執(zhí)行器的運(yùn)動(dòng)方向高度一致。動(dòng)作表征也變得更加緊湊，由更少的主方向捕獲變化，并由共享原型更規(guī)則地組織起來(lái)。

在 LIBERO-plus 擾動(dòng)測(cè)試中， MCF-Proto 在七類(lèi)擾動(dòng)中六類(lèi)取得最優(yōu)結(jié)果。最值得關(guān)注的是兩類(lèi)幾何擾動(dòng) ——Camera（相機(jī)視角變化）領(lǐng)先最強(qiáng)基線(xiàn) 3.3 個(gè)百分點(diǎn)（69.7% vs. 66.4%），Robot（機(jī)器人初始位姿偏差）領(lǐng)先 15.7 個(gè)百分點(diǎn)（66.0% vs. 50.3%）。這兩類(lèi)恰恰是家庭環(huán)境中最常見(jiàn)、也最影響動(dòng)作執(zhí)行的變化。

圖 4：LIBERO-plus 七類(lèi)擾動(dòng)魯棒性對(duì)比。 MCF-Proto 在 Camera 和 Robot 兩類(lèi)幾何擾動(dòng)下優(yōu)勢(shì)最為顯著。

圖 5：One Model 1.7 FrontoStria-RL 四大核心技術(shù)模塊總覽。

五、OneModel 1.7 與主流具身智能模型對(duì)比

為了更清晰地理解 OneModel 1.7 在當(dāng)前技術(shù)格局中的位置，以下將其與主流具身智能模型做一個(gè)架構(gòu)層面的對(duì)比：

OneModel 1.7 的兩個(gè)獨(dú)特之處在這張表中非常清晰：

1. 唯一的隱式傳導(dǎo)通道。從 "規(guī)劃 / 中間表征" 一行可以看到，π0.5 和 GR00T N1.7 沒(méi)有顯式規(guī)劃表征；π0.7 通過(guò)未來(lái)圖像或子目標(biāo)圖像承載世界模型輸出，DreamZero 進(jìn)一步生成未來(lái)視頻。OneModel 1.7 走了一條不同的路：通過(guò) Predictive Policy Latent 將世界模型的高層理解以隱式表征直接傳導(dǎo)到動(dòng)作策略，不生成任何中間圖像或視頻，實(shí)現(xiàn)了世界理解到動(dòng)作執(zhí)行之間的低冗余連通。

2. 唯一的強(qiáng)化學(xué)習(xí)閉環(huán)。從 "強(qiáng)化學(xué)習(xí)閉環(huán)" 一行可以看到，π0.5、GR00T N1.7、π0.7 和 DreamZero 的核心范式都不依賴(lài)部署后的強(qiáng)化學(xué)習(xí)閉環(huán)。OneModel 1.7 的定位不同：它把隱式 WAM 與強(qiáng)化學(xué)習(xí)結(jié)合起來(lái)，讓機(jī)器人在日常使用中積累成功經(jīng)驗(yàn)，并通過(guò) Retrieve-then-Steer 在不更新模型參數(shù)的情況下提升后續(xù)任務(wù)的成功率。

六、真機(jī)驗(yàn)證：從疊衣服到打乒乓球

benchmark 成績(jī)只是一部分。OneModel 1.7 在真實(shí)機(jī)器人平臺(tái)上覆蓋了三類(lèi)難度梯度的任務(wù)。

日常操作：平均成功率 99%

洗衣服、疊衣服、洗碗機(jī)操作、傳送帶拿取物品 —— 這些任務(wù)涉及柔性物體操作、多階段流程和環(huán)境多樣性，要求模型在泛化理解與穩(wěn)定執(zhí)行之間取得平衡。

高精度操作：平均成功率 97%

拔插試管、疊紙杯、倒咖啡豆 —— 容錯(cuò)空間極小，對(duì)末端位置精度、姿態(tài)控制和力控穩(wěn)定性要求很高。MCF-Proto 圍繞局部運(yùn)動(dòng)結(jié)構(gòu)組織動(dòng)作原型的設(shè)計(jì)，在此類(lèi)任務(wù)中體現(xiàn)出顯著優(yōu)勢(shì)。

極限動(dòng)態(tài)：乒乓球接球成功率 91.2%

真人對(duì)打乒乓球?qū)?shí)時(shí)感知、軌跡預(yù)測(cè)和高速動(dòng)作生成要求極高，是 "高動(dòng)態(tài) + 高精度" 的典型代表。World Model 提供來(lái)球軌跡的快速預(yù)測(cè)，Action Expert 在極短時(shí)間窗口內(nèi)生成精準(zhǔn)動(dòng)作，RL 閉環(huán)通過(guò)大量對(duì)打訓(xùn)練持續(xù)優(yōu)化擊球策略。

圖 6：日常操作與高精度任務(wù)真機(jī)驗(yàn)證成功率。

圖 7：真人對(duì)打乒乓球動(dòng)作階段成功率。接球成功率達(dá)到 91.2%。

總結(jié)

OneModel 1.7 FrontoStria-RL回應(yīng)的是具身智能從實(shí)驗(yàn)室走向真實(shí)部署時(shí)面臨的一組系統(tǒng)性問(wèn)題 —— 世界模型的理解如何傳導(dǎo)到動(dòng)作執(zhí)行、任務(wù)如何結(jié)構(gòu)化分解、動(dòng)作如何對(duì)環(huán)境擾動(dòng)保持魯棒、模型如何在部署后持續(xù)進(jìn)化。

它給出的回答是：用Predictive Policy Latent建立一條隱式通路，讓世界理解真正驅(qū)動(dòng)動(dòng)作策略；用Understand Expert + Skill體系為長(zhǎng)程任務(wù)提供結(jié)構(gòu)化規(guī)劃；用MCF-Proto讓動(dòng)作表達(dá)對(duì)幾何擾動(dòng)保持穩(wěn)定；用RL 閉環(huán)和 Retrieve-then-Steer讓整個(gè)系統(tǒng)越用越好。

家庭機(jī)器人要真正走進(jìn)日常使用，靠的不是更大的參數(shù)規(guī)模，也不是在特定場(chǎng)景下偶爾成功的演示，需要的是一套能同時(shí)處理泛化、執(zhí)行和持續(xù)更新這三件事的模型系統(tǒng)。

OneModel 1.7 FrontoStria-RL 是臥安在這個(gè)方向上的一次階段性工作。對(duì)臥安而言，模型發(fā)布并不是孤立的技術(shù)事件，而是與其家庭機(jī)器人本體、真實(shí)場(chǎng)景數(shù)據(jù)采集和服務(wù)部署體系共同構(gòu)成閉環(huán)。隨著臥安機(jī)器人圍繞真實(shí)家庭與服務(wù)場(chǎng)景推進(jìn) OneModel 模型的迭代，相信在不久，機(jī)器人將從 “能看懂、能行動(dòng)”，進(jìn)一步走向 “能適應(yīng)、能進(jìn)化、能持久可靠地工作”。

論文鏈接：https://arxiv.org/abs/2605.11809

論文鏈接：https://arxiv.org/abs/2605.10094
官網(wǎng)詳情：https://www.onerobot.com/OneModel

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.