網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

神仙打架之外：環(huán)衛(wèi)車?yán)镩L出的世界模型什么樣

2026-05-30 22:05:08　來源: 觀察者網(wǎng)

上海舉報(bào)

分享至

（文/張志峰編輯/周遠(yuǎn)方）

2026年5月，世界模型賽道至少有三件事值得記住。智元GE 2.0在WorldArena登頂，星動(dòng)紀(jì)元Ctrl-World拿了具身任務(wù)能力全球第一，北京人形Pelican-Unify成了雙冠王。

它們都在回答同一個(gè)問題。機(jī)器人到底該先建一座虛擬健身房，還是直接在真實(shí)世界里摔打。

同一個(gè)月，酷哇科技發(fā)布了CooWAIM 2.0。前三個(gè)在刷榜，酷哇在刷街。它的測試場是蕪湖某條輔路，主角是一臺正在貼邊作業(yè)的無人清掃車。

假如這時(shí)路口突然沖出一輛逆行電動(dòng)車，它不會停下來把整條街的三維畫面在腦子里推演一遍，而是邊減速邊微調(diào)方向，在三百毫秒內(nèi)完成避讓。

酷哇相關(guān)負(fù)責(zé)人把這個(gè)能力概括為一句話，CooWAIM 2.0在打麻將般的博弈和切菜式的精細(xì)操作中，比同類模型更快。他進(jìn)一步解釋，就像人類打麻將時(shí)會預(yù)判他人反應(yīng)、切菜時(shí)會感知食材觸感，真正的智能源于動(dòng)作與環(huán)境的實(shí)時(shí)閉環(huán)。

這個(gè)閉環(huán)本身并非酷哇獨(dú)有。智元用GE 2.0建全功能世界模擬器，讓機(jī)器人在虛擬環(huán)境里試錯(cuò)進(jìn)化。星動(dòng)紀(jì)元走VLA與世界模型融合路線，用分頻端到端打通感知與動(dòng)作。北京人形則以國家隊(duì)身份推進(jìn)大一統(tǒng)物理智能回路。它們代表了當(dāng)前世界模型的三條主路。

但酷哇走了一條更輕的路。它不問機(jī)器人能不能在虛擬世界里推完一萬次杯子，只問下一秒別撞上那輛電動(dòng)車。

三路分兵，一路刷街

目前，全球科技巨頭在世界模型賽道上呈現(xiàn)出不同的技術(shù)流派。

第一撥做視頻生成，谷歌Genie 3、阿里Happy Oyster、OpenAI Sora，核心能力是生成逼真的未來畫面，一幀一幀預(yù)測像素變化。圖靈獎(jiǎng)得主楊立昆曾指出，預(yù)測像素變化不等于理解物理世界，生成一段杯子掉落的視頻，不代表模型懂得重力和材料力學(xué)。但在輿論場里，視頻生成和世界模型常被混為一談。Meta的V-JEPA 2走另一條路，不渲染畫面，只提煉物理規(guī)律的因果理解，像一位只看棋譜不摸棋子的理論派。

第二撥做自動(dòng)駕駛仿真。Waymo、特斯拉、蔚來NWM，這撥人其實(shí)最老資格，早就在用閉環(huán)仿真器測試極端路況、跑安全corner case，只是以前叫仿真器或數(shù)字孿生，生成式AI能力提升后，虛擬場景真假難辨，順勢把名字升級成了世界模型。他們的核心任務(wù)是預(yù)測自車響應(yīng)和交通流演化，動(dòng)作空間被嚴(yán)格限制在方向盤、油門、剎車兩三個(gè)自由度里，目標(biāo)是避免接觸，而非理解接觸。

第三撥做機(jī)器人與具身智能。智元、星動(dòng)紀(jì)元、北京人形都在這個(gè)陣營，他們強(qiáng)調(diào)世界模型必須是動(dòng)作條件化的，即預(yù)測的不是下一幀畫面，而是我做了這個(gè)動(dòng)作以后世界怎么變。這撥人要處理的是手指、手腕、肩膀幾十甚至上百個(gè)自由度的協(xié)調(diào)，要理解推杯子會不會倒、擰瓶蓋用多大力、疊毛巾時(shí)布料如何形變。道路有車道線和交通燈，規(guī)律性強(qiáng)，家庭與工廠里的物體材質(zhì)、擺放方式、任務(wù)目標(biāo)變化巨大，沒有天然的幾何約束，數(shù)據(jù)形態(tài)和計(jì)算復(fù)雜度與自動(dòng)駕駛不在一個(gè)量級。

自動(dòng)駕駛的世界模型，核心是避免接觸，動(dòng)作空間就兩三個(gè)維度。人形機(jī)器人的世界模型，核心是怎么接觸物體，手指、手腕、肩膀幾十處關(guān)節(jié)配合，還得處理軟體形變和摩擦力。從車到機(jī)器人，不是同一個(gè)模型放大，而是換了一個(gè)考場。

技術(shù)取舍：效率與精度的平衡

酷哇的特殊之處，在于它從第二撥往第三撥跳。

它從另一條路走過來，和中聯(lián)環(huán)境成立合資公司，在十七個(gè)城市跑智慧環(huán)衛(wèi)，2021年?duì)I收就過了五億元。創(chuàng)始人何弢早年提出先難后易，把最難的城市場景先啃下來，再降維做環(huán)衛(wèi)和城配。五十PB非結(jié)構(gòu)化真實(shí)世界數(shù)據(jù)和萬臺終端，意味著它的模型是在真實(shí)的雨雪、逆行、擁堵里喂出來的。這份履歷讓它有資格做減法。

這種減法不是等技術(shù)成熟后拿來即用，而是基于自己的場景和數(shù)據(jù)，在世界模型的路線上做務(wù)實(shí)取舍。城市開放道路的數(shù)據(jù)和運(yùn)營網(wǎng)絡(luò)，對同場景的移動(dòng)智能有復(fù)用價(jià)值，但向人形精細(xì)操作遷移，鴻溝仍在，目前未見公開驗(yàn)證。

CooWAIM 2.0的核心是DAWN架構(gòu)，其底層為WAIM交互式世界動(dòng)作模型。它不渲染高分辨率未來畫面，而是通過Auto-Encoder Resampler模塊，將繁雜的視覺特征壓縮成16個(gè)核心語義Token。

這個(gè)取舍很像切菜時(shí)剔除筋膜，只保留最精華的部分。路網(wǎng)幾何、障礙物拓?fù)洹⒈倔w狀態(tài)，這些被精準(zhǔn)保留，冗余信息被剔除。

推理延遲因此壓到331.3毫秒，效率提升近3倍。在NAVSIM基準(zhǔn)測試中，其PDMS得分達(dá)89.1；在nuScenes閉環(huán)規(guī)劃中，平均軌跡誤差降至0.33米。

WAIM交互式世界動(dòng)作模型通過在隱式空間中進(jìn)行短程推演，與不推演（Fast-WAM）和全程推演后再執(zhí)行動(dòng)作預(yù)測的兩個(gè)極端相比，取得了效果和效率上的最佳平衡

更關(guān)鍵的是推演策略。

市面上有些世界模型遵循先預(yù)測后規(guī)劃的范式，就像一個(gè)人打麻將，必須先把所有人的出牌可能都推演完，再決定自己怎么出。這種單向滯后的方式，往往忽略了出牌本身就在實(shí)時(shí)改寫牌局。

DAWN架構(gòu)不再將世界預(yù)測和動(dòng)作生成視為兩個(gè)獨(dú)立任務(wù)，而是讓它們在推理過程中像辯論一樣互相修正。模型在隱空間中進(jìn)行短時(shí)推演，動(dòng)作降噪器與世界預(yù)測器通過多輪迭代交互，實(shí)現(xiàn)邊推演邊執(zhí)行。

這種交互式推演，恰好處于不推演與全程推演后再執(zhí)行兩個(gè)極端之間。不推演意味著盲動(dòng)，全程推演再執(zhí)行則意味著單向滯后。DAWN只推演2到3秒的短程未來，不賭長局。在nuScenes閉環(huán)規(guī)劃測試中，平均軌跡誤差降到0.33米，NAVSIM的PDMS得分89.1。

現(xiàn)實(shí)挑戰(zhàn)：從榜單領(lǐng)先到規(guī)模化落地

這種輕量化有代價(jià)。跟英偉達(dá)Cosmos那種千億級參數(shù)的閉源大模型比，酷哇的生態(tài)完善度和商業(yè)配套成熟度確實(shí)弱。世界模型賽道目前也還沒有統(tǒng)一標(biāo)準(zhǔn)，從榜單到真實(shí)場景，中間隔著規(guī)模化落地的鴻溝。

智元GE 2.0近期在WorldArena特定賽道登頂，星動(dòng)紀(jì)元Ctrl-World拿下具身任務(wù)能力全球第一，北京人形Pelican-Unify成為雙冠王，但這些成績主要發(fā)生在榜單和實(shí)驗(yàn)室環(huán)境。作為新發(fā)布的世界模型，它們的生態(tài)成熟度和真實(shí)場景驗(yàn)證周期仍待觀察。對酷哇而言，雖然已在智慧環(huán)衛(wèi)、出行等領(lǐng)域積累五十PB數(shù)據(jù)并實(shí)現(xiàn)萬臺級終端部署，但如何將這些數(shù)據(jù)優(yōu)勢轉(zhuǎn)化為跨場景、跨本體的通用泛化能力，仍是行業(yè)共同面臨的難題。大多數(shù)世界模型公司仍處于高投入期，數(shù)據(jù)采集成本極高，系統(tǒng)復(fù)雜，真正實(shí)現(xiàn)大規(guī)模商業(yè)化盈利的企業(yè)仍是鳳毛麟角。

酷哇的DAWN架構(gòu)已經(jīng)全面開源。在Robotaxi、城市服務(wù)、特種作業(yè)等高價(jià)值場景中，這種具備交互式物理推演能力的模型或許有更大想象空間，但目前主要閉環(huán)仍在環(huán)衛(wèi)與城配領(lǐng)域。世界模型賽道仍處于早期收斂期，技術(shù)路徑尚未完全統(tǒng)一。

智能的本質(zhì)是交互，不是預(yù)測

酷哇科技技術(shù)負(fù)責(zé)人表示：“我們相信，世界模型的價(jià)值不在于被動(dòng)描繪未來，而在于讓推演與行動(dòng)在交互中共同演化。CooWAIM 2.0不僅是算法架構(gòu)的升級，更是對‘智能源于交互’這一本質(zhì)的回歸。”

隨著DAWN架構(gòu)的全面開源，酷哇科技正推動(dòng)具身智能從“單一任務(wù)執(zhí)行”向“通用物理推理”演進(jìn)。在Robotaxi、城市服務(wù)、特種作業(yè)等高價(jià)值場景中，這種具備“交互式物理推演”本能的機(jī)器人，或?qū)⒅匦露x人機(jī)共存的城市生態(tài)。

當(dāng)機(jī)器人不再只是“執(zhí)行者”，而是能像人一樣在動(dòng)作與環(huán)境的互動(dòng)中實(shí)時(shí)思考，我們離真正的通用具身智能確實(shí)更近了一步，但這一步的跨越，仍需要時(shí)間的沉淀與產(chǎn)業(yè)鏈的協(xié)同。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.