(文/張志峰 編輯/周遠(yuǎn)方)
2026年5月,世界模型賽道至少有三件事值得記住。智元GE 2.0在WorldArena登頂,星動(dòng)紀(jì)元Ctrl-World拿了具身任務(wù)能力全球第一,北京人形Pelican-Unify成了雙冠王。
它們都在回答同一個(gè)問題。機(jī)器人到底該先建一座虛擬健身房,還是直接在真實(shí)世界里摔打。
同一個(gè)月,酷哇科技發(fā)布了CooWAIM 2.0。前三個(gè)在刷榜,酷哇在刷街。它的測試場是蕪湖某條輔路,主角是一臺正在貼邊作業(yè)的無人清掃車。
![]()
假如這時(shí)路口突然沖出一輛逆行電動(dòng)車,它不會停下來把整條街的三維畫面在腦子里推演一遍,而是邊減速邊微調(diào)方向,在三百毫秒內(nèi)完成避讓。
酷哇相關(guān)負(fù)責(zé)人把這個(gè)能力概括為一句話,CooWAIM 2.0在打麻將般的博弈和切菜式的精細(xì)操作中,比同類模型更快。他進(jìn)一步解釋,就像人類打麻將時(shí)會預(yù)判他人反應(yīng)、切菜時(shí)會感知食材觸感,真正的智能源于動(dòng)作與環(huán)境的實(shí)時(shí)閉環(huán)。
這個(gè)閉環(huán)本身并非酷哇獨(dú)有。智元用GE 2.0建全功能世界模擬器,讓機(jī)器人在虛擬環(huán)境里試錯(cuò)進(jìn)化。星動(dòng)紀(jì)元走VLA與世界模型融合路線,用分頻端到端打通感知與動(dòng)作。北京人形則以國家隊(duì)身份推進(jìn)大一統(tǒng)物理智能回路。它們代表了當(dāng)前世界模型的三條主路。
但酷哇走了一條更輕的路。它不問機(jī)器人能不能在虛擬世界里推完一萬次杯子,只問下一秒別撞上那輛電動(dòng)車。
三路分兵,一路刷街
目前,全球科技巨頭在世界模型賽道上呈現(xiàn)出不同的技術(shù)流派。
第一撥做視頻生成,谷歌Genie 3、阿里Happy Oyster、OpenAI Sora,核心能力是生成逼真的未來畫面,一幀一幀預(yù)測像素變化。圖靈獎(jiǎng)得主楊立昆曾指出,預(yù)測像素變化不等于理解物理世界,生成一段杯子掉落的視頻,不代表模型懂得重力和材料力學(xué)。但在輿論場里,視頻生成和世界模型常被混為一談。Meta的V-JEPA 2走另一條路,不渲染畫面,只提煉物理規(guī)律的因果理解,像一位只看棋譜不摸棋子的理論派。
第二撥做自動(dòng)駕駛仿真。Waymo、特斯拉、蔚來NWM,這撥人其實(shí)最老資格,早就在用閉環(huán)仿真器測試極端路況、跑安全corner case,只是以前叫仿真器或數(shù)字孿生,生成式AI能力提升后,虛擬場景真假難辨,順勢把名字升級成了世界模型。他們的核心任務(wù)是預(yù)測自車響應(yīng)和交通流演化,動(dòng)作空間被嚴(yán)格限制在方向盤、油門、剎車兩三個(gè)自由度里,目標(biāo)是避免接觸,而非理解接觸。
第三撥做機(jī)器人與具身智能。智元、星動(dòng)紀(jì)元、北京人形都在這個(gè)陣營,他們強(qiáng)調(diào)世界模型必須是動(dòng)作條件化的,即預(yù)測的不是下一幀畫面,而是我做了這個(gè)動(dòng)作以后世界怎么變。這撥人要處理的是手指、手腕、肩膀幾十甚至上百個(gè)自由度的協(xié)調(diào),要理解推杯子會不會倒、擰瓶蓋用多大力、疊毛巾時(shí)布料如何形變。道路有車道線和交通燈,規(guī)律性強(qiáng),家庭與工廠里的物體材質(zhì)、擺放方式、任務(wù)目標(biāo)變化巨大,沒有天然的幾何約束,數(shù)據(jù)形態(tài)和計(jì)算復(fù)雜度與自動(dòng)駕駛不在一個(gè)量級。
自動(dòng)駕駛的世界模型,核心是避免接觸,動(dòng)作空間就兩三個(gè)維度。人形機(jī)器人的世界模型,核心是怎么接觸物體,手指、手腕、肩膀幾十處關(guān)節(jié)配合,還得處理軟體形變和摩擦力。從車到機(jī)器人,不是同一個(gè)模型放大,而是換了一個(gè)考場。
![]()
技術(shù)取舍:效率與精度的平衡
酷哇的特殊之處,在于它從第二撥往第三撥跳。
它從另一條路走過來,和中聯(lián)環(huán)境成立合資公司,在十七個(gè)城市跑智慧環(huán)衛(wèi),2021年?duì)I收就過了五億元。創(chuàng)始人何弢早年提出先難后易,把最難的城市場景先啃下來,再降維做環(huán)衛(wèi)和城配。五十PB非結(jié)構(gòu)化真實(shí)世界數(shù)據(jù)和萬臺終端,意味著它的模型是在真實(shí)的雨雪、逆行、擁堵里喂出來的。這份履歷讓它有資格做減法。
這種減法不是等技術(shù)成熟后拿來即用,而是基于自己的場景和數(shù)據(jù),在世界模型的路線上做務(wù)實(shí)取舍。城市開放道路的數(shù)據(jù)和運(yùn)營網(wǎng)絡(luò),對同場景的移動(dòng)智能有復(fù)用價(jià)值,但向人形精細(xì)操作遷移,鴻溝仍在,目前未見公開驗(yàn)證。
CooWAIM 2.0的核心是DAWN架構(gòu),其底層為WAIM交互式世界動(dòng)作模型。它不渲染高分辨率未來畫面,而是通過Auto-Encoder Resampler模塊,將繁雜的視覺特征壓縮成16個(gè)核心語義Token。
這個(gè)取舍很像切菜時(shí)剔除筋膜,只保留最精華的部分。路網(wǎng)幾何、障礙物拓?fù)洹⒈倔w狀態(tài),這些被精準(zhǔn)保留,冗余信息被剔除。
推理延遲因此壓到331.3毫秒,效率提升近3倍。在NAVSIM基準(zhǔn)測試中,其PDMS得分達(dá)89.1;在nuScenes閉環(huán)規(guī)劃中,平均軌跡誤差降至0.33米。
![]()
WAIM交互式世界動(dòng)作模型通過在隱式空間中進(jìn)行短程推演,與不推演(Fast-WAM)和全程推演后再執(zhí)行動(dòng)作預(yù)測的兩個(gè)極端相比,取得了效果和效率上的最佳平衡
更關(guān)鍵的是推演策略。
市面上有些世界模型遵循先預(yù)測后規(guī)劃的范式,就像一個(gè)人打麻將,必須先把所有人的出牌可能都推演完,再決定自己怎么出。這種單向滯后的方式,往往忽略了出牌本身就在實(shí)時(shí)改寫牌局。
DAWN架構(gòu)不再將世界預(yù)測和動(dòng)作生成視為兩個(gè)獨(dú)立任務(wù),而是讓它們在推理過程中像辯論一樣互相修正。模型在隱空間中進(jìn)行短時(shí)推演,動(dòng)作降噪器與世界預(yù)測器通過多輪迭代交互,實(shí)現(xiàn)邊推演邊執(zhí)行。
這種交互式推演,恰好處于不推演與全程推演后再執(zhí)行兩個(gè)極端之間。不推演意味著盲動(dòng),全程推演再執(zhí)行則意味著單向滯后。DAWN只推演2到3秒的短程未來,不賭長局。在nuScenes閉環(huán)規(guī)劃測試中,平均軌跡誤差降到0.33米,NAVSIM的PDMS得分89.1。
現(xiàn)實(shí)挑戰(zhàn):從榜單領(lǐng)先到規(guī)模化落地
這種輕量化有代價(jià)。跟英偉達(dá)Cosmos那種千億級參數(shù)的閉源大模型比,酷哇的生態(tài)完善度和商業(yè)配套成熟度確實(shí)弱。世界模型賽道目前也還沒有統(tǒng)一標(biāo)準(zhǔn),從榜單到真實(shí)場景,中間隔著規(guī)模化落地的鴻溝。
智元GE 2.0近期在WorldArena特定賽道登頂,星動(dòng)紀(jì)元Ctrl-World拿下具身任務(wù)能力全球第一,北京人形Pelican-Unify成為雙冠王,但這些成績主要發(fā)生在榜單和實(shí)驗(yàn)室環(huán)境。作為新發(fā)布的世界模型,它們的生態(tài)成熟度和真實(shí)場景驗(yàn)證周期仍待觀察。對酷哇而言,雖然已在智慧環(huán)衛(wèi)、出行等領(lǐng)域積累五十PB數(shù)據(jù)并實(shí)現(xiàn)萬臺級終端部署,但如何將這些數(shù)據(jù)優(yōu)勢轉(zhuǎn)化為跨場景、跨本體的通用泛化能力,仍是行業(yè)共同面臨的難題。大多數(shù)世界模型公司仍處于高投入期,數(shù)據(jù)采集成本極高,系統(tǒng)復(fù)雜,真正實(shí)現(xiàn)大規(guī)模商業(yè)化盈利的企業(yè)仍是鳳毛麟角。
酷哇的DAWN架構(gòu)已經(jīng)全面開源。在Robotaxi、城市服務(wù)、特種作業(yè)等高價(jià)值場景中,這種具備交互式物理推演能力的模型或許有更大想象空間,但目前主要閉環(huán)仍在環(huán)衛(wèi)與城配領(lǐng)域。世界模型賽道仍處于早期收斂期,技術(shù)路徑尚未完全統(tǒng)一。
![]()
智能的本質(zhì)是交互,不是預(yù)測
酷哇科技技術(shù)負(fù)責(zé)人表示:“我們相信,世界模型的價(jià)值不在于被動(dòng)描繪未來,而在于讓推演與行動(dòng)在交互中共同演化。CooWAIM 2.0不僅是算法架構(gòu)的升級,更是對‘智能源于交互’這一本質(zhì)的回歸。”
隨著DAWN架構(gòu)的全面開源,酷哇科技正推動(dòng)具身智能從“單一任務(wù)執(zhí)行”向“通用物理推理”演進(jìn)。在Robotaxi、城市服務(wù)、特種作業(yè)等高價(jià)值場景中,這種具備“交互式物理推演”本能的機(jī)器人,或?qū)⒅匦露x人機(jī)共存的城市生態(tài)。
當(dāng)機(jī)器人不再只是“執(zhí)行者”,而是能像人一樣在動(dòng)作與環(huán)境的互動(dòng)中實(shí)時(shí)思考,我們離真正的通用具身智能確實(shí)更近了一步,但這一步的跨越,仍需要時(shí)間的沉淀與產(chǎn)業(yè)鏈的協(xié)同。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.