昨晚夜里快12點(diǎn),AI視頻公司PixVerse毫無(wú)預(yù)兆的發(fā)了一個(gè)項(xiàng)目。
![]()
PixVerse R1,下一代實(shí)時(shí)世界生成模型。
![]()
這玩意你看文字,可能不是很好理解,我直接放一個(gè)官方的demo視頻,大家的感覺(jué)應(yīng)該會(huì)強(qiáng)一些。
上面是視頻,下面是實(shí)時(shí)輸入的Prompt。
整個(gè)過(guò)程,都是AI一直連續(xù)不斷的生成視頻,你可以在過(guò)程中用Prompt修改視頻的進(jìn)程,比如開(kāi)頭第一句Promtp,是士兵躺在雪山上,然后躺著躺著,你就輸入了一個(gè)Prompt,說(shuō)一只黑烏鴉飛過(guò),飛完了以后,這個(gè)視頻準(zhǔn)備自己去做一些決策了自己去演后續(xù)的劇情了,你又有了新想法,于是,你又發(fā)了一段Prompt過(guò)去:
巡邏隊(duì)發(fā)現(xiàn)了士兵。
每次你輸入Prompt延遲2秒左右之后,你會(huì)發(fā)現(xiàn),這個(gè)世界的劇情,就隨著你的不斷輸入,不斷的進(jìn)行變化。
如果你不給Prompt干涉的話,他會(huì)自己一直演下去,最長(zhǎng)的時(shí)間,在官方的技術(shù)報(bào)告里,寫(xiě)的是:
無(wú)限、連續(xù)的視覺(jué)流式傳輸。
PixVerse將其稱為,實(shí)時(shí)世界生成模型。
網(wǎng)址在此:
技術(shù)報(bào)告我也下載下來(lái)看了一下。
還是蠻有意思的。
但是在講這個(gè)技術(shù)報(bào)告之前,我覺(jué)得還是需要我們先統(tǒng)一一下,大家對(duì)于世界模型的定義,這樣才更好去聊他們的技術(shù)報(bào)告。
畢竟,世界模型這個(gè)詞,這一兩年,出現(xiàn)的太多了,以至于大家,好像完全不知道世界模型到底指向的是什么了。
我心中的世界模型,因?yàn)檫@一波23年到25年的生成式浪潮,所以其實(shí)是一個(gè)非常泛的定義:
能用一個(gè)可持續(xù)的內(nèi)部狀態(tài),去預(yù)測(cè)世界接下來(lái)會(huì)怎樣變化,并且能被交互和驗(yàn)證。
這也是為什么同一個(gè)詞,經(jīng)常會(huì)同時(shí)被拿來(lái)形容三類東西:
視頻生成模型、可交互的生成世界、面向機(jī)器人和自動(dòng)駕駛的物理仿真基礎(chǔ)模型。
只要滿足這個(gè)條件的,在目前的大眾語(yǔ)境里,都可以被統(tǒng)稱為,世界模型。
目前已有的世界模型代表,基本可以用幾個(gè)項(xiàng)目,代表3個(gè)方向:
1. Google的Genie 3和Odyssey。
以Genie 3舉例子。
我之前也寫(xiě)過(guò)文章:
![]()
大概就是給一個(gè)文本提示,就能生成你可以實(shí)時(shí)導(dǎo)航的動(dòng)態(tài)世界,24fps,720p,一致性可以維持到分鐘級(jí)。
我極度極度看好世界模型,之前也極度的看好Genie的項(xiàng)目,我曾經(jīng)甚至說(shuō),沒(méi)有把Genie 3寫(xiě)火,讓很多人關(guān)注到這個(gè)項(xiàng)目,是我們這些做AI內(nèi)容的不專業(yè)和失職。
它代表的,是一次生成,然后可以在里面操控方向進(jìn)行簡(jiǎn)單交互的視頻類動(dòng)態(tài)世界模型。
2. 李飛飛World Labs的Marble和混元3D世界模型。
以Marble舉例子。
一個(gè)以三維空間智能為中心的多模態(tài)世界模型,
![]()
World Labs給Marble的定義重點(diǎn)在3D,世界模型需要重建、生成、模擬三維世界,同時(shí)允許人和智能體在其中交互,這類路線的核心難點(diǎn)變成3D 表示和空間一致性,視頻畫(huà)面只是表層輸出。
![]()
它代表的,是一次生成,然后可以在里面進(jìn)行簡(jiǎn)單交互的3D類世界模型。
3. 英偉達(dá)Cosmos。
一個(gè)非常純粹的,為物理AI服務(wù)的世界基礎(chǔ)模型平臺(tái)。
![]()
Cosmos的定位是面向自動(dòng)駕駛、機(jī)器人、視頻分析agent的WFM平臺(tái),強(qiáng)調(diào)數(shù)據(jù)處理、tokenizer、guardrails 和把世界模型用于高保真、物理相關(guān)的合成數(shù)據(jù)與后訓(xùn)練。
這條路線的評(píng)價(jià)標(biāo)準(zhǔn)更偏物理正確性、可控性、可用于訓(xùn)練與驗(yàn)證。
它代表的,是為訓(xùn)練具身智能和自動(dòng)駕駛而生的世界模型。
這幾個(gè)方向,基本就是現(xiàn)在世界模型方向的主流。
現(xiàn)在,相信大家也對(duì)世界模型,有了基本的差異化了解了,其他這玩意還是比較泛的,并沒(méi)有一個(gè)特別明確的定義,路線又挺多,場(chǎng)景也挺多。
而這次,PixVerse的這個(gè)新的項(xiàng)目,為世界模型,補(bǔ)上了第四個(gè)方向,也是我自己過(guò)去一直期待的方向。
實(shí)時(shí)視頻生成。
他們也上線了一個(gè)可以實(shí)測(cè)的demo版本可以玩。
網(wǎng)址在此:https://realtime.pixverse.ai/
![]()
里面已經(jīng)給了6個(gè)預(yù)設(shè)的模板,感覺(jué)后面還會(huì)更新更多。
我點(diǎn)了一下,發(fā)現(xiàn),要邀請(qǐng)碼。
![]()
我就跑去問(wèn)PixVerse的朋友,問(wèn)他們?yōu)樯哆@年頭了還要搞邀請(qǐng)碼這事。
他們是這么說(shuō)的:
![]()
不過(guò)我還是舔著老臉,深夜要了一個(gè)邀請(qǐng)碼過(guò)來(lái)。
實(shí)際去體驗(yàn)了一下。
這個(gè)體驗(yàn)的結(jié)果,我說(shuō)實(shí)話,可能是我最近,體驗(yàn)的最快樂(lè)的產(chǎn)品了。
你們看完就知道,為啥快樂(lè)了。。。
拿到邀請(qǐng)碼進(jìn)去以后,我先隨手點(diǎn)了最后一個(gè)那個(gè)卡通的模板。
![]()
在頁(yè)面上,你就會(huì)發(fā)現(xiàn),有一個(gè)倒計(jì)時(shí),大概意思就是,你只能在這個(gè)live里,體驗(yàn)五分鐘,體驗(yàn)五分鐘之后,就得新起一個(gè)窗口重來(lái)了。
核心原因,還是這玩意太燒算力了。
我點(diǎn)了進(jìn)去。
一進(jìn)去,這魔性的音樂(lè),噔噔噔噔噔的,差點(diǎn)給我洗腦了。。。
然后,一雙腳,就開(kāi)始瞪著跑起來(lái)了。
我一定要給你們看看這個(gè)抽象的畫(huà)面,我真的,凌晨2點(diǎn)多,在家里笑的嘎嘎的。
說(shuō)實(shí)話,我硬生生看著小人跑了2分鐘,我愣是一句話沒(méi)發(fā)出去。。。
因?yàn)閷?shí)在是太歡樂(lè)了,我就一直看著它跑,跑著跑著2分鐘過(guò)去了,我都忘了我是可以隨時(shí)更改劇情的。。。
然后,我又點(diǎn)開(kāi)了他們那個(gè)1944的模板,瘋狂的開(kāi)始互動(dòng),這一次,我在家里笑出了豬叫,特別是最后,我讓它從黑洞中穿梭,盡頭是卡皮巴拉的時(shí)候。
我感覺(jué)我的大腦褶皺都撫平了。
真的,非常坦率的講,PixVerse R1作為一個(gè)實(shí)驗(yàn)性的全新物種,在生成質(zhì)量上,肯定還是有很強(qiáng)的進(jìn)步空間的。
但是,作為一個(gè)全新的物種,它的實(shí)時(shí)生成,他的隨時(shí)可交互。
這個(gè)快樂(lè),如果不親身體驗(yàn)一下的話,你是絕對(duì)感受不到的。
那是一種,你完全未知的快樂(lè),但是你就是期待著,下一秒,他會(huì)發(fā)生什么。
你就是會(huì)期待著,你的那句話,會(huì)對(duì)這個(gè)屏幕里的小人,產(chǎn)生什么樣的影響。
還有這個(gè)賽博朋克,也很好玩。
真的,我們看了太多太多套路話的故事,那種千篇一律沒(méi)有新意的故事,這種實(shí)時(shí)生成的AI,由AI所造出的世界。
好像,會(huì)更讓我驚喜,會(huì)更讓我期待。
更別提,我還能用嘴,來(lái)指揮后續(xù)的動(dòng)作了。
這里我強(qiáng)烈建議大家使用這個(gè)語(yǔ)音模式。
![]()
相信我,你在玩的時(shí)候的卡點(diǎn),可能是是打字速度跟不上你想要的劇情速度。
除了這些預(yù)設(shè)好的模板之外。
你當(dāng)然,也可以去自定義。
![]()
第一個(gè)想到的demo,其實(shí)就是一個(gè)我還滿喜歡的游戲,無(wú)人深空,因?yàn)檫@個(gè)游戲,跟實(shí)時(shí)生成實(shí)在太契合了。
我直接直接發(fā)了個(gè)起始Prompt過(guò)去:
這是一個(gè)正在運(yùn)行的科幻探索類游戲畫(huà)面,不是被攝像機(jī)拍攝的影像。畫(huà)面以穩(wěn)定的游戲視角呈現(xiàn),不存在攝影機(jī)跟隨、推拉或電影化運(yùn)鏡。世界由程序生成并持續(xù)運(yùn)行,角色只是世界中的一部分,畫(huà)面變化來(lái)自世界狀態(tài)的演化。
然后,這個(gè)探索,就開(kāi)始了。
非常的酷非常的有意思。
還有,街霸PK。
真的,太好玩了。
好久沒(méi)有用AI,這么純粹的快樂(lè)了。
我非常開(kāi)心,能見(jiàn)到我們未來(lái)的娛樂(lè)形態(tài),可能又會(huì)多一種非常好玩的方式。
也許再過(guò)幾年,所謂的電影、綜藝、游戲,根本就不再是固定時(shí)長(zhǎng)的文件,而是一條條永遠(yuǎn)流動(dòng)著的世界時(shí)間線。
創(chuàng)作者給一個(gè)起點(diǎn),給一些世界觀設(shè)定,剩下的交給世界模型自己往前長(zhǎng),觀眾進(jìn)來(lái)以后,用一句話、一個(gè)表情、一次選擇,把劇情輕輕拽偏一點(diǎn)。
所有人看到的,都是同一個(gè)宇宙,但卻是不同的一條時(shí)間支線。
雖然讓人人創(chuàng)造內(nèi)容,是一種奢望。
但,在人的本源里,我覺(jué)得,每個(gè)人還是享受,創(chuàng)造的樂(lè)趣的。
這一天。
可能是AI模型歷史上,會(huì)標(biāo)紅的一頁(yè)。
很新,很有趣,但同時(shí)。
也很未來(lái)。
以上,既然看到這里了,如果覺(jué)得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見(jiàn)。
>/ 作者:卡茲克
>/ 投稿或爆料,請(qǐng)聯(lián)系郵箱:wzglyay@virxact.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.