![]()
《星月夜》是梵高在圣雷米精神病院療養期間畫下的一幅名畫。你有沒有想過,有一天能直接“走”進這幅畫里,在奇幻的星空與柏樹間自由穿行與漫步?
這個愿望已經實現了!
4月16日,阿里巴巴正式推出了世界模型HappyOyster(快樂生蠔),一款可以實時構建、自由交互的世界模型產品。
HappyOyster來自阿里ATH創新事業部,和此前爆火的“快樂馬”(HappyHorse)同屬一個團隊。如果說之前的AI視頻工具是幫你“生成一段視頻”,那么HappyOyster想做的,是直接為你生成一個可以玩、可以改的數字世界。
![]()
什么是“世界模型”?
HappyOyster基于原生多模態架構建立,支持多模態理解與音視頻聯合生成,目前可以實現漫游(Wander)和導演(Direct)兩個核心能力。也就是說,用戶可以實時構建可互動、可演繹、可探索的 AI 數字世界。同時,生成的數字世界,不僅能被完整保存,還能開放給其他人進行二次創作。
本質上來說,阿里的HappyOyster和谷歌的Genie3做的是同一類東西,叫“世界模擬器”。那么,什么是“世界模型”?
你可能用過一些文生視頻工具。通常情況下,先輸入一段描述,再等上幾十秒渲染,生成一段固定畫面的視頻。這段視頻,你只能看也不能改。HappyOyster不是簡單地渲染畫面,而是它學會了理解這個世界的空間、物理和因果規律。因為這一流派采用長時間跨度上的世界演化建模方式。通過學習海量長視頻數據,以及文本、動作指令、圖像參考等多樣控制信號,模型能夠主動理解空間、物理與因果規律,預測情節和畫面的演變。
比如,它知道物體掉下來會受重力影響,知道人轉身時光影會變化。也就是說,AI不僅能生成視頻,而且可以實時模擬世界的演化。你可以像玩游戲一樣,在里面自由走動,或者隨時開口改變劇情走向。從而把“被動生成內容”轉變為“主動模擬世界演化”,為構建可交互的通用世界模擬器提供了關鍵技術路徑。
相比谷歌,HappyOyster采用了時間跨度更長的世界演化建模方式,使得模型能夠保持高保真、長時序的動態場景生成。簡單地說,就是畫面一直保持清晰真實,時間長了也不會亂。
另外,設計之初模型就設計了多樣的控制信號,在同一個時間框架下,畫質、時長和實時可控性這三件事可以一起優化,不用犧牲哪個來換另一個。
同時在產品能力上,HappyOyster有自己的差異化優勢。除了支持漫游探索,它還獨家提供實時導演功能。你可以隨時用自然語言發指令,比如“讓主角左轉”“突然下雨”,直接介入世界的演化,調度角色和事件。實現從被動探索到主動創作的跨越。
漫游模式暢游梵高作品《星月夜》
漫游模式控制人物運動
通過漫游和導演的雙模式,HappyOyster能讓你沉浸在一個可以自由互動的數字世界里。
比如在漫游模式中,只需要一句話或一張圖,就可以生成具備物理一致性的完整空間,物體位置穩定、場景持久存在,視角與光照也能跟隨第一人稱視角持續移動。當你在《星月夜》里閑逛時,你看到一間房子,走近或離開房子不會消失或者變形。場景也是一直存在的,即使你轉個身回來,房子和樹還在那兒。另外,你還可以在畫里自由地切換方向,想去哪兒就去哪兒。目前Happy Oyster支持長達1分鐘的連續實時位移與鏡頭控制,并支持多樣化的風格切換。
在導演模式下,用戶能夠在視頻的任意節點,通過文字、語音或圖像等多模態輸入,隨時實現鏡頭切換、劇情改寫、角色調度,在充分的交互中生成一個光照、重力、角色動作與場景因果持續演化的世界,并能選擇不同的題材風格。
也就是說,你可以在視頻播放的任意時刻,通過打字、說話甚至發一張圖,隨時指揮AI。比如“讓主角往右轉身”“揮揮手”等,AI就會根據你的命令實時生成新的畫面。在這個模式下,你創造的世界是活的:光照會變化、物體會受重力影響、角色的動作和場景的因果邏輯也會持續演化。
導演模式可在任意節點改變劇情走向
目前,HappyOyster的導演模式支持連續生成3分鐘以上的480p或720p實時畫面。
不過當前漫游與導演兩大模式還沒完全打通,不過未來你可以在世界里一邊逛一邊改,邊玩邊創作。
![]()
全球頂尖玩家
紛紛押注“會模擬世界的AI”
除了阿里的HappyOyster和谷歌的Genie 3,世界模型已經成為全球科技巨頭們押注的下一個風口。
英偉達推出的Cosmos系列,專門為機器人和自動駕駛訓練“物理AI”;Meta也在秘密研發代號“Avocado”的模型,試圖讓AI通過視覺理解環境。由“AI教母”李飛飛創立的World Labs,則拿出了Marble模型:只要上傳一張圖或一段話,就能生成可自由漫游、可導出的3D世界,還開源了渲染器Spark 2.0;明天即將在港股完成敲鐘儀式的“杭州六小龍”之一的群核科技,廣義上來說也屬于“世界模型”玩家,只不過它走的是一條截然不同的技術路線。
![]()
英偉達推出的Cosmos世界模型
雖然這場吸引了全球頂尖玩家的前沿競賽才剛剛開始,但有些行業的內容創作和互動體驗,已經被悄悄改寫了。
比如游戲領域,開發者可以快速生成可玩原型,玩家能實時驅動世界演化,不需要預設腳本就可以實現動態劇情分支與開放世界探索,大幅降低內容生產成本并提升沉浸感。
也就是說,以前開發一個新游戲要做策劃、搭場景、寫腳本,花幾個月才能玩上第一個測試版。現在開發者只要說一句話,HappyOyster就能快速生成一個可以玩的游戲原型。玩家也不再是被動跟著預設劇情走,而是能實時影響世界的演化。你往左走還是往右走,AI都會現場給你編出新劇情,每次玩都是不一樣的體驗。這樣一來,游戲內容的生產成本大大降低,沉浸感卻直線上升。
影視創作時,導演不需要等待漫長的渲染周期,只要用自然語言描述創意,系統就可以實時生成分鏡畫面,并支持在視頻的任意節點改變鏡頭、角色和劇情,讓創意驗證時間大大縮短;在文旅與教育領域,用戶不再被動地觀看歷史復原視頻,而是能以第一視角走進名畫現場或過往文明,在交互中探索因果、改寫走向,實現從知識傳遞到沉浸體驗的躍遷。
在未來,HappyOyster還能應用于線下智能空間或娛樂場景,例如與穿戴設備等智能硬件結合,根據人的位置、動作與語言動態,實時生成沉浸式內容,讓數字世界與現實共振。
文 | 沈積慧
阿里突然殺出一匹開源“快樂馬”?
修車學徒掀翻雅馬哈和杜卡迪
招股書顯示:宇樹強到可怕
點喜歡
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.