網易首頁 > 網易號 > 正文 申請入駐

一句話造世界!開發者用10天婚假爆肝,讓AI小鎮真正「活」了過來

0
分享至


新智元報道

編輯:LRST

【新智元導讀】2023年斯坦福「AI小鎮」火了,后續也誕生了大量類似的熱門項目,但所有這類項目都有一個共同瓶頸——世界是人工搭建的,固定的。最近,一位獨立開發者用10天婚假爆肝了一個項目WorldX:輸入一句話、5分鐘,一個完整的AI世界就誕生了——地圖、角色、動畫、人設全部自動生成,AI角色們自主在其中生活、對話、形成記憶、產生戲劇性的涌現行為。

輸入這樣一句話:「夜晚的宋朝繁華夜市,有當鋪掌柜、算命先生、捕快、小偷、酒鬼,還有一個剛從現代穿越來的網紅。」

5分鐘后,一張工筆畫風格的宋朝夜市地圖出現在你面前。當鋪、算命攤、菩薩像各居其位。

然后6個角色自己開始活動——

當鋪掌柜守著柜臺念叨被偷的事,算命先生等客上門,捕快四處巡邏打聽線索,小偷裝作普通路人混在人群里,酒鬼醉醺醺地從街頭晃到街尾。而那個穿越來的網紅——飄逸長發、衣著和旁人格格不入——正被所有人好奇地打量著。


沒人寫過劇本。

接下來發生的一切,完全由AI角色自主決定。捕快可能會找上每一個人盤問;小偷可能會主動接近捕快試探,又會突然覺得自己暴露了想找借口溜走;算命先生會拉住穿越來的網紅說「姑娘印堂發暗」;酒鬼可能會撞翻當鋪掌柜的招牌,引來一場爭吵。

這是一個真正「活著」的AI世界。


項目地址:https://github.com/YGYOOO/WorldX

技術解析:https://zhuanlan.zhihu.com/p/2032410449854068566

AI小鎮火了3年

還沒解決「造世界」

故事得從2023年說起。

那一年,斯坦福發布了著名的Generative Agents論文——25個AI角色在一個虛擬小鎮里自主生活、社交、形成記憶,展現出令人驚嘆的「 涌現行為」!窤I小鎮」這個概念瞬間出圈,引爆了整個Agent研究領域。


之后3年里,類似的熱門項目層出不窮,ai-town、Microverse、AgentSims、TinyTroupe……都在試圖復現并擴展這件事。

但所有這些項目,都有一個共同的瓶頸:

世界是寫死的。

地圖需要人工繪制。角色需要逐個手動配置。場景交互需要逐條編排。你想換一個「賽博朋克拉面館」或者「末日便利店」的設定?對不起,從頭來過。

學術界也意識到了這個問題。盛大AI研究院、上海AI Lab等機構聯合發表了「World Craft」(arXiv 2601.09150)嘗試解決這件事——但論文中也明確寫道:當前系統只支持室內場景(住宅、辦公室、單體建筑內部),不支持街道、廣場、開放世界。而且地圖風格高度同質化——都是從一個5500+素材庫里檢索拼裝的標準RPG像素風。

真正「任意一句話造任意一個世界」,迄今沒人做到。

直到WorldX出現。

「一句話造世界」的5分鐘魔法

WorldX讓這件事變得簡單到不可思議。

你只需要輸入:

  • 末日便利店,6個幸存者擠在里面

  • 北宋汴京夜市,有算命的、說書的、捕快和一個穿越者

  • 魏無羨的師姐江厭離、卡卡西的摯友帶土、扶蘇、晴雯——那些沒等到好結局的人住進了同一個小鎮

  • 6個經典反派被關進了一個像素小鎮:容嬤嬤、伏地魔、滅霸、琴酒……


5分鐘后,一個完整的、有美術風格、有角色立繪動畫、有完整運行邏輯的AI世界就出現在你面前。每一個世界都是從零生成的,沒有任何模板復用。

更關鍵的是——生成完只是開始。

進入世界后,你會看到:

  • 每個AI角色在地圖上自由走動、決策、互動

  • 角色頭頂會冒出對話氣泡內心獨白OS(小偷和捕快客套時心里想著「她不會已經知道了吧……」——節目效果直接拉滿)

  • 角色們形成記憶產生情緒、做出反思——一天結束時它們會在腦海里回顧今天發生的事

  • 世界有真實的時間流轉,凌晨1點夜市會自動收攤,第二天19點又重新開張

而你呢?你是這個世界的「上帝」。

你可以:

  • 全局廣播事件——「突然下大雨了」,所有角色下次決策時都會知道

  • 給特定角色耳語/托夢——你突然想起當年捕快辦過的一樁舊案……

  • 實時修改角色人設——把「老實木訥」改成「心機深沉」,看世界走向會怎么變

  • 把任意角色「拉出來」,和它進行架空對話——而且不影響主世界進程


更絕的是WorldX還做了多時間線 + 歷史回放機制——同一個世界可以衍生出多條時間線,看相同的初始條件下故事是否會走向同一個結局;任意一段歷史也能像看錄像一樣被回放,讓你不錯過任何「名場面」。

最難的關卡

讓AI看懂自己生成的圖

作者自己列了一份「卡點問題」清單,每一項都幾乎能讓整個項目卡死,比如下面這個問題:

如何讓代碼精確知道——AI生成的這張地圖里,哪些區域是可行走的?


這件事看起來簡單——人一眼就能看出哪里能走、哪里是樹木屋頂。但要讓代碼知道,意味著需要精確到每個像素的坐標。而文生圖模型生成的地圖,本質上就是一張「圖片」,沒有任何分層、標注、坐標信息。

最直覺的方案是讓多模態大模型(如 Gemini 3 Pro)直接看圖返回坐標。作者實測后發現完全行不通——VLM輸出的像素坐標誤差極大,同一張圖問兩次能給出差很遠的答案。

這是大模型的本質局限:它們被訓練出來是為了像人一樣理解圖片內容,而不是當尺子用——人也遠不可能肉眼看出精確坐標。


加網格輔助呢?作者也試了——給圖片打上參考線,然后讓 VLM 看著網格定位,再加自我審查循環不斷糾偏。有效,但只對建筑、可交互元素這種「小目標」非常勉強地能用。對于「可行走區域」這種大范圍、不規則的區域標注,幾乎不可解。


真實游戲地圖中,「可行走區域」可能是通過幾百幾千個 16×16px 的小方塊拼出來的。讓大模型一個個標?token 都不夠燒的。

作者甚至挨個問了所有頂尖模型,沒有一個能給出可行的方案。

靈感的瞬間:讓AI涂色,讓代碼算坐標

轉折點來自一個「換位思考」的瞬間——如果是一個真人,要在地圖上把所有可行走區域標出來,他會怎么做?

可以直接拿水彩筆,把可行走區域涂出來。這連小孩子都能做。

然后,只要把「涂之前」和「涂之后」的兩張圖做像素級色差對比,就能精確算出所有被涂抹區域的坐標。某個像素顏色變了,說明被涂抹了;顏色沒變,就沒被涂抹。代碼層面,這是一段完全確定性、不依賴任何AI的計算。

那么問題來了:讓AI涂色這件事,做得到嗎?

答案是:做得到。

而且能做到的工具,就是和「畫地圖」用的同一類——文生圖大模型。

作者把文生圖大模型作為「識圖工具」使用——把原圖作為參考,讓它用半透明的青色覆蓋出所有可行走區域


然后用一段固定的代碼,逐 tile 比較兩張圖的色彩差異,檢測青色偏移:

強證據:ΔG ≥ 18 且 ΔB ≥ 18 且 ΔR ≤ 8

弱證據:ΔG ≥ 10 且 ΔB ≥ 10 且 ΔR ≤ 14

最終得到精確的可行走網格。

這就是WorldX的一個關鍵實現——「疊加標注 + 差異定位」。

它把問題拆成了兩半:讓AI做它擅長的事(畫出位置),讓CV算法做AI不擅長的事(算出精確坐標)。生成式AI的不確定性輸出被轉化成了確定性的CV計算,這是整個管線能穩定跑起來的關鍵。

有意思的是, WorldX 開源后沒幾天,Google DeepMind發布了Vision Banana 論文(arXiv:2604.20329),系統性地驗證了"圖像生成模型天然具備強大視覺理解能力,可以通過色彩編碼輸出完成分割、深度估計等視覺任務"這一核心洞察。

WorldX在工程上獨立摸索出了同一個方向——不讓VLM 直接報坐標,而是讓圖像編輯模型涂色,再用色差計算提取精確坐標——這或許說明這條路的直覺是正確的。當然兩者的具體實現不同:Vision Banana需要指令微調,WorldX則是 zero-shot的純工程方案。

多色彩區分+自我審查:把不可能變成穩定可用

可行走區域的問題解了,還有一個相關問題——當地圖上有多個不同的功能區(當鋪、算命攤、菩薩像)時,怎么知道哪個色塊對應哪個?

很簡單:用不同顏色區分。當鋪涂紅色,算命攤涂藍色,菩薩像涂黃色——色差定位時按顏色歸類。


為了避免色彩太多導致模型標注錯亂,作者限制了每次最多標注4個元素,分批進行。

然后還有一個設計——自我審查 + 約束累積

每生成完一輪地圖或標注,系統會把結果發給視覺審查 LLM 做結構化 Review。如果不通過,反饋不會被當作「重新開始」的理由——而是被轉化成中文約束,追加(不是替換)到下一次 Prompt 中。

每一輪生成都「記住」了之前的教訓,約束越來越精確,整個過程像漏斗一樣逐步收斂。

這套機制貫穿整個生成管線——從地圖生成到功能區定位、可交互元素定位、可行走區域標注,每一步都有「生成 → 審查 → 約束注入 → 重試」的循環。

整個地圖生成管線一共6步:

  1. 生成全景地圖(帶審查重試,最多4次)

  2. 壓縮工作圖(降低下游 token 開銷)

  3. 三路并行:功能區定位 + 可交互元素定位 + 可行走區域標注(每一路都有自己的審查重試)

  4. 像素級計算可行走網格(純 CV,不依賴 LLM)

  5. 坐標映射 + 拼裝 Tiled JSON(標準游戲地圖格式,引擎可直接加載)


整個流程跑下來,token 成本被作者控制到一個相當可控的水平(生成一個世界只需約3~18萬token)——他在博客里寫下了一句很有溫度的話:「我希望這最終能成為一種普惠的、人人可用的架構,在一線大模型廠商不斷漲價、限流、砍權益的情況下,更加促使了我對這一點的堅持。當然還有個原因是我錢不夠!

AI角色怎么「活」起來?Tick循環+三層記憶+雙維度情緒

世界生成完畢,Server加載配置,模擬引擎啟動。從這一刻起,所有角色的行為完全由AI自主驅動。


引擎以Tick為基本時間單位運行(默認每Tick = 游戲內 30 分鐘)。每個Tick內部都是一套精心編排的流程:

  1. 決策波(并行):所有可決策角色同時走「感知環境 → 構建動作菜單 → LLM決策」

  2. 對話調度(沖突消解):貪心算法分配,每個角色每 Tick 最多參與一個對話會話

  3. 動作執行:非對話動作串行(避免共享狀態沖突),對話會話并行

  4. 微反思(每模擬小時觸發):從近期經歷提煉洞察,調整情緒和關注焦點

  5. 跨日轉場:一天結束時觸發深度反思、記憶衰減、狀態快照

記憶系統作者用了一個透明的四維加權評分:

score = relevance × 3 + recency × 2 + importance × 2 + emotionalIntensity × 1

為什么不用向量數據庫?

作者的解釋相當樸素:在這種 Agent 系統里,可調試比精度更重要。角色'總忘記重要的事'?把importance權重調高。'總沉浸在過去'?把 recency 調高。權重是透明的,改完馬上能驗證。向量數據庫在這個場景下反而是個黑盒。

記憶還有完整的生命周期——衰減、鞏固、淘汰。被頻繁回憶的、情感強烈的、重要的記憶會被鞏固為長期記憶;其余的逐漸淡忘。

「人類也會遺忘,然而這非但不是 bug,還是超級 feature。適當的遺忘是記憶迭代、重組的前提,是信息的壓縮、理解、泛化!棺髡咴诓┛屠飳懙。

情緒用雙維度模型——Valence(效價)+ Arousal(喚醒度),能表達比單標簽豐富得多的情緒狀態:興奮、焦慮、平和、憤怒。情緒只在「明顯波動」時才對其他角色可見,避免了「每個人都是情緒透明人」的不真實感。

與斯坦福Generative Agents的對比


「Generative Agents 證明了'AI 角色可以涌現出有趣的社會行為',WorldX 在此基礎上進一步回答了'怎么讓任何人描述一句話就能擁有一個自己的 AI 世界'!

一個開發者的婚假10天

最后說一件讓人印象深刻的事——這個項目是作者在10天婚假里獨立爆肝出來的

聲明:此項目由本人在婚假10天中爆肝vibe coding完成,時間確實有限,還有很多待優化的點會后續實現

10天,從零到一個能跑的「一句話造世界」系統。包括:

  • 一套完整的多模態生成管線(含6步地圖生成 + 角色立繪 + 摳圖)

  • 一套基于 Tick 的 AI 模擬引擎(含三層記憶、雙維度情緒、對話調度、反思機制)

  • 一個 Phaser + React 的客戶端(含尋路、動畫、轉場、回放、多時間線)

  • 一套上帝系統、雙語支持……

這或許才是vibe coding時代真正改變了什么——讓一個獨立開發者,用業余時間也能做出過去需要一個團隊的事。

未來

身臨其境、世界走廊、視覺小說

作者列出了幾個讓人期待的方向:

  • 身臨其境:用戶附身到某個角色(或自創角色)直接進入世界,和 AI 角色們一起生活、對話、影響走向

  • 世界畫廊:搞一個社區,大家分享自己創造的世界,像應用商店一樣瀏覽各種光怪陸離的 AI 世界

  • 視覺小說:根據一段故事大綱,讓系統自動演繹為完整的視覺小說

  • 無限地圖:目前地圖大小是固定的,理論上可以實現角色接近邊界時就自動生成新的地圖

  • 多場景聯動:讓一個世界的角色「走進」另一個世界,產生跨世界互動


文章最后,作者留下了一段相當哲學的話,我也忍不住把它放在這里:

「如今,我們已經可以通過一句話創造一個小型的、有一定智能的'迷你虛擬世界'了。隨著模型能力的不斷增強,能生成的世界也一定會愈發接近真實。我們是不是也在虛擬世界中呢?一旦某一天人類真正創造了與真實無二的虛擬世界,且這個世界中的人真的有了意識,那我們自己也處在虛擬世界中的概率將會立馬變成無窮大——因為遞歸創世,直至無限。不過那種程度的'虛擬'已經就是'真實'了吧!

目前離那個遞歸宇宙還很遠。但在那之前,可能會先迎來一個更近的未來——每個人都擁有一個屬于自己的虛擬世界,自己住進去,過自己想過的生活。就像今天每個人擁有自己的朋友圈、短視頻賬號一樣自然。

那時,我們看待娛樂、陪伴、內容這些詞的方式,可能都會被悄悄改寫。 WorldX 現在做的,是這件事的開始。

參考資料:

https://github.com/YGYOOO/WorldX

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
開通!武漢、南京,地鐵大爆發了

開通!武漢、南京,地鐵大爆發了

城市財經
2026-05-01 11:44:39
男人要是自己都不對自己好點,就沒人對你好了

男人要是自己都不對自己好點,就沒人對你好了

記憶承載
2026-05-01 07:21:39
連說法都變了!中國回應將迎來首艘核動力航母!

連說法都變了!中國回應將迎來首艘核動力航母!

阿龍聊軍事
2026-04-30 18:36:02
拼多多被曝暴力抗法?故意夾斷執法人員手部、員工當眾吃A4紙…

拼多多被曝暴力抗法?故意夾斷執法人員手部、員工當眾吃A4紙…

毒sir財經
2026-05-01 09:15:51
5月起買煙大變天!不止漲價,這4件事老煙民必須提前懂

5月起買煙大變天!不止漲價,這4件事老煙民必須提前懂

椰青美食分享
2026-04-30 17:45:49
10萬港人擠爆深圳!月租3000住公寓,雙城生活徹底反轉

10萬港人擠爆深圳!月租3000住公寓,雙城生活徹底反轉

說故事的阿襲
2026-05-01 11:44:19
美印尼狼狽為奸,斷華經濟命脈?中國還沒發聲,新加坡站邊表態了

美印尼狼狽為奸,斷華經濟命脈?中國還沒發聲,新加坡站邊表態了

看盡人間百態
2026-05-01 15:09:28
為什么天安門不懸掛毛主席的照片,反倒要掛主席的畫像?

為什么天安門不懸掛毛主席的照片,反倒要掛主席的畫像?

深度解讀詞序
2026-04-29 19:02:41
71.5%!歷史性暴跌,以貸養貸的泡沫崩了

71.5%!歷史性暴跌,以貸養貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
不再隱忍!樊振東徹底攤牌,深夜長文炸穿全網,棄賽留洋真相大白

不再隱忍!樊振東徹底攤牌,深夜長文炸穿全網,棄賽留洋真相大白

李虰手工制作
2026-05-01 07:33:04
昔日亞洲一哥將退役!最高排名世界第4,曾擊敗德約闖入美網決賽

昔日亞洲一哥將退役!最高排名世界第4,曾擊敗德約闖入美網決賽

全景體育V
2026-05-01 06:57:02
南航一飛廣州航班延誤超1小時,最新通報:一乘機旅客戲言行李內有炸彈,被依法追責

南航一飛廣州航班延誤超1小時,最新通報:一乘機旅客戲言行李內有炸彈,被依法追責

晉江電視臺
2026-05-01 12:15:18
西方媒體:就算中國全力以赴,也不可能按時建成這樣龐大的工程

西方媒體:就算中國全力以赴,也不可能按時建成這樣龐大的工程

墜入二次元的海洋
2026-05-01 10:06:08
央媒發文,高調官宣梁朝偉新身份,定居日本傳聞5個月前早有真相

央媒發文,高調官宣梁朝偉新身份,定居日本傳聞5個月前早有真相

嫹筆牂牂
2026-05-01 07:26:02
400個垂發,19萬噸“滅國艦隊”到位!美媒:菲見識到解放軍威力

400個垂發,19萬噸“滅國艦隊”到位!美媒:菲見識到解放軍威力

共工之錨
2026-04-29 00:12:08
李國慶再婚后徹底變了,聚會腳蹲椅子上吃飯,嚇得張丹紅趕緊去扶

李國慶再婚后徹底變了,聚會腳蹲椅子上吃飯,嚇得張丹紅趕緊去扶

夢醉為紅顏一笑
2026-04-30 19:26:59
俄方宣布紅場閱兵不再展示重型裝備,從“一輛坦克”到徹底取消

俄方宣布紅場閱兵不再展示重型裝備,從“一輛坦克”到徹底取消

桂系007
2026-04-29 05:18:10
聯合國激辯,中日連續三次交鋒,中方公布證據,對日將有大動作?

聯合國激辯,中日連續三次交鋒,中方公布證據,對日將有大動作?

奧字侃劇
2026-05-01 13:12:07
醫生發現:高血壓患者若常喝茶葉水,不用多長時間,或有4個變化

醫生發現:高血壓患者若常喝茶葉水,不用多長時間,或有4個變化

荷蘭豆愛健康
2026-05-01 14:15:35
日本多處住宅發生火災,已致7人死亡

日本多處住宅發生火災,已致7人死亡

界面新聞
2026-05-01 10:34:57
2026-05-01 15:36:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15107文章數 66823關注度
往期回顧 全部

科技要聞

蘋果上季在華收入繼續大增 iPhone收入新高

頭條要聞

中國軍號:日本有個致命的戰略弱點 出兵就是作死

頭條要聞

中國軍號:日本有個致命的戰略弱點 出兵就是作死

體育要聞

無奈!約基奇:這要在塞爾維亞 全隊早被炒了

娛樂要聞

鄧超在景德鎮被偶遇,穿黑外套逛茶園

財經要聞

GPU神話松動,AI真正的戰場變了

汽車要聞

限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

態度原創

教育
本地
家居
健康
軍事航空

教育要聞

先導課-告別chinglish,讓你的英語脫口而出

本地新聞

用青花瓷的方式,打開西溪濕地

家居要聞

靈動實用 生活藝術場

干細胞治燒燙傷面臨這些“瓶頸”

軍事要聞

伊朗:持續推進海上封鎖的行為不可容忍

無障礙瀏覽 進入關懷版