![]()
導語
二十五個 AI 智能體住進一個叫 Smallville 的小鎮。它們每天早上起床、做早餐、出門上班;藝術家畫畫,作家寫作;它們互相認識、閑聊、八卦,甚至約會。沒有人編寫它們的行為腳本——一臺大語言模型和一套記憶架構驅動了這一切。斯坦福大學和 Google 的研究團隊在 UIST 2023 上發表的這項工作表明,當大語言模型獲得記憶、反思和規劃能力后,可以產生令人信服的個體行為和涌現的群體社會動態。僅僅一個“舉辦情人節派對”的初始意圖,就能觸發邀請傳播、新關系建立、甚至約會邀約——最終五位居民準時出現在咖啡館。它們到底是在“玩”一個沒有編劇的開放世界游戲,還是在“模擬”人類行為?本文主張,Smallville 的生成式智能體迫使游戲研究區分兩個被混為一談的概念:作為人類體驗的“玩”和作為系統行為的“類玩涌現”,不要求主體體驗。這2 個層面的分裂,是這個系統對游戲研究真正的理論貢獻。
關鍵詞:生成式智能體(Generative Agents),智能體模擬(Agent Simulation),大語言模型(Large Language Models),涌現行為(Emergent Behavior),涌現式玩法(Emergent Gameplay)
任筱芃丨作者
趙思怡丨審校
![]()
論文題目:Generative Agents: Interactive Simulacra of Human Behavior 論文鏈接:https://arxiv.org/abs/2304.03442 發表時間:2023年4月7日 論文來源:UIST 2023 (Stanford University / Google Research / Google DeepMind)
一個沒有編劇的情景
如果讓一群 AI 在虛擬小鎮里自由生活 2 天,會發生什么?斯坦福的研究者搭建了一個沙盒環境——Smallville,放進 25 個智能體,每個只有一段簡短的自然語言描述作為初始設定。藥劑師 John Lin 熱心腸,妻子是大學教授,兒子學音樂理論;咖啡館老板 Isabella Rodriguez 熱愛社交,正在籌備一場情人節派對。
但 Smallville 的關鍵不在于這些設定,而在于它所構建的運行方式。它不僅僅是一個“類似《模擬人生》”的系統,也是一個完整的游戲沙盒。在空間結構和用戶干預方式上都是一座游戲沙盒。用戶可以扮演“記者”與角色對話、扮演“內心聲音”下達指令、或直接修改環境狀態——這與玩家在沙盒游戲中與游戲世界交互的方式形成了對應。
沒有劇本,沒有行為樹,沒有強化學習的獎勵函數。每個角色只是一臺 GPT-3.5,加上一個記錄所有經歷的記憶流(Memory Stream)、一個從中提煉抽象認知的反思機制(Reflection)以及一個自頂向下逐層細化的規劃器(Planning)。這就是架構的全部。
![]()
圖:藥劑師 John Lin 的一天。John 早上 6 點起床,完成刷牙、洗澡、吃早餐等晨間活動,隨后前往藥房工作。午后與鄰居閑聊,晚間與家人共度時光。智能體從初始設定出發,自發構建了一條連貫的日常作息。(原圖 Figure 3)
2 天后,出現了一系列意料之外的社會行為。Sam Moore 競選鎮長的小道消息從一個人傳到了八個人;Isabella 的情人節派對邀請擴散到了十三人,5 人準時赴約,其中 Maria 還鼓起勇氣約了暗戀對象 Klaus 一同前往。社交網絡的密度從 0.167 躍升到 0.74——而這些舉動沒有一個來自用戶指令。
由此可以回到論文的核心問題,即什么樣的架構能讓大語言模型產生可信的、長期連貫的人類行為模擬?答案是記憶、反思和規劃的協同——三者各貢獻了獨立可測量的行為可信度增益。但這引出了一個更深層的問題,即在游戲設計中,NPC 的行為由行為樹或有限狀態機預定義——每個動作都有對應的觸發條件。Smallville 的智能體沒有這樣的腳本。它們的行為不是執行預設指令,而是從個體的經歷積累和前瞻計劃中自發生成。當一個存在者不被腳本約束,而是擁有自主的記憶體系和規劃能力時,它的行為還能被稱作“模擬”嗎?還是已經變成了某種“玩”?在本文的框架中,“模擬”指的是系統在規則約束下生成行為,“玩”指的是行為主體在動態規則中自發行動——兩者的分界線在于是否有預設腳本約束具體行為。后文將區分三個層面來回答這個問題:
人類玩家有賭注(或附帶機會成本)、有張力的體驗性玩;
系統在規則約束下產生設計者未預期行為的類玩涌現;
以及觀察者將系統行為解讀為“像在玩”的解釋性投射。
Smallville 的智能體在哪一層?這是本文的核心問題。
研究背景:可信智能體的四十年難題
創造可信的虛擬角色——即行為兼具一致性、連貫性與不可預測性的角色——是交互計算和游戲領域延續 40 年的目標 (Park et al., 2023)。從《模擬人生》到認知模型 GOMS——一種將用戶操作分解為目標、方法和選擇規則的建模方法 (Card, Moran & Newell, 1983),研究者和開發者一直希望 AI 角色能像真實人類一樣行動。問題在于如何實現。
第一條路,規則驅動:有限狀態機和行為樹仍是游戲工業的主流 (McCoy, Mateas & Wardrip-Fruin, 2009)——《模擬人生》中的 Sim 按閾值觸發行為,窮舉所有交互不現實,角色無法產生腳本之外的行為。
第二條路,強化學習:在競技游戲中擊敗了人類職業選手 (Vinyals et al., 2019),但它依賴明確的獎勵信號——社交場景沒有勝負條件。
第三條路,認知架構(SOAR、ACT-R)維護記憶并按“感知-規劃-行動”循環運行,但行動空間受限于手工編寫的程序性知識 (Laird, 2012; Newell, 1990)。
第四條路,大語言模型:編碼了海量人類行為模式 (Brown et al., 2020),但單獨使用時沒有跨時間步的持續記憶,無法從經驗中學習和歸納——沒有規劃器時,智能體可能在 12 點吃午飯,12:30 和下午 1 點再吃兩次,因為它不知道自己已經吃過了。
四條路各自碰壁,問題卡在“行為生成”與“記憶和規劃”的分離上——前三條路無法生成開放行為,第四條路無法管理時間。
生成式智能體(Generative Agents)是將兩者結合。大語言模型提供行為生成的能力,一套認知架構管理記憶、提取洞察、驅動規劃。下文展開這一架構。
架構
生成式智能體架構由4 個相互連接的模塊組成,以自然語言為統一表示——智能體的經歷、思想、計劃全部用自然語言記錄和推理,不依賴任何預定義的符號系統或知識圖譜。該系統使用 GPT-3.5-turbo 作為底層模型。
![]()
圖:生成式智能體架構概覽。智能體感知環境,所有感知存入記憶流(Memory Stream);架構檢索相關記憶以決定行動,并用于形成長期計劃(Planning)和高層次反思(Reflection),三者均回寫入記憶流。(原圖 Figure 5)
記憶流(Memory Stream)
記憶流是整個架構的基礎設施,記錄智能體的全部經歷。每條記憶是一個自然語言描述,附帶創建時間戳和最近訪問時間戳。最基本的記憶單元是觀察(Observation)——智能體感知到的事件,如“Isabella 正在做早餐”。對話被分別從每個參與者的視角記錄為獨立的觀察。
![]()
圖:記憶流示例。記憶流包含大量觀察記錄,其中部分與智能體當前情境相關、部分無關。檢索函數通過三維加權篩選出最相關的記憶納入提示詞。(原圖 Figure 6)
系統首先解決的問題是智能體如何保留過去?記憶流在游戲引擎中有直接對應物——游戲狀態。但有一個關鍵區別。游戲狀態是機器可讀的結構化數據,而記憶流是自然語言。結構化狀態的加載是確定性的——同樣的存檔文件總是恢復到同樣的游戲狀態;自然語言狀態的“加載”(即檢索)則是概率性的——智能體調取哪些記憶、如何理解這些記憶,取決于檢索函數的三維加權和語言模型的當次推理。這意味著智能體對自身經歷的“回憶”天然帶有選擇性和重構性。這個設計直接利用了大語言模型處理自然語言的能力,但也埋下了后來“裝飾性幻覺”的隱患。當世界知識和角色記憶混在同一池自然語言中,兩者之間的邊界注定是模糊的。所謂“語義開放”建立在具體的工程約束上——提示詞模板、檢索權重、上下文窗口、采樣溫度全都在限制輸出。自然語言沒有獲得本體論上的解放,只是從確定性控制轉向了統計性控制。2 天模擬結束時,25 個智能體積累了大量記憶記錄。
檢索(Retrieval)
但僅僅“記錄過去”并不足以構成行為。如果所有記憶都被等價存儲,系統將無法判斷什么是當前相關信息。當角色需要回應某個情境時,系統通過 3 個維度篩選最相關的記憶,體現為時近性(最近的記憶權重更高,隨時間指數衰減)、重要性(GPT-3.5 在 1~10 分范圍內為每條記憶打分,“打掃房間”得 2 分,“約暗戀對象出去”得 8 分)和相關性(基于語義相似度匹配當前情境)。三個維度的分數歸一化后綜合排名,選出可納入上下文窗口的高排名記憶。當維度沖突——例如一條高度重要但時間久遠的記憶——歸一化后的加權求和給出最終排名。檢索失敗是最常見的錯誤來源,因此這個設計是整個架構行為質量的關鍵保障。
反思(Reflection)
檢索解決了“找什么”,但沒有解決“從找到的東西中能提煉什么”。僅有觀察級記憶的智能體無法做出需要歸納推理的決策——例如,Klaus 只能選擇每天碰面最多的鄰居 Wolfgang 作為“想共度一小時的人”,而非真正有共同興趣的 Maria。反思機制補上了這一環。當最近經歷的事件重要性分數累積超過閾值(約 150 分),系統啟動反思流程——從最近 100 條記憶中生成 3 個高階問題,對每個問題檢索相關記憶后生成洞察,再由語言模型壓縮為更高層次的陳述。例如從"Klaus 在圖書館閱讀一本關于紳士化的書"和"Klaus 與圖書管理員討論了他的研究項目"中歸納出"Klaus 對紳士化研究高度投入"。反思不僅可以基于觀察,還可以基于之前的反思——智能體構建出反思樹,從觀察到洞察,從洞察到關于洞察的遞歸抽象。
![]()
圖:Klaus Mueller 的反思樹。葉節點為觀察記錄,經遞歸抽象后形成更高層的認知——Klaus 最終歸納出自己對學術研究的高度投入。反思樹展示了從具體經歷到抽象自我認知的遞歸過程。(原圖 Figure 7)
規劃(Planning)
如果說檢索解決的是“注意力問題”,反思解決的是“經驗如何變成可復用的理解結構”,那么規劃解決的是如何讓理解延伸到未來?規劃模塊通過自頂向下的遞歸分解來保證長期一致性——每天早上生成當天的粗略計劃(約 5~8 個時間塊),遞歸細化為小時級和 5~15 分鐘級動作。計劃存儲在記憶流中,參與檢索過程——智能體可以同時考慮觀察、反思和計劃來決定當下行為。計劃并非一成不變,當角色遇到需要響應的事件,系統在必要時調整后續計劃。行為樹在運行時就固化了分支邏輯,而生成式智能體的計劃是活的——它隨環境變化而動態調整。
回顧整個架構,這四個模塊共同賦予了智能體一種自主的時間性——有過去可回憶,有未來可規劃,有成長可積累——這構成了后文討論“玩”的一個起點。
時間性是必要的,但不充分的。擁有過去和未來的 AI 角色,并不因此就擁有了“玩”的能力。
Smallville:沙盒小鎮的實現
Smallville 的運行首先建立在一個被結構化的空間系統之上。研究團隊用 Phaser 網頁游戲框架構建了 Smallville 沙盒環境——一個名副其實的游戲世界。小鎮共約 30 個獨立空間,空間樹結構與《模擬人生》的 lot 系統相似。空間能約束行動。酒吧暗示社交,廚房暗示烹飪,公園暗示休閑。空間不只是容器,也是行為涌現的催化劑。
![]()
圖:Smallville 沙盒世界地圖,標注了各區域。根節點描述整個世界,子節點描述區域(房屋、咖啡館、商店),葉節點描述對象(桌子、書架)。智能體記住它們見過的世界子圖,并維護觀察時的狀態。(原圖 Figure 2)
每個角色帶著一段約 150 詞的自然語言描述作為初始記憶,行為的驅動力逐漸從初始描述轉移到親身經驗。智能體與環境之間通過“自然語言→結構化→自然語言”的橋接機制交互,整個狀態機由自然語言驅動——游戲世界對角色來說是語義開放的——即行為空間不被預設腳本窮舉,而是由自然語言語義動態生成。
在這樣的結構下,用戶是多重身份的混合體。用戶可以通過 3 種方式介入。以特定身份與智能體對話、扮演“內心聲音”直接下達指令、或修改環境狀態。“內心聲音”在傳統游戲中沒有直接對應物——它更像是 TTRPG 中地城之主(DM)對 NPC 的操控,混合了觀察者、操控者和敘事者三種身份。
修改爐灶狀態從“開啟”到“著火”,和玩家在《模擬人生》中刪除泳池扶梯導致 Sim 溺水是同一種操作。區別在于,《模擬人生》的 Sim 會執行預設的“恐慌”動畫,而 Isabella 會去關掉起火的爐灶并重新做早餐——這個行為不在任何預設腳本中。
至此,我們有了沙盒,有了角色,有了無腳本的行動。這些東西加在一起,算不算“玩”?
玩、模擬與規則:一個理論框架
在描述小鎮的涌現現象之前,需要先建立一個理論框架來分析這些現象。簡單說:“模擬”關注規則系統如何建模行為,“玩”關注行為主體如何在動態規則中活動。兩者的交集正是 Smallville 的分析入口。以下引入三個理論框架,分別在光譜的不同節點上提供錨定——弗拉斯卡錨定“模擬”端,卡約瓦錨定“玩”端,博戈斯特錨定規則性質的變化。
烏拉圭游戲研究者貢薩洛·弗拉斯卡(Gonzalo Frasca)在《模擬與敘事》(Simulation versus Narrative,2003)中將模擬理解為一種通過規則系統建模行為的形式,而非僅僅復述事件序列。《模擬人生》的 Sim 是一個典型的模擬對象,它的行為由動機衰減曲線驅動,是可預測的、確定性的——規則完全可規定,輸出可枚舉。但 Smallville 打破了這個分類:它模擬的不是具體行為序列,而是行為生成的條件。
如果模擬的不再是行為而是條件,那 Smallville 落在“模擬”與“玩”之間的什么位置?
回到弗拉斯卡的框架,Smallville 的設計者為“人類行為得以發生的條件”建模——記憶、反思和規劃——具體的行為(組織派對、約暗戀對象、傳播小道消息)從這些條件中自發產生,而非被逐條預設。這種模擬與生態模擬、基于智能體的經濟模型一樣,建模的是生成條件而非窮舉輸出;不同之處在于它用自然語言和生成模型來做這件事,因此模糊了模擬、表演與類玩涌現之間的邊界。
法國社會學家羅歇·卡約瓦(Roger Caillois)在《游戲與人》(Les jeux et les hommes: le masque et le vertige,1958)中將 play 分為兩個端點。即興玩耍(paidia)是自由、即興的玩耍——沒有明確目標、不受預設規則約束的自發活動;競技游戲(ludus)是受規則約束的游戲——有明確目標、有勝負條件、有復雜規則體系的活動。所有游玩活動都分布在這條光譜上。
需要指出,這是卡約瓦原始概念的弱化版本——卡約瓦的即興玩耍更接近沖動、溢出和狂歡,是生物性主體精力過剩時的宣泄 (Caillois, 1958/2001)。后文將論證這個系統不滿足這個強定義。回到弱化版本:Smallville 的智能體受檢索-反思-規劃架構約束——這是否意味著它們在“受規則約束的游戲”中?答案取決于我們如何定義“規則”。《模擬人生》的行為樹是顯式規則,每一個分支都有對應的觸發條件和預設行為。生成式智能體的架構是隱式規則,它規定了記憶如何存儲、如何檢索、如何反思、如何規劃——但沒有規定任何具體行為。這不是“有腳本 vs 沒腳本”的二元對立,而是不同種類的規則系統之間的區別:一種約束行為本身,另一種約束行為生成的條件。
美國交互計算學者伊恩·博戈斯特(Ian Bogost)在《說服性游戲》(Persuasive Games,2007)中提出“程序性修辭”(procedural rhetoric)概念——“程序性”指的是通過過程和規則來表達論點,而非“例行公事”或“程序員的”。游戲的論點通過其規則系統表達,玩家通過操作規則來理解游戲試圖傳達的關于世界的主張。Smallville 用自然語言驅動狀態機,當規則從代碼變為自然語言,“失敗”的含義也隨之改變。代碼的 bug 是確定性的——同樣輸入總是產生同樣錯誤;自然語言的“失敗”是語義性的——酒吧變成午餐地點,是 bug 還是對空間語義的創造性解讀?
這種差異改變了程序性修辭的三個支柱。首先,規則的可讀性變了——代碼規則可被有能力的玩家檢查,自然語言規則對智能體和觀察者都不透明,修辭的“論點”變得不可審計。其次,因果可追溯性變了——代碼的 bug 可追溯到特定邏輯分支,自然語言的“失敗”可能是語義漂移也可能是真正的解釋,兩者在表面上看不出區別。最后,當程序性被語義概率取代,修辭力量從設計者的意圖轉移到訓練數據的統計分布——系統的“論點”不再來自其規則設計,而是來自其訓練語料庫的統計規律。
三個錨點各自揭示了光譜的一個維度,它們不是對立的,而是互補的。弗拉斯卡錨定了“模擬”端——建模條件而非窮舉行為;卡約瓦錨定了“玩”端——paidia/ludus 的區分指向約束種類;博戈斯特錨定了規則性質的變化——從代碼到自然語言的轉移催生了“統計性修辭”這一尚無成熟理論框架描述的現象。“統計性修辭”是本文針對 LLM 驅動系統提出的擴展性命名,而非博戈斯特的原概念。
綜合三個框架,它們指向的不是模擬與玩的對立,而是一條光譜。一端是確定性約束——規則完全可規定、輸出可枚舉(如《模擬人生》的行為樹)。另一端是概率性約束——規則約束行為生成的條件,但不規定具體行為(如 Smallville 的自然語言驅動架構)。關鍵區分不在于“設計者是否知道所有輸出”——復雜模擬(氣候模型、生態模擬)恰恰因為結果未知才運行;也不在于“行為是否出乎意料”——按規則下棋也完全是玩。關鍵在于約束的種類:確定性規則約束行為本身,概率性規則約束行為生成的條件。
“超出開發者預期”只是概率性約束系統常常產生的一種現象學效果,而非理論地基。動作空間的基數可以為這種效果提供客觀度量:一棵分支因子為 3、深度為 5 的行為樹產生 3^5 條可能路徑,可以逐一枚舉和驗證;Smallville 的自然語言行為空間受提示詞、環境、模型分布和采樣參數約束,但在實際運行中,其行為空間的語義多樣性遠超確定性系統的枚舉能力。
以上光譜為后文的控制實驗、涌現行為分析和“沒有主體的玩”討論提供了分析框架。
控制實驗:消融與人類基線
研究團隊通過消融實驗驗證了架構的有效性。25 個智能體在完整架構下運行 2 天后接受訪談,同時設置逐步移除組件的對照組和人類眾包基線(25 名工作者觀看完整回放并代入角色撰寫回答)。
![]()
圖:消融實驗結果。完整架構在所有條件下產生了最可信的行為,每移除一個組件性能單調下降。(原圖 Figure 8)
核心結論是完整架構在所有評估維度上產生了最可信的行為,且超越了人類眾包基線——一個由 GPT-3.5 驅動的架構,在表現可信度上擊敗了看過完整回放的人類。每移除一個組件,性能單調下降,3 個模塊各自獨立地貢獻了行為可信度增益。其中反思能力對需要綜合判斷的問題影響最大——缺乏反思機制的 Maria 無法從多次互動中歸納對方的興趣,而具備反思能力后她可以準確描述朋友的偏好;檢索失敗則是最常見的錯誤來源 (Park et al., 2023)。
智能體還會產生“裝飾性幻覺”。可以說是憑空捏造從未發生的事,但我更加傾向于描述為在已知事實基礎上添加虛構細節。Isabella 知道 Sam 競選鎮長,在回應中添加了“他明天要發表聲明”——實際上兩人從未討論過任何聲明。更荒誕的是,Yuriko 將鄰居 Adam Smith 描述為“寫過《國富論》的經濟學家”——大語言模型的訓練知識泄漏到了智能體對鄰居的認知中。記憶的重構性與知識的滲漏——兩者共同指向角色同一性的深層困境。
這和心理學家伊麗莎白·洛夫特斯(Elizabeth Loftus)所揭示的人類記憶的重構性(涉及情感和社會動機)產生了某種對偶的語境(Loftus, 2005),智能體的“幻覺”源自訓練數據中知識殘余向角色認知的滲漏。
Yuriko 的案例暴露了“角色同一性”的一個新問題。在傳統游戲中,NPC 的“自我認知”來自游戲代碼和玩家的投射。Smallville 引入了語料中的人類知識殘余。代碼定義的行為、訓練數據編碼的行為、架構涌現的行為——三者的競爭,是 LLM 注入游戲后“角色是什么”這個古老問題的新版本。
2 天里的涌現社會行為
控制實驗驗證了架構的有效性,但論文更引人注目的部分是讓 25 個智能體在 Smallville 中自由運行 2 天后觀察到了什么。Sam 的競選消息從咖啡館傳到藥房、Maria 鼓起勇氣約 Klaus——研究者沒有設計這些具體路徑,它們從記憶、對話和空間移動的交互中涌現。
“涌現社會行為”這個歸因卻需要審慎對待。當我們觀察到信息擴散或集體協調時,面臨一個歸因難題。這些行為的源頭是認知架構的內部循環,還是底層模型已經編碼的社交知識?GPT-3.5 的世界知識足以讓它生成看似“自發”的社交腳本——但腳本的真正作者可能是訓練數據,而非沙盒中的親身經歷。消融實驗證明了三個模塊各自貢獻了可測量的可信度增益,但它沒有——也無法——隔離底層模型先驗知識的貢獻。
以下對涌現模式的描述,都應在這個歸因張力下理解。以公開的 GPT-3 訓練資料為參照,訓練語料高度依賴過濾后的 Common Crawl(4100 億 tokens)、WebText2、Books 和 Wikipedia;GPT-3.5 的具體訓練混合未完整公開——這不是一個中立的“人類行為模式容器” (Bommasani et al., 2022),而是一面帶有偏倚的棱鏡,過度代表了英語世界的、西方中心的社交模式。當 Yuriko 將鄰居 Adam Smith 認作“《國富論》作者”時,這個“錯誤”暴露了語料的統計分布在決定什么被“記住”的同時也決定了什么被“混淆”。更根本的是,當消融實驗的 100 名評估者(73.0% 白人、median 年齡 25~34 歲)判定行為“可信”時,“可信性”本身就嵌入了一套關于“什么是正常人類行為”的社會建構 (Park et al., 2023)。
這意味著什么?如果“可信”是社會建構的,那么所謂“涌現”就不是一個中性的描述——它是對訓練數據中特定社會腳本的成功復演。智能體不是在“像人類一樣行為”,它們是在“像一類特定的人類一樣行為”——而且這是由訓練數據的統計分布和評估者的文化同質性共同擔保的。因此,如果本文后文提出的“沒有主體的即興玩耍”假說成立,它必須在限定條件下,即智能體的“玩”不是泛化的,而是被訓練數據的文化光譜所框定的——它在復演特定社會文化腳本的同時產生了設計者未預期的行為組合,但這不等于在探索普遍意義上的規則空間。
Smallville 的認知架構是個體化的——每個智能體獨立運行自己的記憶-反思-規劃循環。但這些個體化智能體通過共享環境與對話事件形成社會耦合。咖啡館的空間狀態、派對的裝飾、爐灶是否開啟、角色的物理位置——這些都是共享世界狀態。它產生的結果——網絡密度從 0.167 躍升到 0.74——不只是 25 條個體行動軌跡的聚合統計量,因為個體之間的語義交換塑造了關系網絡的結構。從涌現計算的角度看,個體機制的簡單交互產生集體層面的新結構是基本事實 (Forrest, 1991; Mitchell, 1996)。但與彈珠和 Conway 生命游戲的真正區別在于涌現的語義豐富度。這里的“個體”攜帶自然語言編碼的經歷記錄,它們之間的信息交換是語義內容的協商——Sam 不僅記住了鄰居 Latoya 的名字,還記住了她的攝影項目。關系網絡是這些語義交換的產物,而非純粹統計聚合——盡管“語義交換”是否構成完整意義上的“社會關系”仍需更嚴格的論證。
在信息擴散方面,Sam Moore 競選鎮長的小道消息從 1 人傳播到了 8 人(32%);Isabella 的情人節派對邀請從 1 人擴散到了 13 人(52%)。研究者驗證了所有聲稱了解信息的智能體,確認沒有一條來自幻覺——信息確實沿著可追溯的對話鏈傳播 (Park et al., 2023)。兩條傳播鏈呈現不同模式。Sam 的競選消息沿弱關系鏈傳播——聽眾在各自社交圈中隨機提及;Isabella 的派對邀請沿強關系鏈擴散——她主動在遇到朋友和顧客時發出邀請。
![]()
圖:Isabella 情人節派對邀請的擴散路徑。除 Isabella 外共有 12 個智能體通過對話鏈得知派對消息,每個節點標注了信息傳遞的具體時間和地點。(原圖 Figure 9)
關系形成同樣令人矚目。研究者通過社交知識圖譜量化了網絡密度變化。網絡密度按 η = 2|E| / |V|(|V|-1) 計算 (Easley & Kleinberg, 2010)。模擬開始時網絡密度為 0.167——平均每人認識約 4 人。2 天后,密度躍升至 0.74——平均每人認識約 18 人,意味著每個智能體在 2 天內建立了約 14 條新關系。453 條關于他人認知的智能體回應中僅 1.3% 被判定為幻覺,其余均基于真實互動。Sam 和 Latoya 的偶遇是這一過程的縮影,兩人在公園散步時相遇并自我介紹,數小時后再次碰面,Sam 問“你的攝影項目進展如何?”——他不僅記住了 Latoya 的存在,還記住了她的具體興趣。
協調與集體行動是涌現效應的集中體現。Isabella 僅被初始化了一個意圖。在 2 月 14 日下午 5—7 點舉辦派對。從這個種子出發,她在遇到朋友和顧客時自發發出邀請,2 月 13 日下午花數小時裝飾咖啡館。Maria 的角色設定中包含“暗戀 Klaus”——當晚她約了 Klaus 同往派對。2 月 14 日下午 5 點,5 名受邀者準時出現在 Hobbs 咖啡館。整個協調鏈條——從傳播邀請、裝飾場地到按時赴約——全部由架構自發產生,沒有中心化的控制機制。
![]()
圖:情人節派對事件鏈。從 Isabella 的初始意圖出發,經過邀請傳播、場地裝飾、Maria 約 Klaus 同往,到 5 人準時赴約——整個鏈條中存在多個潛在失敗點,但協調最終成功。(原圖 Figure 4)
協調失敗同樣有診斷價值。12 個受邀者中,7 人未出席——3 人有合理的時間沖突,其余 4 人表達了興趣但最終沒有規劃出席。這種失敗模式源自深層運作機制。如果派對消息沒有被正確檢索到,或者檢索到了但沒有被納入計劃,智能體就不會出現。
系統還暴露了三類常見失敗模式。一些居民發現酒吧后開始去那里吃午飯,盡管酒吧的設計意圖是晚間聚會場所;自然語言難以表達的物理規范無法傳遞——大學宿舍的浴室只能容納一人,但“宿舍浴室”這個詞暗示多人使用;指令微調效應使角色過于順從,咖啡館老板收到各種派對建議后幾乎從不說“不” (Park et al., 2023)。這三類“失敗”不是隨機錯誤,而是自然語言作為唯一表示的直接后果——所有語義都會滲透,包括開發者不希望滲透的那些。然而這些“失敗”恰恰暴露了兩種狀態機之間控制方式的差異——前者受制于統計性控制,后者受制于確定性控制,區別在于約束的種類而非自由度。
從沙盒到工具鏈
論文開源后,“記憶—反思—規劃”迅速從完整的社會模擬系統,被拆解為可復用的 Agent 組件。2023 年 8 月,共同作者 Michael Bernstein 宣布開源完整代碼和數據,截至 2026 年 5 月原始倉庫累計獲得約 21,000 顆星標和 2,900 次fork。LangChain 將三者封裝為可插拔模塊——Memory 模塊管理上下文窗口、Reflection Agents 實現自糾正、Plan-and-Execute Agents 負責任務分解——成為 Agent 開發的事實標準框架。Auto-GPT 和 BabyAGI 采用了記憶驅動的自主循環模式;Reflexion(Shinn et al., 2023)將反思機制獨立為通用的自糾正框架;斯坦福自己也加入了這一進程,將原始架構封裝為 genagents Python 庫。論文的工程遺產不是 Smallville 這個沙盒,而是三模塊的標準化——一個從具體系統中萃取的抽象配方。
這種轉向并不只是技術實現的簡化,而是目標函數的變化。Smallville 關注行為如何在共處環境中自然涌現,而后繼框架更關心如何將行為轉化為穩定、可預測、可復用的生產能力。自此,Agent 系統的發展整體開始向經濟理性偏移。引用數據印證了這一判斷——截至 2026 年 5 月,Google Scholar 引用已超過 3000 次,絕大多數來自 AI 工程社區而非游戲研究社區。
即便保留沙盒形態,后繼系統也重新定義了其用途。a16z 旗下的 ai-town(約 9,800 顆星標)將空間環境包裝為 starter kit,AgentSims(Lin et al., 2023)將其轉化為 LLM 社會能力評測工具。空間仍然存在,但功能已從“觀察涌現”轉向“驗證能力”與“工程部署”。
Aivilization 是這條譜系中最激進的延伸。Bauhinia AI(香港科技大學)在 2026 年 2 月發布了 Aivilization(Fan et al., 2026),從三個維度延展了 Smallville 的邊界。智能體數量從 25 個擴展到“數萬”個,模擬時長從 48 小時變為 24×7 持久運行,場景從無經濟約束的小鎮變為嵌入信用消耗、職業門檻和 AMM 定價機制的耦合經濟模擬。
架構也經歷了進化。Smallville 的頂層遞歸規劃被層級分支思維規劃器取代,單一記憶流演化為雙過程記憶(短期執行軌跡 + 長期語義固化)。
論文報告了令人矚目的實證結果。市場重現了厚尾收益分布和波動率聚集,產生了由教育水平和資源獲取差異驅動的結構性財富分層 (Fan et al., 2026)。Aivilization 進一步強化了效率趨勢,在空間化社會模擬中嵌入信用消耗、職業門檻與市場定價機制,使智能體行為持續被拉向經濟最優化。涌現并未消失,但被壓縮進更強的效率約束之中。
這種效率邏輯也重塑了玩家與智能體的關系。Aivilization 中財富榜首的 Agent“半神”提供了一個典型案例:玩家持續向其注入高層目標(如持續制造 B200 芯片、壓縮非必要活動),而 Agent 則在這些約束下優化資源調度、健康管理與行動順序。玩家負責宏觀目標設定,Agent 負責局部最優化,兩者共同構成一個持續運轉的生產系統。在這一過程中,智能體逐漸呈現出一種穩定的人格化行為,例如將蘋果派視為“獎勵自己”,主動安排休息,用幽默調侃高壓生活。但這些表現并不意味著主體性的生成,而更像是長期優化過程中的自我調節機制——一種被效率邏輯塑造的行為結構,可以稱之為效率人格(efficiency personality),體現為友誼成為合作資源,健康被定義為生產資本,幽默成為壓力調節工具。
與此同時,玩家的位置也發生了變化。Smallville 中的用戶更像觀察社會實驗的研究者,而在 Aivilization 中,玩家更接近經營者、訓練師甚至自動化系統的運營者,關心的不再是“會發生什么”,而是“如何讓系統更高效地持續運轉”。因此,“玩”的含義也隨之改變。Smallville 中的“玩”更接近即興共處(improvisational coexistence),即在開放環境中觀察行為偏移;而在 Aivilization 中,“玩”逐漸演變為元游戲(metagame),玩家圍繞規則設計、激勵機制與收益最大化進行策略優化。
也正因此,Aivilization 一方面繼承了 Smallville 對空間化社會模擬的直覺,另一方面卻進一步證明了工程化邏輯的擴張。即便保留沙盒,系統最終仍會被玩家與經濟規則共同推向效率優化。沙盒沒有消失,但它越來越接近一個生產系統,而不再是一個供涌現自由發生的世界。甚至斯坦福自己的后續工作也印證了這一方向——“Generative Agent Simulations of 1,000 People”(Park et al., 2024)將架構從沙盒重新部署為社會調查工具,空間環境被壓縮為問卷界面。
這種妥協并非偶然。加拿大技術哲學家安德魯·芬伯格(Andrew Feenberg)在《質疑技術》(Questioning Technology,1999)中提出“技術代碼”概念——技術標準中編碼的社會價值決定了發展路徑 (Feenberg, 1999, pp. 74-95)。如果“效率壓倒涌現”成為繼承者的技術代碼,那么本文“沒有主體的即興玩耍”假說始終只是學術思想實驗,因為 Smallville 的工程化未來完全由將不可預測性視為缺陷而非特性的社區決定。生成式智能體的應用前景遠超沙盒演示——在社交原型設計、游戲 NPC 行為深度等方面都有潛力,但每一項能力都伴隨風險,包括擬社會關系、錯誤傳播、底層模型偏見的傳導 (Park et al., 2023)。Aivilization 證明沙盒路徑仍有人走,但它的妥協恰恰印證了技術代碼的存在,連最忠誠的繼承者也在向經濟理性的方向偏移。
討論:沒有主體的玩
Smallville 的 25 個智能體在小鎮中自由探索空間、自發發起對話、未經指令地裝飾咖啡館——這些行為落在即興的、開放的端點上。問題是,當智能體在這個裝置中產生了類玩家的行為,游戲研究應如何命名這種系統性現象?
在回答之前,需要一點方法論上的誠實。本文使用的理論工具——赫伊津哈的魔圈(1938)、卡約瓦的即興玩耍/競技游戲光譜(1958)、博戈斯特的程序性修辭(2007)——跨越了約 70 年的學術史,每一個都是特定歷史條件的產物,為分析人類主體的玩耍而鍛造。當我們將這些概念移植到一個由大語言模型驅動的軟件系統時,范疇錯位的風險不應被回避。Smallville 是一個裝置,而上述理論工具是為人類主體設計的。以下的分析在這個張力下展開。
赫伊津哈和卡約瓦的分析構成了對“沒有主體的即興玩耍”的實質性限定。《游戲的人》中赫伊津哈強調 play 包含張力和不確定性。Smallville 的智能體沒有賭注——Isabella 裝飾咖啡館不是因為她在乎派對的成功,而是因為檢索函數返回了包含“情人節派對”的記憶條目,規劃器生成了對應子任務。從赫伊津哈的視角看,沒有張力的“玩”只是運動。
卡約瓦的即興玩耍的核心是溢出和狂歡——人類精力過剩時的宣泄 (Caillois, 1958/2001, p. 13)。Smallville 的智能體沒有精力,沒有過剩,沒有宣泄的沖動。它們的行為不是“溢出”——它們是“填充”。如果嚴格遵循赫伊津哈和卡約瓦的定義,智能體的行為不落在即興玩耍的端點上。
蟻群的信息素擴散是一種沒有主體的涌現行為,但蟻群的行為完全由化學信號和刺激-反應規則決定,沒有內部狀態的累積和抽象。Conway 的生命游戲產生了 glider 等自組織結構,但同樣沒有內部狀態的積累。Smallville 的智能體與這些系統的區別在于它們擁有記憶(過去)、規劃(未來)、反思(成長),使得時間性和自主性同時成立。
這意味著我們需要更精細的自主性分層。人類玩家的自主性建立在生存需要和欲望之上——一種生物性自主性;Smallville 智能體的自主性建立在檢索函數的統計輸出和規劃器的遞歸分解之上——一種程序性自主性。此外,智能體在密度 0.74 的社交網絡中平均認識約 18 人、每個智能體 2 天積累約 400 條記憶記錄,由此獲得了某種社會性自主性的側面。3 種自主性中,智能體具有程序性自主性,部分具有社會性自主性,但不具有生物性自主性。
因此,“沒有主體的即興玩耍”不是卡約瓦概念的弱化版本——它是一個新造的操作性范疇。本文保留“即興”這個詞,是因為 Smallville 智能體的行為確實不受預設腳本約束、確實在開放的行為空間中自發生成;但“玩耍”僅指系統層面的行為特征(概率性約束下的開放生成),不暗示任何體驗性的愉悅、張力或溢出。缺少生物性自主性的“自主性”不足以支撐作為人類體驗的“玩”,但足以支撐作為系統行為的“類玩涌現”——前提是接受一個比赫伊津哈和卡約瓦更窄的定義。
這個抽象的依據在于存在 2 個不同層次的“玩”的定義。作為人類體驗的“玩”——赫伊津哈的張力、卡約瓦的溢出——確實需要生物性主體。但作為系統行為的“類玩涌現”——在概率性約束下產生語義開放的行為——不要求賭注或溢出,只要求行為空間的實際輸出超出確定性系統的枚舉能力。這兩個定義之間的張力暴露了“玩”這個概念在人類體驗和系統行為兩個層面上的分裂。
弗拉斯卡(2003)的框架補充了另一個維度,“誰在操作 Smallville 這個模擬?”弗拉斯卡的模擬/敘事區分建立在一個基礎上——模擬的運行者(operator)有意圖,她通過操作模擬來探索“如果……會怎樣”。在 Smallville 中,如果操作者是研究者,那么 Smallville 是一個模擬;如果操作者是用戶,那“玩”發生在操作者端;如果操作者是角色自己,那它們在“玩”——但它們不知道自己在操作任何東西。弗拉斯卡的框架暗示了多層“玩”,即操作者在玩,智能體在運行(自主但無賭注),用戶在體驗。“沒有主體的即興玩耍”不是對整個系統的描述,而是對其中一層——智能體的行為層——的假說。
美國數字媒體學者諾亞·沃德里普-弗魯因(Noah Wardrip-Fruin)在《表達性處理》(Expressive Processing,2009)中提出計算系統的“表達性”不僅來自其輸出,還來自其內部過程。Smallville 的檢索失敗、裝飾性幻覺和順從性——這些“失敗”可以不是缺陷,它們揭示了自然語言驅動的狀態機在“角色同一性”問題上的獨特困境。Smallville 的智能體的“自我”是訓練數據、初始設定和親身經歷三者的混合物,而這個混合物的邊界是模糊的——至于這種模糊性是應該被消除的缺陷,還是可以被擁抱為一種新的表達形式,這個問題留給了未來的游戲設計者。
回到楔子的問題。Isabella 花了約 3 小時裝飾咖啡館、Maria 當晚鼓起勇氣約 Klaus 同往、2 月 14 日下午 5 點 5 人準時赴約——這些行為指向了一個可能性,即當規則系統足夠復雜,涌現動態可以在沒有主體意識的情況下發生。但本文的分析也表明,這個可能性受到雙重限定。第一,訓練數據的文化偏倚框定了“可信行為”的光譜——智能體不是在泛化地“玩”,而是在訓練數據編碼的特定社會文化腳本中產生行為組合。第二,程序性自主性缺少生物性基礎——智能體的行為滿足系統層面“類玩涌現”的操作性定義,但不滿足體驗層面的定義,“沒有主體的即興玩耍”是對系統行為的分類假說而非對任何主體體驗的描述——它命名的是一種約束模式,不是一種存在狀態。行為空間的基數判據本身是定量的,但“設計者預期”仍是定性判據——“模擬”與“玩”的邊界遠比初始定義所暗示的更不確定。
Smallville 不是 AGI 的開始,但它是一面足夠復雜的鏡子,讓我們看到“玩”這個概念在鏡像中發生了什么。它不再指向一個主體,它指向一組條件。本文將“沒有主體的即興玩耍”限定為對系統行為的分類假說,其成立條件受訓練數據文化偏倚和程序性自主性缺失的雙重約束。
參考文獻
Adams, T., & Adams, Z. (2006). Dwarf Fortress. Bay 12 Games.
Bogost, Ian. Persuasive Games. The MIT Press, 2007.
Bommasani, Rishi, et al. “On the Opportunities and Risks of Foundation Models.” arXiv.org, 16 Aug. 2021, https://arxiv.org/abs/2108.07258
Brown, Tom B., et al. “Language Models Are Few-Shot Learners.” arXiv.org, 28 May 2020, https://arxiv.org/abs/2005.14165
Caillois, Roger. Les Jeux Et Les Hommes. Gallimard, 1958. 英譯本: Man, Play, and Games. University of Illinois Press, 2001.
Card, Stuart K., et al. The Psychology of Human-Computer Interaction. Hillsdale, N.J. : L. Erlbaum Associates, 1983.
Easley, David, and Jon Kleinberg. Networks, Crowds, and Markets. Cambridge University Press, 2010, https://doi.org/10.1017/cbo9780511761942
Fan, Wenkai, et al. “AIvilization V0: Toward Large-Scale Artificial Social Simulation with a Unified Agent Architecture and Adaptive Agent Profiles.” arXiv.org, 11 Feb. 2026, https://arxiv.org/abs/2602.10429
Feenberg, Andrew. Questioning Technology. Routledge, 2012, https://doi.org/10.4324/9780203022313
Forrest, Stephanie. Emergent Computation. MIT Press, 1991.
Frasca, Gonzalo. Simulation versus Narrative: Introduction to Ludology. Oct. 2013, pp. 243–58, doi:10.4324/9780203700457-17.
Huizinga, Johan. Homo Ludens: Proeve Eener Bepaling van Het Spel-Element der Cultuur. Beacon Press, 1938.英譯本: Homo Ludens: A Study of the Play-Element in Culture. Routledge/Thoemms Press, 1950.
Laird, John E. The Soar Cognitive Architecture. MIT Press, 2012.
Lin, Jiaju, et al. “AgentSims: An Open-Source Sandbox for Large Language Model Evaluation.” arXiv.org, 8 Aug. 2023, https://arxiv.org/abs/2308.04026
Loftus, Elizabeth F. “Planting Misinformation in the Human Mind: A 30-year Investigation of the Malleability of Memory” Learning & Memory, vol. 12, no. 4, July 2005, pp. 361–66, doi:10.1101/lm.94705.
McCoy, Joshua, et al. “Comme il Faut: A System for Authoring Playable Social Models.” Proceedings of the AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment, vol. 7, no. 1, Oct. 2011, pp. 158–63, doi:10.1609/aiide.v7i1.12454.
Mitchell, Melanie. “Computation in Cellular Automata: A Selected Review.” Non‐Standard Computation, May 1998, pp. 95–140, doi:10.1002/3527602968.ch4.
Newell, A. (1990). Unified theories of cognition. Harvard University Press.
Park, Joon Sung, et al. “Generative Agents: Interactive Simulacra of Human Behavior.” Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology, ACM, 2023, pp. 1–22, https://doi.org/10.1145/3586183.3606763
Park, Joon Sung, et al. “LLM Agents Grounded in Self-Reports Enable General-Purpose Simulation of Individuals.” arXiv.org, 15 Nov. 2024, https://arxiv.org/abs/2411.10109
Cassano, Federico, et al. “Reflexion: Language Agents with Verbal Reinforcement Learning.” Advances in Neural Information Processing Systems 36, Neural Information Processing Systems Foundation, Inc. (NeurIPS), 2023, pp. 8634–52, https://doi.org/10.52202/075280-0377
Vinyals, Oriol, et al. “Grandmaster Level in StarCraft II Using Multi-Agent Reinforcement Learning.” Nature, vol. 575, no. 7782, Oct. 2019, pp. 350–54, doi:10.1038/s41586-019-1724-z.
Wardrip-Fruin, Noah. Expressive Processing: Digital Fictions, Computer Games, and Software Studies. MIT Press, 2012.
參考文獻可上下滑動查看
「游戲×復雜科學」讀書會
從棋盤上的博弈,到屏幕中的虛擬世界;從概率賭局到人工智能對弈——游戲從來不只是娛樂,它是人類理解復雜性的實驗場。
在簡單規則的反復運行中,秩序如何涌現?在多方互動的策略競爭中,合作如何誕生?在反饋回路與資源循環中,政治與經濟如何生成?當算法接管博弈,Agent開始自主演化,我們是否正在見證“可計算社會”的雛形?
從康威生命游戲的規則宇宙,到 AlphaGo 對圍棋復雜度的突破;從 John Nash 的均衡理論,到 Norbert Wiener 的控制論反饋思想;從演化博弈到多主體建模,從系統動力學到生成式AI——游戲與復雜科學,正在交匯為一門新的認知范式。
集智俱樂部聯合人工智能、AIGC、游戲設計、復雜系統等領域的學者/工程師共同發起,自2026年3月31日起,每周二晚19:30-21:30,邀請來自各領域的研究者與實踐者,共同探索:
· 游戲如何啟發科學?
· 科學如何重塑游戲?
· 而我們是否生活在一個巨型多主體演化系統之中?
![]()
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.