別問AI像不像人了，先問它在災難里能不能逃命

2026-07-06 01:54:26　來源: 虎嗅APP

北京舉報

分享至

題圖來自：AI生成

2023 年，斯坦福和 Google 聯(lián)手做了一個實驗：25 個 AI 居民在一個叫 Smallville 的虛擬小鎮(zhèn)里生活，會自己組織一場情人節(jié)派對，會互相八卦，會因為“沒被邀請”而不高興。

Generative Agents：游戲世界中的 25 個生成式智能體

這個叫《Generative Agents》的項目，作者之一正是斯坦福博士生 Joon Sung Park，當時更多被當作一個好玩的技術展示——原來大模型不只是一個聊天窗口，它還能“扮演人”，還能被放進一個持續(xù)運轉的世界里，自己生成記憶、自己做計劃、自己和別人互動。論文里最出圈的一張圖，就是智能體們自發(fā)在 Hobbs 咖啡館辦起情人節(jié)派對的場景——沒人安排劇本，是幾個 agent 自己商量、自己發(fā)邀請、自己決定要不要去。

Generative Agents：智能體自發(fā)組織的情人節(jié)派對場景

CMU 論文 Figure 1：應急管理人員從不信任到信任LLM智能體模擬的 16 個月過程

過去幾年，這項技術被一批研究機構從派對場景，一路帶進了地鐵火災、颶風疏散、畢業(yè)典禮疏散預案這類不能開玩笑的場景里。卡內基梅隆大學、清華大學、天津大學、斯坦福 HAI……這些機構在做同一件事：讓AI智能體不再演一場派對，而是演一場逃命。而與此同時，另一批研究者——比如阿姆斯特丹大學的計算社會科學學者 Petter T?rnberg ——正在從方法論根子上質疑：這些“演得像”的智能體，到底能不能被當真。這篇文章就想把這兩撥人放在一起看。

逃命是決策問題，不是物理問題

傳統(tǒng)的疏散仿真是純物理模型：給定一個空間、一群點、一個出口，用元胞自動機或者社會力模型算出人流怎么走、多久能走完。這類模型的問題是，它假設人是理性的、勻速的、只服從物理規(guī)律的粒子——但真實災難現(xiàn)場里，人會愣住、會往回跑找家人、會因為看不清出口標志而原地打轉、會因為群體恐慌而互相踩踏。這些恰恰是純物理模型算不出來的東西，卻是歷史上大多數(shù)踩踏事故里真正致命的部分。

物理模型想象的人群 vs 災難現(xiàn)場真實的人群

新一代仿真的思路是把系統(tǒng)拆成兩層：“物理層”繼續(xù)負責碰撞、力學這些傳統(tǒng)計算機圖形學擅長的事，“認知層”則交給大語言模型驅動的智能體，去處理判斷、猶豫、恐慌、信息不對稱——這套“物理—認知分離架構，本質上是給虛擬人群配了一個會猶豫的“腦子”，而不只是一具會跑的身體。過去一年里，至少有四組獨立的研究，分別從“決策”、“身體”、“規(guī)?！薄ⅰ皞€體精度”四個不同角度，往這套架構里填內容。

“物理—認知分離”架構示意

四個真實案例，四種做法

卡內基梅隆大學：從 100 人到 13000 人的畢業(yè)典禮預案

這項研究由 CMU 計算機學院的 Yuxuan Li、Sauvik Das 和 Hirokazu Shirado 三人主導，和學校應急管理團隊做了一項歷時 16 個月的迭代設計研究，目標是給學校真實的畢業(yè)典禮疏散預案提供參考。系統(tǒng)經(jīng)歷了五輪迭代：從 100 個智能體的小規(guī)模驗證，擴展到 500、3000，最終做到 13000 個智能體——這個數(shù)字直接對應了這所學校畢業(yè)典禮的真實人群規(guī)模。研究團隊沒有一上來就做大規(guī)模仿真，而是花了很長時間先解決“應急管理人員愿不愿意相信一個AI模擬結果”這個更基礎的問題：論文標題里用的說法是“從不信任到信任”的轉變過程，這本身說明，這類系統(tǒng)的門檻不完全是技術門檻，也是一個組織信任建立的過程。

Figure 4：真實畢業(yè)典禮人群動力學與模擬結果對比

論文里有一張圖（對應上方Figure 4）把真實畢業(yè)典禮的人群動力學數(shù)據(jù)和模擬結果做了對比，另有一張圖畫出了不同疏散方案下的累積疏散進度曲線。

Figure 5：不同疏散方案下的累積疏散進度曲線

最終，這項為期 16 個月的合作產(chǎn)出了三條具體建議，已經(jīng)被寫進了學校真實的標準操作流程（SOP）——這是目前四個案例里，唯一一個已經(jīng)從“論文里的 demo ”變成“真被寫進制度文件”的例子。

天津大學 + 卡迪夫大學 + 清華大學：地鐵火災里的“身體”

這個叫 RESCUE 的系統(tǒng)由天津大學教授李坤（國家優(yōu)青、天大智能與計算學部三維視覺研究組負責人）牽頭，聯(lián)合卡迪夫大學、清華大學團隊完成，解決的是另一個問題：光有“會決策的腦子”還不夠，虛擬人還得有一具“物理上可信”的身體——推擠時手臂會不會真的碰到別人、摔倒姿態(tài)自不自然、不同體型的人跑起來速度是否符合真實生理數(shù)據(jù)。

RESCUE 項目：個性化、物理合理、三維自適應的在線人群疏散模擬

團隊在項目主頁上還放了一段實際的 demo 視頻（imgs/demo_4201.mp4），可以看到虛擬人群在擁擠中推搡、摔倒、爬起來繼續(xù)跑的連貫過程，這是目前四個案例里唯一能看到“動態(tài)演示”而不只是論文截圖的一個。

RESCUE 論文：24 個身體部位碰撞受力可視化

團隊做了一個個性化步態(tài)轉換器，可以實時計算 24 個身體部位在擁擠碰撞中的受力情況（上圖），論文附帶的定性對比結果和消融實驗顯示這套方法比過去的疏散仿真更貼近真實人群錄像，團隊還專門統(tǒng)計了不同類別人群（老人、兒童、成年人）在擁擠狀態(tài)下的速度分布箱線圖，用來驗證模擬出的個體差異是否符合真實生理數(shù)據(jù)。這項工作已被計算機視覺頂會 ICCV 2025 接收，項目代碼和主頁已經(jīng)公開。

清華大學：把智能體放進一整座城市

如果說前兩個案例是“事件級”的模擬，清華大學電子工程系李勇教授團隊做的 AgentSociety 做的是“城市級”：論文 16 位作者名單里，Jinghua Piao、Yuwei Yan 等為共同一作，李勇是通訊作者。論文摘要里寫的數(shù)字是，給超過一萬個智能體生成完整的社會生活，累計產(chǎn)生了 500 萬次互動。

AgentSociety 論文 Figure 2：總體框架圖

這套系統(tǒng)被用來跑過好幾組社會實驗，其中一組專門模擬颶風等外部沖擊下的城市反應，另外幾組則用來看社交媒體上極端信息傳播、無條件基本收入這類政策變量如何影響一整座虛擬城市的行為分布。這意味著，同一套底層技術，既能拿來算一場畢業(yè)典禮怎么疏散，也能拿來算一場颶風來了以后一整座城市會不會亂——從單一場館到整座城市，驗證難度是指數(shù)級上升的，這也是后面 T?rnberg 那波質疑最主要針對的規(guī)模區(qū)間。

AgentSociety 論文 Figure 10：大規(guī)模社會模擬引擎系統(tǒng)架構

斯坦福：AI分身能有多像你

前三個案例都在解決“怎么讓一群虛擬人看起來像真人在逃命”，斯坦福 HAI 這項由博士生 Joon Sung Park 主導的研究問的是更基礎的問題：AI 分身到底能在多大程度上準確預測一個具體真人會怎么做決定。團隊招募了 1052 名具有全美代表性的受試者，先做兩小時深度訪談，再結合社會調查量表（GSS）、五因素人格測試、五種行為經(jīng)濟學博弈實驗，最后比較AI生成的“數(shù)字分身”和真人本人兩周后重新作答的結果有多接近。結論是：結合訪談和問卷數(shù)據(jù)的智能體，復現(xiàn)真人自己兩周后重復作答的準確率達到 0.86，比單純依賴人口統(tǒng)計學變量的傳統(tǒng)方法明顯更準，也明顯減少了按政治立場、種族、性別分組時的預測偏差。

Park在斯坦福HAI的采訪中說得很直接：“這些語言模型其實是在扮演它剛剛采訪過的那個人?！保═he language model is trying to role-play as the person it just interviewed.）他認為訪談數(shù)據(jù)比單純的人口統(tǒng)計標簽更關鍵，因為“訪談數(shù)據(jù)的好處在于，它包含了每個人的獨特之處，語言模型因此不會那么頻繁地做出基于種族的籠統(tǒng)概括”。他也把這項研究的野心說得很明白：“我確實認為，現(xiàn)在有很多社會問題我們沒能很好解決，而這個測試平臺可以讓它們變得更容易應對，氣候變化、疫情政策這類'棘手問題'都需要極其復雜的規(guī)劃和條件推演?！边@項研究的價值在于，它給“ AI 分身到底有多可信”這個問題提供了一個可以量化的基準線，而這條基準線，正是前面幾個逃生仿真系統(tǒng)能不能被信任的地基。

潑冷水的人：驗證才是真正的難題

如果只聽這四組研究者的說法，這項技術的發(fā)展軌跡會顯得異常順利——從 100 人到 13000 人，從單一場館到一整座城市，準確率還能量化到 86%。但阿姆斯特丹大學計算社會科學副教授Petter T?rnberg 和合作者 Maik Larooij 在一篇題為《大語言模型解決了基于智能體建模的問題嗎？》的批評性綜述里，給這條樂觀敘事潑了一盆冷水。他們論文摘要里的原話是：

"We argue that there are reasons to believe that LLMs will exacerbate rather than resolve the long-standing challenges of ABMs. The black-box nature of LLMs moreover limit their usefulness for disentangling complex emergent causal mechanisms." ——Larooij & T?rnberg, arXiv:2504.03274

他們提出的第一個問題是黑箱性質：“大語言模型從根本上是黑箱模型……幾乎不可能確定為什么某個特定輸入會產(chǎn)生某個特定輸出?！备闊┑氖牵瑯拥妮斎朐诓煌芜\行里可能給出不同的輸出，這直接威脅到科學研究最看重的可復現(xiàn)性。第二個問題是偏差與刻板化：“模型經(jīng)常錯誤地表征群體及其特征，經(jīng)常表現(xiàn)出夸張的刻板印象”。第三個問題是幻覺和分布外場景下的失控：“在歷史上沒有先例的場景中，模型行為可能變得不穩(wěn)定”——而災難現(xiàn)場，恰恰經(jīng)常是“歷史上沒有先例的場景”。

T?rnberg 團隊給出的核心診斷是：“驗證仍然是核心挑戰(zhàn)”，而且“加入大語言模型，惡化而非解決了這個問題”（“the addition of LLMs exacerbates rather than resolves this issue”）。他們認為，目前很多研究依賴的是“表面效度或者只是松散關聯(lián)底層機制的結果指標”，這讓這類模型"占據(jù)了一個模糊不清的方法論位置"——聽起來很像科學，但既不完全是傳統(tǒng)的基于規(guī)則的仿真，也不是被充分驗證過的統(tǒng)計模型。

這個批評并非無的放矢。就連專門做“數(shù)字分身”驗證的斯坦福團隊，也在論文里承認自己的方法存在局限；另一項研究疫苗猶豫政策模擬的論文里，作者們同樣明確寫道“這項早期探索不旨在提供確定的政策指導”，并且發(fā)現(xiàn)不同大模型之間的表現(xiàn)差異巨大，部分模型的偏差能超過 20%，這背后正是“預訓練數(shù)據(jù)偏差”在作祟。換句話說，連身處這個領域內部、真心想把這件事做成的研究者，也在論文的角落里，寫下了和 T?rnberg 遙相呼應的保留意見。

三層商業(yè)價值

把這四類研究串起來看，能看出一條清晰的商業(yè)化路徑，一共三層，風險隨層級依次升高：

第一層 · 應急管理 SaaS 工具：把 CMU 那樣耗時 16 個月的定制研究，做成學校、體育場館、地鐵站可以直接調用的標準化預案生成服務。
第二層 · 城市數(shù)字孿生行為層：AgentSociety 這類城市級模擬可以讓數(shù)字孿生從“看得見的建筑物理模型”升級成“算得出人會怎么反應的社會模型”。
第三層 · 保險風險定價：如果一套系統(tǒng)能相對準確地模擬出某個場館在特定人群密度下的傷亡概率分布，這本身就是一種可以被保險精算模型直接使用的數(shù)據(jù)。

但按照 T?rnberg 的批評，這三層商業(yè)化里，越往后風險越大：SaaS 化的預案生成工具，出錯了大不了是建議不夠好；但如果保險公司真的把一個尚未被充分驗證的黑箱模型的輸出，直接喂進精算定價模型，一旦模型在某個“沒有先例的場景”里悄悄失控，代價可能是系統(tǒng)性的。

圖：逃生模擬技術的三層商業(yè)化路徑

別高興太早：三個具體風險

結合 T?rnberg 的批評和四個案例本身暴露的問題，至少有三個風險值得單獨拎出來。

逃生模擬技術的三個具體風險

第一個風險是“模型太平均”。大語言模型的訓練數(shù)據(jù)本質上是海量人類文本的統(tǒng)計平均，這意味著它扮演出來的“虛擬人”，行為上很容易向“最常見的反應”收斂，而真實災難現(xiàn)場的極端個體行為——比如某個人因為特殊心理創(chuàng)傷而做出完全反常的舉動——恰恰是最容易被模型“磨平”的部分，而這些極端個體行為往往又是傷亡集中發(fā)生的地方。這正好對應 T?rnberg 說的“夸張的刻板印象”問題的反面：不是刻板印象太夸張，而是個體差異被抹得太平。

第二個風險是“微觀可信、宏觀失真”。斯坦福的研究證明了單個數(shù)字分身在特定任務上可以做到 86%的還原度，但這不代表幾千個這樣的分身放在一起模擬一場疏散時，群體層面涌現(xiàn)出的踩踏、擁堵、次生恐慌這些宏觀現(xiàn)象也同樣可信——微觀精度和宏觀涌現(xiàn)是兩個不同量級的驗證問題，這恰恰是T?rnberg 那句“驗證仍是核心挑戰(zhàn)”想說的事情：目前沒有哪項研究能證明兩者可以簡單疊加。

第三個風險是“過度對齊導致失真”。大模型在訓練過程中被反復調教得“安全、禮貌、避免過激反應”，但災難現(xiàn)場里恰恰需要模擬出違規(guī)、非理性、甚至攻擊性的人類行為，一個被安全對齊磨平了棱角的模型，很可能天然地低估真實人群的混亂程度和恐慌烈度——這也是一種分布外失控，只不過失控的方向不是“太混亂”，而是“太乖”。

結語：問題變了

從 AI 小鎮(zhèn)到今天，這項技術真正的進步不是讓虛擬人“看起來更像人”，而是讓研究者開始問一個更尖銳的問題：這些虛擬人在最壞的那幾分鐘里，還像不像人？

派對上像不像人，考驗的是語言和社交表現(xiàn)；火災里像不像人，考驗的是在信息缺失、極度恐慌、生死攸關的狀態(tài)下，會不會跟真人一樣做出誤判、跟風、甚至互相傷害。

CMU、天大、清華、斯坦福這四組人，正在用各自的方式回答“能不能做到”；T?rnberg 這樣的批評者，則在提醒所有人先回答“你怎么知道它做到了”。這才是 “逃生模擬” 和 “AI 小鎮(zhèn)”之間真正的分野，也是這項技術接下來能不能被應急管理部門、保險公司真正信任并投入使用的關鍵。

但不管這些系統(tǒng)能做到多精確，最后按下疏散指令、決定是否相信模擬結果的，終究還得是人。

參考資料：

1. CMU應急疏散研究：arXiv:2509.21868（作者：Yuxuan Li, Sauvik Das, Hirokazu Shirado / CMU）

2. RESCUE地鐵疏散系統(tǒng)：arXiv:2507.20117｜項目主頁｜演示視頻｜GitHub（負責人：李坤 / 天津大學，ICCV 2025）

3. AgentSociety城市級模擬：arXiv:2502.08691｜項目文檔（通訊作者：李勇 / 清華大學）

4. 斯坦福數(shù)字分身研究：arXiv:2411.10109｜項目頁｜GitHub｜Joon Sung Park采訪原文，Stanford HAI

5. T?rnberg批評性綜述：arXiv:2504.03274《Do Large Language Models Solve the Problems of Agent-Based Modeling? A Critical Review of Generative Social Simulations》（Petter T?rnberg, Maik Larooij / 阿姆斯特丹大學）

6. 疫苗猶豫模擬局限性討論：arXiv:2503.09639

7. 2023年"AI小鎮(zhèn)"原始論文：arXiv:2304.03442《Generative Agents: Interactive Simulacra of Human Behavior》

本內容由作者授權發(fā)布，觀點僅代表作者本人，不代表虎嗅立場。如對本稿件有異議或投訴，請聯(lián)系 tougao@huxiu.com。

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4872728.html?f=wyxwapp

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.