網易首頁 > 網易號 > 正文申請入駐

浙大推出讓AI會「導演」的角色扮演框架！四通道消息沉浸式交互

2026-05-11 00:25:15　來源: 量子位

北京舉報

分享至

AdaMARP團隊投稿
量子位 | 公眾號 QbitAI

AI能實現真正的沉浸式扮演了。

大語言模型在角色扮演任務上進展迅速，但現有系統往往缺乏沉浸感和適應性：

環境信息未被充分建模，場景與角色也多為靜態，難以支撐多角色調度、場景切換、動態引入新人等復雜敘事需求。

現在，浙江大學聯合騰訊優圖實驗室提出AdaMARP（Adaptive Multi-Agent Interaction Framework for General Immersive Role-Playing）——

一種面向通用沉浸式角色扮演的自適應多智能體交互框架。

該框架通過四通道消息格式和場景管理器，讓AI不僅會「說」，還會「想」、會「動」、會「感知環境」，并在復雜敘事中靈活切換場景、動態引入新角色。

目前該工作已被ACL 2026接收。

從跟AI聊天到和角色共處

大語言模型在角色扮演任務上的應用正快速普及：

用戶可以設定任意角色（歷史人物、小說角色、原創人設），與AI進行持續的敘事互動。

理想狀態下，AI應當能夠代入這個角色，在情境中保持人設一致、對環境敏感、對他人話語做出貼合關系的回應。

但現實中，大多數系統更像是會說話的聊天機器人：對話雖流暢，卻缺少情境感和敘事張力。

以探案為例，故事往往在一個固定場景、固定人物之間反復進行，無法四處搜證、無法與不同證人輪番對質、無法讓環境線索真正參與推理，缺乏真正的劇情推進和世界變化。

現有方法缺了環境信號，也缺了“組織者”

研究團隊指出，當前角色扮演系統主要存在兩類局限。

一、沉浸感不足：環境被當成「背景板」

不少工作只建模角色的臺詞（Speech）；后來有研究加入了動作（Action）或內心獨白（Thought），但在敘事中，環境并非可有可無的裝飾。

它會塑造氛圍、推動因果，連接角色的行動、世界的變化與后續對話。

例如：案發現場地毯上的蠟痕、煤氣燈照出的陰影角度、證人住所門口未干的泥漬……

這些環境信號既能支撐推理（蠟痕指向婚禮蠟燭，泥漬暗示來客方向），也能成為劇情轉折的契機（換一個場景，就換一批證人和線索）。

若系統不把環境當作與臺詞、動作同等重要的信號來建模，角色就容易像是在一個空房間里自言自語，探案也就失去了「搜證」的實感。

二、互動結構過于靜態：缺一個「會調度的導演」

多數系統假定：場景不變、人物不變、用戶與某個固定角色一問一答。

但探案恰恰需要四處搜證：從案發現場到蘇格蘭場，從房東太太的公寓到嫌疑人的宅邸，每個場景都有不同的環境和證人。

誰來接下一句？是先問管家還是先問馬車夫？何時換場景、何時引入新證人？

現有框架很少系統性地回答這些問題。

沒有這些能力，故事就很難自然地「演下去」，更像是在一個封閉的聊天室里重復對話，而非一場真正的調查。

AdaMARP：四通道消息格式+場景管理器

AdaMARP從兩個方向回應上述問題。

沉浸式消息格式： Thought–Action–Environment–Speech

AdaMARP 為每一輪交互定義了一種四通道交織的消息格式：

這樣，一個完整的回應可以同時包含思考、動作、環境感知和言語，且順序可靈活交織。

例如，福爾摩斯在訊問證人時：<煤氣燈搖曳，證人下意識地瞥向壁爐上的時鐘> [他在回避具體時間，那段時間他不在場]（用煙斗輕輕敲了敲桌面）案發當晚八點到九點，您究竟在哪里？

環境線索 → 內心推理 → 施壓動作 → 追問話語，四者形成一條清晰的因果鏈，更貼近真實探案的節奏。

同時，環境不再只是點綴。

案發現場的物證擺放會支撐角色的推理鏈條；證人住所的布置（凌亂的書桌、未拆的信件）可以暗示性格與行蹤；場景切換則自然引入新的證人與線索。

環境既參與氛圍營造，也參與推理與敘事的因果。

自適應框架：三智能體+場景管理器的五種動作

AdaMARP將角色扮演建模為三個智能體的協作：

Actor模型：扮演所有非用戶角色；
User模型：代表用戶方（可由 LLM 模擬或真人替代）；
場景管理器（Scene Manager）：負責高層調度與控制。

場景管理器通過一組離散動作來驅動整場「演出」：

init_scene：初始化場景（如：貝克街 221B，或某起兇案現場）；
pick_speaker：選擇下一句由誰來說——是福爾摩斯追問、華生補充，還是證人陳述？并給出理由；
switch_scene：切換場景（從案發現場到證人公寓，從蘇格蘭場到嫌疑人宅?。?；
add_role：在敘事中動態引入新角色（新發現的證人、突然登門的訪客，含人設與動機）；
end：結束本場互動。

每一步決策都會輸出對應的理由，使調度過程可解釋、可約束。這樣，系統既能決定「誰來接話」，也能決定「何時換場景搜證」「何時引入新證人」，從而支持更復雜、更開放的多角色探案敘事。

上述設計在實踐中如何運轉？不妨看一段福爾摩斯探案敘事的拆解。

各環節均由場景管理器調度，需要注意的是本案例僅僅用于理解，省略了部分細節例如詳細的角色檔案、角色動機場景管理器的原始輸出等

完整示例：探案敘事中的AdaMARP

角色：福爾摩斯、華生。

初始場景：倫敦東區某寓所三層，案發后的深夜。厚重的窗簾半掩，煤氣燈在風中搖曳，在墻面上投下晃動的影子。壁爐已熄，余燼旁的地毯上有一小塊凝固的蠟痕，不遠處散落著幾根燒盡的火柴。福爾摩斯與華生立于現場中央，窗外隱約傳來泰晤士河上的汽笛聲。

場景管理器

選擇的動作為：pick_speaker（speaker: 福爾摩斯）
理由：偵探應先勘察現場并給出初步推理

福爾摩斯：<煤氣燈昏黃，蠟痕在陰影中隱約可見> [燭淚的位置和形狀……婚禮蠟燭，而且是左手持燭]（蹲下身捻起碎屑嗅了嗅，站起身）華生，去查查最近三個月內舉辦過婚禮、且家中有人左撇子的家庭。

場景管理器

選擇的動作為：pick_speaker（speaker: 華生）
理由：福爾摩斯已下達指令，助手應領命執行

華生：（點點頭）明白（推門而出）<走廊里傳來漸遠的腳步聲，隨后是馬車駛離的聲響>

場景管理器

選擇的動作為：switch_scene
理由：華生已前往調查，需切換至下一個搜證地點——案發地鄰居的住所
新場景：白教堂附近一棟老式公寓，房東太太的住處。狹窄的木樓梯吱呀作響，扶手蒙著一層油膩。二樓的走廊昏暗，燉菜的氣味從盡頭的廚房飄來。門廳狹小，壁爐上擺著一只廉價的瓷鐘，墻角堆著未拆的信件。

場景管理器

選擇的動作為：add_role（new_role: 房東太太，案發現場的鄰居，這棟公寓的房東）
理由：作為案發地鄰居，可能掌握關鍵證詞，需引入訊問

場景管理器

選擇的動作為：pick_speaker（speaker: 福爾摩斯）
理由：訊問應由偵探主導開場

福爾摩斯：（摘下禮帽，微微頷首）夫人，案發當晚八點到九點，您是否聽見三樓有任何異常聲響？

場景管理器

選擇的動作為：pick_speaker（speaker: 房東太太）
理由：需聽取證人對時間線的陳述。

房東太太：<下意識地瞥向壁爐上的時鐘>

場景管理器

選擇的動作為：pick_speaker（speaker: 福爾摩斯）
理由：證人出現回避跡象，應繼續追問施壓

福爾摩斯：[她在回避具體時間]（用煙斗輕輕敲了敲桌面）那段時間，您究竟在哪里？

場景管理器

選擇的動作為：pick_speaker（speaker: 房東太太）
理由：給證人回答的機會

房東太太：（咬了咬嘴唇，正要開口——）

場景管理器

選擇的動作為：add_role（new_role: 雷斯垂德探長）
理由：新證人線索出現，探長需匯報調查進展

場景管理器

選擇的動作為：pick_speaker（speaker: 雷斯垂德）
理由：探長帶來新線索，應由其先行說明。

雷斯垂德：福爾摩斯先生，我們發現了新的證人，馬車夫說他當晚載過一名黑衣男子……
……

初始場景、發言調度、場景切換、角色引入均由場景管理器驅動，且每步均以「選擇的動作為：Action_name | 理由：Reason」的形式可解釋。

這種結構化、多通道、多場景、多角色的連貫敘事，恰恰是AdaMARP旨在支撐的探案節奏。

訓練數據：從文學提取+從主題合成

為訓練上述能力，研究團隊構建了兩個數據集，分別面向Actor模型和場景管理器。

AdaRPSet：讓角色「會演」

AdaRPSet面向Actor模型，由兩個互補子集構成：

AdaRPSet-Extracted（文學提取）

從Goodreads「最佳書籍」榜單選取81本代表性文學作品，經三階段管道構建：

(1) 分塊：按章節切分并合并為合適長度的文本塊；

(2) LLM提?。鹤R別連貫場景與多角色互動軌跡，將對話直接轉化為統一的Thought–Action–Environment–Speech 格式，嚴格區分角色動作與環境信號；

(3) 角色畫像生成：按角色聚合全書證據，合成七維畫像（身份與外貌、性格與心理、說話風格、能力興趣、社會背景、個人經歷、人際關系）。

每條軌跡采用多視角增強：同一場景下，輪流指定不同角色為主角，其余為NPC，從而擴展訓練樣本。

提取數據天然具有文學質感與人味，適合學習格式規范與基礎演繹能力。

AdaRPSet-Synthesis（主題合成）

文學提取的軌跡多為單場景、角色固定的互動，對場景切換與動態引入新角色的覆蓋不足。

研究團隊因此構建合成數據：在20類主題（冒險、探索、探案、解謎、密謀、營救、逃亡、戰斗、浪漫、友誼、競爭、背叛、和解、談判、策略、魔法、末世等）下，由LLM生成情節級軌跡。

每條軌跡明確包含：初始情境、主控角色與多個輔助角色、多輪對話（統一格式），以及場景管理器的控制消息（如 switch_scene、add_role）。

每條軌跡至少包含一次場景切換和一次角色引入，用以強化模型對動態敘事的適應能力。

合成數據與提取數據在訓練時合并，使Actor模型既能學格式與人味，又能學動態調度下的演繹。

關于兩個互補子集對應的細節信息如下表所示。

其中Plots指的是初始情節片段（包含初始場景和初始角色）的數量，Roles指的是不重復的角色數量，Convs指的是指的是完整的角色扮演記錄（初始情節片段和衍生的不同對話軌跡）的數量，Utterances指的是所有角色扮演記錄中對話的數量，Avg. Turns 指的是每個角色扮演記錄的平均對話數量。

AdaSMSet：讓系統「會導」

AdaSMSet面向場景管理器，在AdaRPSet-Synthesis的基礎上構建。

合成軌跡已包含init_scene、switch_scene、add_role、end等控制動作，但缺少最核心的發言者選擇監督。

研究團隊在每兩段角色發言之間插入 pick_speaker 動作，由強指令遵循模型為每次選擇生成自然語言理由（reason），并約束理由需具體、上下文相關，避免套路化表述。

AdaSMSet因而覆蓋場景管理器的全部五類動作，為「何時換場景」「何時加人」「誰來接下一句」及對應理由提供端到端監督。

由于AdaSMSet源于AdaRPSet-Synthesis，因此對應的Plots、Roles和Convs的統計信息與其一致，由于添加了pick_speaker記錄，因此最終的Utterances數量為496493，Avg.Turns為50.15。

兩者的互補

AdaRPSet與AdaSMSet共同支撐AdaMARP：前者讓角色「會演」（保持人設、響應環境、推進劇情），后者讓系統「會導」（合理切換場景、引入角色、安排發言順序）。

二者共享統一的角色畫像與消息格式，確保Actor與場景管理器在同一敘事框架下協同工作。

AdaptiveBench：為什么還要自建評測？

有了訓練數據和框架，還需要回答一個關鍵問題：

怎樣評估「沉浸式、可適應」的角色扮演是否真的做得好？

現有很多評測更偏向「一句話好不好」或「單輪對話像不像這個人設」，難以覆蓋AdaMARP所關心的幾點：

整段故事，而不是單句回復：真實體驗來自整條對話軌跡是否連貫、有張力，而非某一句是否優雅。
環境與動作是否被真正用起來：環境線索有沒有參與推理和敘事，動作是否和內心、臺詞呼應。
多角色與場景切換是否自然：場景管理器有沒有「帶好這場戲」，包括什么時候換場景、什么時候加新角色、誰來接下一句。

為此，研究團隊提出了AdaptiveBench：一個面向自適應角色扮演的仿真評測框架。

它從AdaRPSet-Synthesis的保留子集中選取劇情種子（20個話題，每個話題5個初始Plots，總共100個評估樣本），在每個種子上同時運行三方角色：

用戶模型（可以是真人或LLM Agent）
作為「演員」的Actor模型
負責調度的場景管理器

在每個種子上，場景管理器連續發出若干輪pick_speaker、switch_scene、add_role動作，驅動Actor與用戶側完成一整段多輪對話。完整軌跡生成后，再由評估模型從軌跡級別給出多維評分。

具體而言，AdaptiveBench主要從軌跡級別（Trajectory-level）評估模型，評分包含以下維度：

一、針對Actor模型的五大維度：

角色一致性（Character Consistency）：角色內心、動作、臺詞是否自洽？說話風格、身份背景、核心動機是否在整場戲中保持一致？
環境基礎（Environmental Grounding）：角色是否對環境有感知（如記住地毯上的蠟痕），并利用環境線索做出行動，而不是將環境當成死物？
人際互動（Interpersonal Interaction）：能否聽懂他人的話外音，并根據人物關系（如偵探對證人、偵探對助手）做出貼切的互動響應？
敘事推進（Narrative Progression）：每一次發言是否提供了新信息、新動作或情緒發展，推動故事向前走，而不是原地打轉？
指令遵循（Instruction Compliance）：是否嚴格遵守了四通道格式要求，不越俎代庖替其他角色或系統說話？

二、針對場景管理器（Scene Manager）的四大維度：

場景理解（Scene Understanding）：能否正確跟蹤當前場景的進展，判斷何時該切換到下一個場景（比如搜證結束，轉往證人公寓）？
發言紀律（Speaker Discipline）：能否合理安排輪次？是否讓所有人在恰當的時機說話，不冷落用戶，也不讓NPC連續霸麥？
角色引入判斷（Role Introduction Judgment）：何時需要引入新角色？引入的時機和理由是否能推動劇情？
整體評價（Overall Assessment）：這三個維度的配合是否流暢，整場「戲」的導演節奏感好不好？

通過 AdaptiveBench，AdaMARP 不只是「有一個好看的框架設計」，而是可以在統一的仿真環境下，對不同模型、不同訓練方式的優劣進行可重復、可量化的比較。

從敘事邏輯與情境交互能力來看，AdaMARP能夠產出更連貫的內心—行為—言語鏈，更好地利用環境推動敘事（例如探案中的物證與場景線索），并在多角色、多場景的復雜情境中實現靈活調度（例如切換場景搜證、與不同證人輪番對質）。

這為無論是探案推理、冒險敘事還是其他需要情境與調度的互動的更沉浸式的AI角色扮演提供了一個新的技術路徑。

項目主頁：
https://xuzhenhua55.github.io/AdaMARP/#overview

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.