網易首頁 > 網易號 > 正文 申請入駐

浙大推出讓AI會「導演」的角色扮演框架!四通道消息沉浸式交互

0
分享至

AdaMARP團隊 投稿
量子位 | 公眾號 QbitAI

AI能實現真正的沉浸式扮演了。

大語言模型在角色扮演任務上進展迅速,但現有系統往往缺乏沉浸感和適應性:

環境信息未被充分建模,場景與角色也多為靜態,難以支撐多角色調度、場景切換、動態引入新人等復雜敘事需求。

現在,浙江大學聯合騰訊優圖實驗室提出AdaMARP(Adaptive Multi-Agent Interaction Framework for General Immersive Role-Playing)——

一種面向通用沉浸式角色扮演的自適應多智能體交互框架。



該框架通過四通道消息格式和場景管理器,讓AI不僅會「說」,還會「想」、會「動」、會「感知環境」,并在復雜敘事中靈活切換場景、動態引入新角色。

目前該工作已被ACL 2026接收。

從跟AI聊天到和角色共處

大語言模型在角色扮演任務上的應用正快速普及:

用戶可以設定任意角色(歷史人物、小說角色、原創人設),與AI進行持續的敘事互動。

理想狀態下,AI應當能夠代入這個角色,在情境中保持人設一致、對環境敏感、對他人話語做出貼合關系的回應。

但現實中,大多數系統更像是會說話的聊天機器人:對話雖流暢,卻缺少情境感和敘事張力。

以探案為例,故事往往在一個固定場景、固定人物之間反復進行,無法四處搜證、無法與不同證人輪番對質、無法讓環境線索真正參與推理,缺乏真正的劇情推進和世界變化。

現有方法缺了環境信號,也缺了“組織者”

研究團隊指出,當前角色扮演系統主要存在兩類局限。

一、沉浸感不足:環境被當成「背景板」

不少工作只建模角色的臺詞(Speech);后來有研究加入了動作(Action)或內心獨白(Thought),但在敘事中,環境并非可有可無的裝飾。

它會塑造氛圍、推動因果,連接角色的行動、世界的變化與后續對話。

例如:案發現場地毯上的蠟痕、煤氣燈照出的陰影角度、證人住所門口未干的泥漬……

這些環境信號既能支撐推理(蠟痕指向婚禮蠟燭,泥漬暗示來客方向),也能成為劇情轉折的契機(換一個場景,就換一批證人和線索)。

若系統不把環境當作與臺詞、動作同等重要的信號來建模,角色就容易像是在一個空房間里自言自語,探案也就失去了「搜證」的實感。

二、互動結構過于靜態:缺一個「會調度的導演」

多數系統假定:場景不變、人物不變、用戶與某個固定角色一問一答。

但探案恰恰需要四處搜證:從案發現場到蘇格蘭場,從房東太太的公寓到嫌疑人的宅邸,每個場景都有不同的環境和證人。

誰來接下一句?是先問管家還是先問馬車夫?何時換場景、何時引入新證人?

現有框架很少系統性地回答這些問題。

沒有這些能力,故事就很難自然地「演下去」,更像是在一個封閉的聊天室里重復對話,而非一場真正的調查。

AdaMARP:四通道消息格式+場景管理器

AdaMARP從兩個方向回應上述問題。

沉浸式消息格式: Thought–Action–Environment–Speech

AdaMARP 為每一輪交互定義了一種四通道交織的消息格式:



這樣,一個完整的回應可以同時包含思考、動作、環境感知和言語,且順序可靈活交織。

例如,福爾摩斯在訊問證人時:<煤氣燈搖曳,證人下意識地瞥向壁爐上的時鐘> [他在回避具體時間,那段時間他不在場](用煙斗輕輕敲了敲桌面)案發當晚八點到九點,您究竟在哪里?

環境線索 → 內心推理 → 施壓動作 → 追問話語,四者形成一條清晰的因果鏈,更貼近真實探案的節奏。

同時,環境不再只是點綴。

案發現場的物證擺放會支撐角色的推理鏈條;證人住所的布置(凌亂的書桌、未拆的信件)可以暗示性格與行蹤;場景切換則自然引入新的證人與線索。

環境既參與氛圍營造,也參與推理與敘事的因果。

自適應框架:三智能體+場景管理器的五種動作

AdaMARP將角色扮演建模為三個智能體的協作:

  • Actor模型:扮演所有非用戶角色;
  • User模型:代表用戶方(可由 LLM 模擬或真人替代);
  • 場景管理器(Scene Manager):負責高層調度與控制。

場景管理器通過一組離散動作來驅動整場「演出」:

  • init_scene:初始化場景(如:貝克街 221B,或某起兇案現場);
  • pick_speaker:選擇下一句由誰來說——是福爾摩斯追問、華生補充,還是證人陳述?并給出理由;
  • switch_scene:切換場景(從案發現場到證人公寓,從蘇格蘭場到嫌疑人宅?。?;
  • add_role:在敘事中動態引入新角色(新發現的證人、突然登門的訪客,含人設與動機);
  • end:結束本場互動。

每一步決策都會輸出對應的理由,使調度過程可解釋、可約束。這樣,系統既能決定「誰來接話」,也能決定「何時換場景搜證」「何時引入新證人」,從而支持更復雜、更開放的多角色探案敘事。



上述設計在實踐中如何運轉?不妨看一段福爾摩斯探案敘事的拆解。

各環節均由場景管理器調度,需要注意的是本案例僅僅用于理解,省略了部分細節例如詳細的角色檔案、角色動機場景管理器的原始輸出等

完整示例:探案敘事中的AdaMARP

角色:福爾摩斯、華生。

初始場景:倫敦東區某寓所三層,案發后的深夜。厚重的窗簾半掩,煤氣燈在風中搖曳,在墻面上投下晃動的影子。壁爐已熄,余燼旁的地毯上有一小塊凝固的蠟痕,不遠處散落著幾根燒盡的火柴。福爾摩斯與華生立于現場中央,窗外隱約傳來泰晤士河上的汽笛聲。

場景管理器

  • 選擇的動作為:pick_speaker(speaker: 福爾摩斯)
  • 理由:偵探應先勘察現場并給出初步推理

福爾摩斯:<煤氣燈昏黃,蠟痕在陰影中隱約可見> [燭淚的位置和形狀……婚禮蠟燭,而且是左手持燭](蹲下身捻起碎屑嗅了嗅,站起身)華生,去查查最近三個月內舉辦過婚禮、且家中有人左撇子的家庭。

場景管理器

  • 選擇的動作為:pick_speaker(speaker: 華生)
    理由:福爾摩斯已下達指令,助手應領命執行

華生:(點點頭)明白(推門而出)<走廊里傳來漸遠的腳步聲,隨后是馬車駛離的聲響>

場景管理器

  • 選擇的動作為:switch_scene
  • 理由:華生已前往調查,需切換至下一個搜證地點——案發地鄰居的住所
  • 新場景:白教堂附近一棟老式公寓,房東太太的住處。狹窄的木樓梯吱呀作響,扶手蒙著一層油膩。二樓的走廊昏暗,燉菜的氣味從盡頭的廚房飄來。門廳狹小,壁爐上擺著一只廉價的瓷鐘,墻角堆著未拆的信件。

場景管理器

  • 選擇的動作為:add_role(new_role: 房東太太,案發現場的鄰居,這棟公寓的房東)
  • 理由:作為案發地鄰居,可能掌握關鍵證詞,需引入訊問

場景管理器

  • 選擇的動作為:pick_speaker(speaker: 福爾摩斯)
  • 理由:訊問應由偵探主導開場

福爾摩斯:(摘下禮帽,微微頷首)夫人,案發當晚八點到九點,您是否聽見三樓有任何異常聲響?

場景管理器

  • 選擇的動作為:pick_speaker(speaker: 房東太太)
  • 理由:需聽取證人對時間線的陳述。

房東太太:<下意識地瞥向壁爐上的時鐘>

場景管理器

  • 選擇的動作為:pick_speaker(speaker: 福爾摩斯)
  • 理由:證人出現回避跡象,應繼續追問施壓

福爾摩斯:[她在回避具體時間](用煙斗輕輕敲了敲桌面)那段時間,您究竟在哪里?

場景管理器

  • 選擇的動作為:pick_speaker(speaker: 房東太太)
  • 理由:給證人回答的機會

房東太太:(咬了咬嘴唇,正要開口——)

場景管理器

  • 選擇的動作為:add_role(new_role: 雷斯垂德探長)
  • 理由:新證人線索出現,探長需匯報調查進展

場景管理器

  • 選擇的動作為:pick_speaker(speaker: 雷斯垂德)
  • 理由:探長帶來新線索,應由其先行說明。

雷斯垂德:福爾摩斯先生,我們發現了新的證人,馬車夫說他當晚載過一名黑衣男子……
……

初始場景、發言調度、場景切換、角色引入均由場景管理器驅動,且每步均以「選擇的動作為:Action_name | 理由:Reason」的形式可解釋。

這種結構化、多通道、多場景、多角色的連貫敘事,恰恰是AdaMARP旨在支撐的探案節奏。

訓練數據:從文學提取+從主題合成

為訓練上述能力,研究團隊構建了兩個數據集,分別面向Actor模型和場景管理器。

AdaRPSet:讓角色「會演」

AdaRPSet面向Actor模型,由兩個互補子集構成:

AdaRPSet-Extracted(文學提取)

從Goodreads「最佳書籍」榜單選取81本代表性文學作品,經三階段管道構建:

(1) 分塊:按章節切分并合并為合適長度的文本塊;

(2) LLM提?。鹤R別連貫場景與多角色互動軌跡,將對話直接轉化為統一的Thought–Action–Environment–Speech 格式,嚴格區分角色動作與環境信號;

(3) 角色畫像生成:按角色聚合全書證據,合成七維畫像(身份與外貌、性格與心理、說話風格、能力興趣、社會背景、個人經歷、人際關系)。

每條軌跡采用多視角增強:同一場景下,輪流指定不同角色為主角,其余為NPC,從而擴展訓練樣本。

提取數據天然具有文學質感與人味,適合學習格式規范與基礎演繹能力。

AdaRPSet-Synthesis(主題合成)

文學提取的軌跡多為單場景、角色固定的互動,對場景切換與動態引入新角色的覆蓋不足。

研究團隊因此構建合成數據:在20類主題(冒險、探索、探案、解謎、密謀、營救、逃亡、戰斗、浪漫、友誼、競爭、背叛、和解、談判、策略、魔法、末世等)下,由LLM生成情節級軌跡。

每條軌跡明確包含:初始情境、主控角色與多個輔助角色、多輪對話(統一格式),以及場景管理器的控制消息(如 switch_scene、add_role)。

每條軌跡至少包含一次場景切換和一次角色引入,用以強化模型對動態敘事的適應能力。

合成數據與提取數據在訓練時合并,使Actor模型既能學格式與人味,又能學動態調度下的演繹。

關于兩個互補子集對應的細節信息如下表所示。

其中Plots指的是初始情節片段(包含初始場景和初始角色)的數量,Roles指的是不重復的角色數量,Convs指的是指的是完整的角色扮演記錄(初始情節片段和衍生的不同對話軌跡)的數量,Utterances指的是所有角色扮演記錄中對話的數量,Avg. Turns 指的是每個角色扮演記錄的平均對話數量。



AdaSMSet:讓系統「會導」

AdaSMSet面向場景管理器,在AdaRPSet-Synthesis的基礎上構建。

合成軌跡已包含init_scene、switch_scene、add_role、end等控制動作,但缺少最核心的發言者選擇監督。

研究團隊在每兩段角色發言之間插入 pick_speaker 動作,由強指令遵循模型為每次選擇生成自然語言理由(reason),并約束理由需具體、上下文相關,避免套路化表述。

AdaSMSet因而覆蓋場景管理器的全部五類動作,為「何時換場景」「何時加人」「誰來接下一句」及對應理由提供端到端監督。

由于AdaSMSet源于AdaRPSet-Synthesis,因此對應的Plots、Roles和Convs的統計信息與其一致,由于添加了pick_speaker記錄,因此最終的Utterances數量為496493,Avg.Turns為50.15。

兩者的互補

AdaRPSet與AdaSMSet共同支撐AdaMARP:前者讓角色「會演」(保持人設、響應環境、推進劇情),后者讓系統「會導」(合理切換場景、引入角色、安排發言順序)。

二者共享統一的角色畫像與消息格式,確保Actor與場景管理器在同一敘事框架下協同工作。



AdaptiveBench:為什么還要自建評測?

有了訓練數據和框架,還需要回答一個關鍵問題:

怎樣評估「沉浸式、可適應」的角色扮演是否真的做得好?

現有很多評測更偏向「一句話好不好」或「單輪對話像不像這個人設」,難以覆蓋AdaMARP所關心的幾點:

  • 整段故事,而不是單句回復:真實體驗來自整條對話軌跡是否連貫、有張力,而非某一句是否優雅。
  • 環境與動作是否被真正用起來:環境線索有沒有參與推理和敘事,動作是否和內心、臺詞呼應。
  • 多角色與場景切換是否自然:場景管理器有沒有「帶好這場戲」,包括什么時候換場景、什么時候加新角色、誰來接下一句。

為此,研究團隊提出了AdaptiveBench:一個面向自適應角色扮演的仿真評測框架。

它從AdaRPSet-Synthesis的保留子集中選取劇情種子(20個話題,每個話題5個初始Plots,總共100個評估樣本),在每個種子上同時運行三方角色:

  • 用戶模型(可以是真人或LLM Agent)
  • 作為「演員」的Actor模型
  • 負責調度的場景管理器

在每個種子上,場景管理器連續發出若干輪pick_speaker、switch_scene、add_role動作,驅動Actor與用戶側完成一整段多輪對話。完整軌跡生成后,再由評估模型從軌跡級別給出多維評分。

具體而言,AdaptiveBench主要從軌跡級別(Trajectory-level)評估模型,評分包含以下維度:

一、針對Actor模型的五大維度:

  1. 角色一致性(Character Consistency):角色內心、動作、臺詞是否自洽?說話風格、身份背景、核心動機是否在整場戲中保持一致?
  2. 環境基礎(Environmental Grounding):角色是否對環境有感知(如記住地毯上的蠟痕),并利用環境線索做出行動,而不是將環境當成死物?
  3. 人際互動(Interpersonal Interaction):能否聽懂他人的話外音,并根據人物關系(如偵探對證人、偵探對助手)做出貼切的互動響應?
  4. 敘事推進(Narrative Progression):每一次發言是否提供了新信息、新動作或情緒發展,推動故事向前走,而不是原地打轉?
  5. 指令遵循(Instruction Compliance):是否嚴格遵守了四通道格式要求,不越俎代庖替其他角色或系統說話?

二、針對場景管理器(Scene Manager)的四大維度:

  1. 場景理解(Scene Understanding):能否正確跟蹤當前場景的進展,判斷何時該切換到下一個場景(比如搜證結束,轉往證人公寓)?
  2. 發言紀律(Speaker Discipline):能否合理安排輪次?是否讓所有人在恰當的時機說話,不冷落用戶,也不讓NPC連續霸麥?
  3. 角色引入判斷(Role Introduction Judgment):何時需要引入新角色?引入的時機和理由是否能推動劇情?
  4. 整體評價(Overall Assessment):這三個維度的配合是否流暢,整場「戲」的導演節奏感好不好?

通過 AdaptiveBench,AdaMARP 不只是「有一個好看的框架設計」,而是可以在統一的仿真環境下,對不同模型、不同訓練方式的優劣進行可重復、可量化的比較。

從敘事邏輯與情境交互能力來看,AdaMARP能夠產出更連貫的內心—行為—言語鏈,更好地利用環境推動敘事(例如探案中的物證與場景線索),并在多角色、多場景的復雜情境中實現靈活調度(例如切換場景搜證、與不同證人輪番對質)。

這為無論是探案推理、冒險敘事還是其他需要情境與調度的互動的更沉浸式的AI角色扮演提供了一個新的技術路徑。

項目主頁:
https://xuzhenhua55.github.io/AdaMARP/#overview

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

拳擊時空
2026-04-16 06:04:48
水土不服!曼城6000萬“災星”或轉投米蘭!曼聯“強追”頂級中場

水土不服!曼城6000萬“災星”或轉投米蘭!曼聯“強追”頂級中場

頭狼追球
2026-05-10 13:54:26
山東大師王興夫被抓捕歸案,99名女徒弟揭露內幕,真相讓人意外

山東大師王興夫被抓捕歸案,99名女徒弟揭露內幕,真相讓人意外

詭譎怪談
2025-03-25 17:25:18
為了“掏空”老百姓家底,而編造出來的“4大謊言”,誰信誰倒霉

為了“掏空”老百姓家底,而編造出來的“4大謊言”,誰信誰倒霉

平說財經
2026-02-18 08:38:03
無人機飛行審批太難通過,個人娛飛直接秒拒

無人機飛行審批太難通過,個人娛飛直接秒拒

番外行
2026-05-04 14:37:58
時長超三小時的6部史詩級電影,全程無尿點,看完直接封神

時長超三小時的6部史詩級電影,全程無尿點,看完直接封神

小微看電影
2026-04-21 14:15:03
58年毛主席和劉亞樓的會談不歡而散,劉亞樓連忙求助周總理和羅帥

58年毛主席和劉亞樓的會談不歡而散,劉亞樓連忙求助周總理和羅帥

歷史龍元閣
2026-05-09 14:25:10
寶馬車提回不久,安徽男子打開引擎蓋里面竟有一窩貓!4S店:交付前檢測洗車均未發現異常,愿提供檢查與關懷補償,不符合退車或換車的標準

寶馬車提回不久,安徽男子打開引擎蓋里面竟有一窩貓!4S店:交付前檢測洗車均未發現異常,愿提供檢查與關懷補償,不符合退車或換車的標準

臺州交通廣播
2026-05-09 14:21:44
評分9.1,票房超3億,比《飛馳人生3》賺錢,這才是年度最大黑馬

評分9.1,票房超3億,比《飛馳人生3》賺錢,這才是年度最大黑馬

影視高原說
2026-05-09 15:03:48
胖過一次,免疫系統竟“銘記”5-10年?最新研究:體重反彈的根源藏在T細胞的DNA中,減重后促炎狀態長期不退,運動和用藥都救不了

胖過一次,免疫系統竟“銘記”5-10年?最新研究:體重反彈的根源藏在T細胞的DNA中,減重后促炎狀態長期不退,運動和用藥都救不了

梅斯醫學
2026-05-10 07:54:40
伊總統和議長聯合要求外長阿拉格奇辭職,因其沒有聽命于最高領袖

伊總統和議長聯合要求外長阿拉格奇辭職,因其沒有聽命于最高領袖

元芳有看法
2026-05-09 20:01:10
《教父》柯里昂臨終前的頓悟:男人可以囂張,可以蠻橫,可以得罪權貴,唯獨這兩類人,碰了就是給自己種下禍端

《教父》柯里昂臨終前的頓悟:男人可以囂張,可以蠻橫,可以得罪權貴,唯獨這兩類人,碰了就是給自己種下禍端

心理觀察局
2026-05-08 09:32:04
比亞迪7款新車將上市,續航全曝光!

比亞迪7款新車將上市,續航全曝光!

新浪財經
2026-05-10 17:05:33
今天,莞城這棟20年“釘子戶”,正式開拆!

今天,莞城這棟20年“釘子戶”,正式開拆!

東莞紀實
2026-05-10 17:30:00
即將成為世界首富的中國男人

即將成為世界首富的中國男人

哲空空
2026-05-10 10:56:14
一圖看懂|美國解密UFO的79年歷程

一圖看懂|美國解密UFO的79年歷程

澎湃新聞
2026-05-10 07:18:27
油價突變!5月11日柴油汽油最新價格表,將迎新一輪國內油價下調

油價突變!5月11日柴油汽油最新價格表,將迎新一輪國內油價下調

有料財經
2026-05-10 23:41:05
買大米時,“長粒米”和“圓粒米”有啥區別?網友:看完漲知識了

買大米時,“長粒米”和“圓粒米”有啥區別?網友:看完漲知識了

思思夜話
2026-05-10 10:55:26
A股:人民日報權威發文,這類股迎爆發窗口!下周或將迎更大轉變

A股:人民日報權威發文,這類股迎爆發窗口!下周或將迎更大轉變

云鵬敘事
2026-05-11 00:00:14
這條新聞在今天看來,諷刺至極!

這條新聞在今天看來,諷刺至極!

胖胖說他不胖
2026-04-27 09:00:43
2026-05-11 02:56:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12599文章數 176461關注度
往期回顧 全部

科技要聞

DeepSeek融資,改寫所有人的估值

頭條要聞

兒子車禍受傷生存希望不足0.1% 母親請中醫熬"還魂湯"

頭條要聞

兒子車禍受傷生存希望不足0.1% 母親請中醫熬"還魂湯"

體育要聞

那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

娛樂要聞

趙露思老實人豁出去了 沒舞蹈天賦硬跳

財經要聞

白酒大逃殺

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

游戲
房產
時尚
親子
藝術

LPL第二賽段:拒絕讓一追二!JDG三局戰勝AL,挺進前三

房產要聞

低價甩賣!??谶@個地標商業,無人接盤!

真愛大牌|| 用了4年都不舍得換,終于把小貴的價格也磨下來了

親子要聞

寶媽就兒子割包皮跟寶爸吵了八百回,網友說:割了能更持久?

藝術要聞

這些美人體攝影,簡直美得讓人窒息!

無障礙瀏覽 進入關懷版