網易首頁 > 網易號 > 正文 申請入駐

社會模擬邁入可控、可量化時代:為AI Agent加上「認知滑條」

0
分享至



用大模型做社會模擬,你能保證換個模型, Agent 還會做出一樣的決策嗎?在 LLM-based 社會模擬中,研究者通常用一段自然語言描述來定義 Agent 的行為,例如「John Lin 是一個社區藥店老板,他熱心助人……」。這種基于人設的 Agent 定義方式已被廣泛采用,幾乎成為社會模擬領域的標準范式。然而:這些描述究竟是在「定義 Agent 」,還是只是提供了一種松散且無法穩定復現的行為暗示?

UCSD 團隊在 CHI 2026 Best Paper 論文CoBRA (眼鏡蛇)中提出了一套可量化、可驗證、可復現的 Agent 控制框架。它將經典社會科學實驗轉化為可復用的校準環境,使 Agent 行為可被測量、反饋與收斂,建立類似實驗科學的變量控制機制,并在輸入、激活與參數空間實現定量化控制。

CoBRA 標志著AI 社會模擬從經驗式敘述走向可控、可復現的實驗科學范式。


視頻鏈接:https://mp.weixin.qq.com/s/FJULL6lcvqIFE4NaCEOx7w

  • 論文標題:CoBRA: Programming Cognitive Bias in Social Agents Using Classic Social Science Experiments
  • 論文鏈接:https://arxiv.org/abs/2509.13588
  • 代碼鏈接:https://github.com/AISmithLab/CoBRA
  • 項目主頁:https://cobra.clawder.ai

自然語言人設的可控性困境

研究者首先做了一組先導實驗。他們用經典社會科學實驗——亞洲疾病問題——來測試 Agent 的框架效應。這是行為決策研究中的經典范式:當同一個結果被描述為「 200 人被救活」或「 400 人將死亡」時,人類會系統性地改變決策偏好。

他們設計了三種 Agent 人設——經濟學家、普通人和空白(無描述)——并在 Mistral 7B 、 Gemma2 9B 、 GPT-4o Mini 、 DeepSeek-v3 四個模型上進行了測試。

結果令人反思:

  • 同一描述,不同模型,行為完全不同。結果顯示所有條件下跨模型行為差異顯著。例如, Mistral 7B 的回答嚴重偏向正面框架,而 Gemma2 9B 的回答接近中性。
  • 隱式描述無法可靠地產生預期行為。社會科學研究表明,經濟學專家往往比普通人更不容易受到框架效應的影響。但四個模型中,只有 GPT-4o 的結果勉強符合這一預期; DeepSeek 中經濟學家反而比普通人更容易受影響; Mistral 三種人設幾乎沒有區別。

一句話總結:用自然語言給 Agent 寫人設,在科學意義上是不可控的、不可復現的。

CoBRA:用經典實驗為 Agent 行為「標定刻度」



圖:CoBRA 工作流

CoBRA 的核心思路出奇地優雅:把經過幾十年驗證的經典社會科學實驗當作 Agent 的「考試」,測完再調,調到達標。

例如,我們希望精確指定一個 Agent 受到「框架效應」這種認知偏差的影響程度,就可以讓它參加經典的「亞洲疾病問題」等實驗,測量其決策差異,將這種差異量化為偏差指數,并根據目標水平調節控制系數,再次測量,直至其偏差程度達到預設值。

CoBRA 以「認知偏差」作為試點。認知偏差不同于抽象的價值觀或道德判斷,它具有明確的實驗定義、可計算的行為指標以及可驗證的干預路徑,因此更適合作為構建可量化調節的工程起點。

具體來說, CoBRA 包含兩個核心組件:

1. 認知偏差指數——量化 Agent 的偏差程度

CoBRA 的認知偏差指數建立在經典社會科學實驗范式之上,系統性地覆蓋四類具有代表性的認知偏差(權威效應、從眾效應、確認偏差與框架效應),每類偏差均對應兩種經典實驗范式,用于交叉校準與驗證。 Agent 在這些實驗中的表現被量化為一個 0-4 的連續分數。同一偏差類型的兩個范式相互驗證——在一個范式上校準的控制系數,在另一個范式上也應產生一致的效果。

2. 行為調節引擎——從三個層次調控 Agent

行為調節引擎覆蓋 LLM 的三個基本干預空間:

輸入空間(Prompt Numerical Control):用數值化指令(如「你的權威偏差程度是 65% 」)替代模糊的定性描述,無需訓練。該方法適用于所有模型。

激活空間(Representation Engineering):通過三組對比樣本(偏差正例 / 中性 / 反例),提取出干凈的偏差方向向量,并與安全拒絕信號分離,在推理時注入隱藏狀態。注入方式有兩種: Linear Control 像是均勻放大或減弱偏差強度,表達范圍更廣; Projection Control 則根據當前語境自適應調節,控制曲線更平滑穩定。該方法適用于開源模型。

參數空間(Fine-tuning with Task Vectors):分別訓練一個「有偏差」和「無偏差」的 LoRA ,然后用 task vector 差值作為控制信號,通過控制系數精確調節。

每種方法都通過一個控制系數與認知偏差指數形成閉環: CoBRA 自動掃描控制系數,測量 Agent 在實驗中的表現,直到達到目標指數。

跨模型一致性與魯棒性驗證

論文在多類開源與閉源系統上開展系統評測,驗證了 CoBRA 的跨模型、跨推理模式與跨場景穩定性:其顯著降低行為方差,在 0.1–1.0 溫度區間內保持統計等價,并在不同推理模式下呈現高度一致的控制曲線。

在此基礎上,作者進一步從單調性、平滑度、表達范圍與泛化性四個維度系統評估其可控性。結果顯示,激活空間的控制在單調性與平滑度上表現最佳,輸入空間控制則提供更大的表達范圍。同時,控制系數可在不同實驗范式間遷移,并在不同人設設定下保持高度一致,展現出良好的泛化能力。

開放任務驗證

論文進一步模擬了經典的情緒傳染場景,以展示 CoBRA 的實際應用價值。在實驗中, Agent 瀏覽包含不同比例負面帖子的社交媒體信息流,隨后生成新的內容。研究者通過分析其生成文本的情緒變化,衡量情緒傳染的強度。

基線方法僅通過自然語言描述調節偏差強度,結果顯示不同偏差等級的 Agent 情緒傳染曲線幾乎完全重疊,難以有效區分。相比之下, CoBRA 呈現出清晰的劑量——響應關系:從眾效應認知偏差指數越高, Agent 表現出的情緒傳染程度也越強,不同等級之間具有明確且穩定的區分度。

該情緒傳染實驗基于開放式任務,體現出 CoBRA 明確的實際應用價值。

從「像那么回事」到「可控和可復現」

這項工作的意義,可以概括為從「看起來像那么回事」到「可控、可復現的科學研究」的跨越。過去的 LLM 社會模擬依賴自然語言人設來塑造行為,直觀卻缺乏穩定的控制結構。 CoBRA 將經典社會科學實驗轉化為可復用的校準環境,使 Agent 行為能夠被持續測量與調節,從而建立起類似實驗科學的變量控制機制。

CoBRA 讓 Agent 擁有清晰的刻度與調節旋鈕。當 Agent 行為可以被標定和收斂,社會模擬也就真正進入了可復現的工程階段。

作者信息

劉萱:加州大學圣地亞哥分校(UCSD)博士生, 2025 年本科畢業于香港理工大學。研究方向聚焦人工智能與人機交互,關注 AI 系統的類人認知與社會智能機制,構建面向科學研究的 AI 工具,以及其隱私與安全問題。個人主頁:https://xuanl17.github.io/

商昊暘:獨立學者, 2025 年本科畢業于上海交通大學,將于 2026 年秋季加入英屬哥倫比亞大學(UBC)深造。

金浩健:加州大學圣地亞哥分校(UCSD)助理教授,博士畢業于卡內基梅隆大學人機交互研究所(CMU HCII),本科就讀于華中科技大學。研究方向涵蓋人機交互、隱私與安全及人本系統設計。個人主頁:https://www.haojianj.in/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
姐姐50歲滿頭白發,堅持每天一碗蒸蛋,半年后黑發悄悄長出來了

姐姐50歲滿頭白發,堅持每天一碗蒸蛋,半年后黑發悄悄長出來了

荒野老五
2026-04-01 20:39:21
樹倒猢猻散!武亮直播哭紅眼眶,20余天的人事動蕩,讓他心力憔悴

樹倒猢猻散!武亮直播哭紅眼眶,20余天的人事動蕩,讓他心力憔悴

火山詩話
2026-04-20 06:31:57
觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

番外行
2026-04-24 08:59:12
沈夢辰自曝在家和坐車都要做防曬,起床就會擦,稱已和自己的黑和解,“一個黃黑皮,怎么也不可能變成一個冷白皮”

沈夢辰自曝在家和坐車都要做防曬,起床就會擦,稱已和自己的黑和解,“一個黃黑皮,怎么也不可能變成一個冷白皮”

臺州交通廣播
2026-04-24 12:15:29
“農村太子爺含金量堪比兩斤雞屎!”6個姐姐給弟弟征婚,被群嘲

“農村太子爺含金量堪比兩斤雞屎!”6個姐姐給弟弟征婚,被群嘲

番外行
2026-04-24 08:51:53
你最接近生理極限的一次經歷是什么?網友分享讓人目瞪口呆!

你最接近生理極限的一次經歷是什么?網友分享讓人目瞪口呆!

夜深愛雜談
2026-04-09 19:39:13
廣東隊麻煩了,季后賽前突收壞消息,奪冠沒戲了

廣東隊麻煩了,季后賽前突收壞消息,奪冠沒戲了

宗介說體育
2026-04-24 16:04:50
拳打特斯拉,腳踢豐田!國產保姆車殺瘋了,拿捏一眾中產富豪

拳打特斯拉,腳踢豐田!國產保姆車殺瘋了,拿捏一眾中產富豪

品牌觀察官
2026-04-22 16:59:59
從拜登曲線到弗吉尼亞公投逆轉:民主黨這次注定栽了

從拜登曲線到弗吉尼亞公投逆轉:民主黨這次注定栽了

斌聞天下
2026-04-24 07:10:03
官宣退出G3和G4!今年冠軍,麻煩了…

官宣退出G3和G4!今年冠軍,麻煩了…

左右為籃
2026-04-23 21:34:07
吳法憲出獄后,安置在濟南,同時告訴他有四個安排

吳法憲出獄后,安置在濟南,同時告訴他有四個安排

歷史甄有趣
2026-04-24 07:25:10
看完這7件事,我終于懂了:中國足球的離譜,早就超出了人類認知

看完這7件事,我終于懂了:中國足球的離譜,早就超出了人類認知

圣西羅的太陽
2026-04-23 13:24:10
奧納納點球大戰撲出3球,特拉布宗主席:我們希望他能留下來

奧納納點球大戰撲出3球,特拉布宗主席:我們希望他能留下來

懂球帝
2026-04-24 09:16:18
如何通過霍爾木茲海峽:四步走,拒美元

如何通過霍爾木茲海峽:四步走,拒美元

紅星新聞
2026-04-24 17:16:05
福建永安這個男保安,扇了不能扇的人…

福建永安這個男保安,扇了不能扇的人…

媒體人溪婉
2026-04-24 13:50:51
前廚師:C羅的飲食很均衡且不喝牛奶,因為這違背自然規律

前廚師:C羅的飲食很均衡且不喝牛奶,因為這違背自然規律

懂球帝
2026-04-23 23:43:03
審判結果出爐,81歲杜特爾特輸了,莎拉再遭彈劾,只有他逃過一劫

審判結果出爐,81歲杜特爾特輸了,莎拉再遭彈劾,只有他逃過一劫

有范又有料
2026-04-24 17:10:50
正式確定!開拓者中鋒加盟深圳男籃,攜手賀希寧,沖擊總冠軍

正式確定!開拓者中鋒加盟深圳男籃,攜手賀希寧,沖擊總冠軍

體壇瞎白話
2026-04-24 09:22:57
如果在家突發心梗,黃金6分鐘自救法,快了解,關鍵時刻可自救

如果在家突發心梗,黃金6分鐘自救法,快了解,關鍵時刻可自救

健康科普365
2026-01-20 16:05:03
武漢大爺公交插隊被撞致死,家屬起訴乘客和公交公司,法院判了

武漢大爺公交插隊被撞致死,家屬起訴乘客和公交公司,法院判了

奇思妙想草葉君
2026-04-24 00:26:53
2026-04-24 18:07:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12850文章數 142635關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

媒體:伊朗將恢復往返中國航班 霍爾木茲決戰或收兵了

頭條要聞

媒體:伊朗將恢復往返中國航班 霍爾木茲決戰或收兵了

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

健康
教育
藝術
時尚
公開課

干細胞如何讓燒燙傷皮膚"再生"?

教育要聞

山東省“書香校園”聯盟成立

藝術要聞

趙孟頫僅存的《金剛經》真跡,曾被臺北故宮“秘藏”多年,800年來無人超越!

水晶專場 || 一眼就淪陷的絕美水晶,百元級的快樂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版