網易首頁 > 網易號 > 正文申請入駐

復旦大學與羅切斯特大學揭示大語言模型社交模擬的脆弱性

2026-06-11 17:09:22　來源: 科技行者

北京舉報

分享至

這項由復旦大學與美國羅切斯特大學聯合開展的研究，發表于2026年6月，論文編號為arXiv:2606.06443，有興趣深入探究的讀者可通過該編號在arXiv平臺查閱完整原文。

**一個令人不安的問題**

每個人都有自己的觀點，比如你可能支持某款新興的人工智能產品，也可能持懷疑態度。現在，如果有人告訴你："我們可以用AI來預測你會怎么說"——你會怎么反應？更進一步，如果這個AI只要稍微改變一下對話的語境，就能讓預測出的"你"完全改變立場，你會作何感想？

這正是這項研究想要揭開的謎題。研究團隊關注的核心問題是：當大語言模型（就是ChatGPT、Claude這類能和你聊天的AI）被用來模擬真實用戶在網絡上的立場時，它模擬出來的究竟是真實的人類觀點，還是對周圍對話環境極度敏感的"變色龍"？

為了回答這個問題，研究團隊設計了一套巧妙的實驗：他們從Reddit（一個熱門的英文社區論壇）收集了真實的對話，讓AI扮演目標用戶來推斷其立場。然后，研究人員悄悄地修改對話中其他人說的話——就像在舞臺劇中偷偷換掉別的演員的臺詞——再看看AI模擬出的"目標用戶立場"會不會隨之改變。結果令人深思：只要稍微改動對話背景，AI模擬出的立場就會發生顯著偏移，有時甚至完全翻轉。

一、為什么要"審計"AI的社交模擬能力

要理解這項研究的價值，先得知道AI社交模擬是什么，以及為什么它越來越重要。

近年來，社會科學研究者們發現了一個新工具：大語言模型。這些AI不僅能寫文章、回答問題，還能被訓練成"扮演"特定人群——比如預測某個Reddit用戶在看到一條新聞后會持什么立場，或者模擬不同政治傾向的人對某個政策的反應。相比傳統的問卷調查，AI模擬成本低、速度快、可以大規模進行，看起來像是社會科學研究的一大利器。

然而，這里藏著一個根本性的疑問：AI到底在模擬什么？當AI預測說"這個用戶持支持態度"時，它是真的捕捉到了這個用戶的內在信念，還是只是在對周圍對話的措辭、語氣、結構做出反應？如果是后者，那AI模擬的可信度就要大打折扣——它不是在描繪真實的人類觀點，而是在描繪一幅隨環境漂移的鏡中幻象。

為了回答這個問題，研究團隊引入了一個叫做"反事實語境修改"的框架。這個詞聽起來復雜，其實邏輯很簡單：給同一個舞臺同一個主角，悄悄換掉配角的臺詞，看主角的"表演"會不會隨之改變。如果主角代表的是穩定的內在信念，臺詞改變了它也不該隨意變心；如果它只是在隨波逐流，那換掉幾句臺詞就能讓它"改換門庭"。

研究團隊聚焦在Reddit上關于三個AI模型家族的討論：DeepSeek、Claude和Llama。這三個話題在技術社區里爭議不斷，有人熱捧，有人質疑，立場分明，非常適合研究"立場模擬"的問題。最終，研究人員收集并處理了1821條真實對話實例，這些對話來自97個不同的子版塊、416個不同的Reddit帖子，涉及851個獨立的"目標用戶"和近3000個參與討論的不同賬號，數據規模相當扎實。

二、實驗是如何設計的：一場精心編排的"戲中戲"

研究團隊把整個實驗分成四個環節，像流水線一樣環環相扣。

第一個環節是建立基準。對于每條對話，研究人員把目標用戶的最后一句話藏起來（用專業術語說叫"遮掩"），然后讓AI僅憑之前的對話語境來推斷這個用戶的立場，分為支持、中立、反對三種。接著，把AI推斷的立場與目標用戶實際說的話對照，看看AI推斷得準不準。結果顯示，AI的推斷準確率達到約77.6%，主要評估指標F1分數為78.1，在三個話題上表現都比較穩定——這說明AI在沒有任何修改的原始語境下，已經能較為合理地模擬用戶立場，具備了基本的可信度，也為后續的"修改實驗"提供了參照基線。

第二個環節是實施修改。研究團隊設計了四種修改策略，用于改寫對話中"其他用戶"說的最后一句話，同時保持話題、對話連貫性和目標用戶本身不變。四種策略分別是：改寫（只改措辭不改內容）、解釋（對原話進行更詳細的說明和澄清）、添加（在原話基礎上增加新的論點來支持目標話題）、以及表情包（用一個與對話相關的網絡梗圖替換文字回復）。前三種都是純文字手段，最后一種則是多模態的——它不僅有文字，還有圖像。

第三個環節是重新模擬。把修改后的對話重新喂給AI，讓它再次推斷目標用戶的立場。這樣，同一個對話就有了"修改前"和"修改后"兩個AI預測結果，可以直接比較。

第四個環節是評估效果。研究團隊用兩個指標來衡量每種修改策略的效果：一是"平均方向性立場偏移"，也就是AI預測的立場整體向支持還是反對方向移動了多少；二是"立場轉換率"，具體追蹤有多少原本持反對立場的預測變成了中立或支持，或者原本中立的變成了支持（這叫"支持性轉換"），以及有多少原本支持的反而變成了反對（這叫"反彈效應"）。

三、修改一句話，AI的"立場"就變了：四種策略的實測效果

實驗結果表明，僅僅改寫措辭而不改變實質內容的"改寫"策略基本上沒什么用——平均方向性偏移只有-4%，幾乎可以忽略不計。這說明AI不是單純對文字的花哨程度敏感，而是對內容和論點本身更敏感。

"解釋"策略稍好一些，平均偏移+17.5%，也就是說讓AI模擬出來的立場整體向"更支持"方向移動了約17.5%。這意味著當其他用戶對自己的觀點做出更詳細、更有條理的闡釋時，AI模擬的目標用戶確實會稍微被"說服"一些。

"添加"策略效果最為顯著，平均偏移高達+44.8%。具體來說，它特別擅長把原本"反對"的預測推向"中立"，平均有4.7%的反對預測因此轉變。這說明，當對話中增加了新的支持性論點，AI在模擬用戶立場時會將這些新信息納入考量，并作出相應調整。

表情包策略的整體平均偏移達到+49.3%，超過了純文字的"添加"策略。不過，表情包的效果模式有所不同——它不像"添加"那樣擅長軟化反對立場，而是特別擅長把中立的預測推向積極支持，平均有17.6%的中立預測因此轉為支持。換句話說，"添加"是個消除對立情緒的高手，而表情包則是個激發熱情的能手。

然而，效果強不代表一切美好。研究人員還觀察到，表情包策略的"反彈效應"也更高——有一部分原本支持或中立的預測，在看到表情包之后反而變得更加反對。這說明表情包是一把雙刃劍：它的感染力強，但方向未必總是可控的。研究團隊因此提醒，評估一種修改策略的好壞，不能只看它能把立場推多遠，還要看它的副作用有多大。

四、表情包的"魔力"究竟從何而來：一項拆解實驗

表情包為何能如此有效地影響AI的立場模擬？研究團隊設計了一組拆解實驗，逐層剝開表情包的影響機制，就像把一個洋蔥層層剝開，看里面藏著什么。

實驗設計了五個變體方案。第一個是完整的表情包方案，即在生成表情包時使用真實的梗圖模板，在模擬立場時也展示完整的梗圖（包含圖像和文字）。第二個是"白背景"方案——同樣用梗圖模板生成文字內容，但在讓AI判斷立場時，把梗圖背后的圖像換成空白白板，只保留文字和版面布局。這樣可以測試：在推斷階段，圖像本身是否提供了額外信息。第三個方案是用"幽默風格指令"替代梗圖模板來生成文字，但立場判斷時仍展示完整梗圖。第四個方案是用"梗圖截圖描述"（即對圖像的文字描述）替代梗圖模板來生成內容，立場判斷時展示完整梗圖。第五個方案則更進一步，在截圖描述基礎上額外提供關于該梗圖的文化背景和常見用法知識，同樣在立場判斷時展示完整梗圖。

從立場轉換率來看，完整表情包方案（五種目標話題平均23.1%）明顯優于"白背景"方案（21.6%）。由于兩者生成的文字內容完全一致，唯一差別就在于圖像是否呈現，這說明圖像本身在推斷階段確實為AI提供了額外的信息線索，并非只是裝飾。

至于生成階段，完整表情包方案同樣優于另外三種只使用文字替代品的方案。即便研究人員提供了對梗圖的詳細文字描述、甚至加上了文化背景知識，效果依然不如直接使用梗圖模板。這說明梗圖所攜帶的信息——包括圖像中的情感表達、視覺框架、隱含態度、文字與圖像之間的位置關系，以及這些元素共同營造的文化氛圍——并不能被文字描述完整復現。

這并不是說圖像天然比文字包含更多信息，而是說：在現有技術條件下，梗圖模板所提供的多模態線索，比研究人員嘗試的各種文字替代手段都更有效。梗圖同時在"生成環節"和"推斷環節"發揮作用，而這兩個環節的協同，才是表情包策略效果突出的根本原因。

五、"添加"與"表情包"：兩種截然不同的影響機制

研究團隊進一步用一個叫做LIWC的語言分析工具，對比分析了"添加"策略和"表情包"策略生成的文本在情感基調上的差異。LIWC中有一個"語調分數"指標，分值從0到100，數值越高代表文本的情感越積極、樂觀、活潑。

原始對話中，用戶評論的語調分數分布呈現出明顯的"兩極化"趨勢——大量評論要么情感偏激烈（分數很高），要么情感偏沉郁（分數很低），中間地帶相對稀少，就像一個啞鈴的形狀。

經過"添加"策略修改之后，這種兩極化明顯被"壓平"了：極高和極低的評論都減少了，中間溫和的評論比例大幅上升。換句話說，"添加"策略通過引入平衡、理性的論點，把對話的情感基調拉向了中庸——這與它擅長軟化反對立場的行為模式完全一致。研究人員進一步分析發現，在"添加"策略下，原本語調低沉（分數不超過50）的評論中有約78-82%在修改后語調升高，而原本語調高昂（分數超過50）的評論中也有約72-82%在修改后語調降低，整體去極化效果非常顯著。

表情包策略則恰恰相反：修改后，情感分布變得更加兩極分化，中間地帶進一步減少，兩端的極端情感比例反而上升。表情包的語調變化方向則接近隨機——它不像"添加"那樣有規律地把情感推向中間，而是把情感推向任意一個極端。這與表情包擅長激發強烈情感、但方向不一定可控的特點高度吻合。

這一發現對于理解AI立場模擬的機制很有意義：不同的修改策略通過截然不同的路徑影響AI的判斷——"添加"走的是理性說服路線，"表情包"走的是情感激活路線，二者效果相近但機制迥異。

六、結論是否只在特定條件下成立：穩健性驗證

一項研究發現如果只在某一個特定模型或特定條件下成立，其價值就要大打折扣。研究團隊為此進行了多維度的穩健性驗證。

在立場模擬模型方面，研究團隊使用了三個不同的AI系統：GPT-5.2、Claude Sonnet-4.6和Qwen3.5-Plus。結果顯示，各修改策略的整體排名在三個模型中基本一致——表情包和"添加"始終是最有效的兩種策略，"改寫"始終效果最弱。不過，不同模型對同一策略的具體響應幅度有所差異，說明修改效果并非完全與模型無關，AI自身的先驗偏好和對話理解方式會影響最終結果。

在文本修改模型方面，研究團隊使用了Gemini和Claude兩種AI來生成修改后的對話，同樣觀察到相似的趨勢，說明修改效果不依賴于特定的生成模型。

在話題層面，研究團隊對原始對話進行了主題聚類，將討論分為"AI模型評測"、"AI輔助軟件開發實踐"、"AI模型訓練成本與效率"、"AI語言模型與意識討論"等多個子話題。結果顯示，"添加"去極化、"表情包"強化極端這一對比規律，在各個子話題中都保持了高度一致性，說明這一發現不是特定話題內容造成的偶然現象。

在提示詞和溫度參數方面，研究團隊測試了不同措辭的任務提示和不同的生成溫度（控制AI輸出隨機性的參數），結果顯示各策略下的立場預測高度一致——準確率通常維持在87%至93%之間，說明實驗結論對這些技術參數的變化具有較強的魯棒性。

在表情包模板方面，研究團隊收集了5種不同風格的表情包模板（來自ImgFlip平臺的熱門梗圖格式），并分別測試了每種模板的效果。結果顯示，不同模板之間的方向性偏移幅度相當接近，說明表情包效果不依賴于某一特定視覺風格。

七、這項研究告訴我們什么：機遇與風險并存

歸根結底，這項研究的核心發現可以用一句話概括：AI在模擬社交媒體用戶立場時，對對話語境的變化相當敏感——改動其他人說的幾句話，就能讓AI模擬出來的"用戶立場"發生顯著偏移，有時甚至完全翻轉。

這既是機遇，也是風險。說是機遇，是因為研究團隊提出的"反事實語境修改"框架，為評估AI社交模擬系統的可靠性提供了一套可操作的工具。研究者在使用AI進行立場推斷或輿情分析之前，可以用類似的測試來檢驗系統的穩定性，更清楚地了解其局限性所在。

說是風險，則是因為這種語境敏感性意味著：AI模擬出的"用戶立場"，可能更多地反映了對話語境的框架方式，而非真實用戶的內在信念。如果研究者把AI模擬的結果等同于真實的人類輿情，就可能得出扭曲的結論。更值得警惕的是，實驗表明通過精心設計的對話修改（無論是文字論點還是表情包），可以系統性地讓AI"模擬"出特定方向的立場偏移——這意味著AI社交模擬工具存在被操控的潛在風險，在涉及公共輿論、政治意見、社會態度等敏感領域時尤為值得關注。

研究團隊也明確指出了這項研究的局限性：目前只研究了Reddit上關于三個AI模型家族的討論，話題和平臺都比較單一。如果能擴展到更廣泛的討論話題和更多元的社交平臺，研究結論將更加全面有力。

這項研究并沒有給出"AI社交模擬不可信"的簡單結論，而是提供了一個更加細膩的觀察視角：AI在這類任務上既有可取之處（基礎準確率尚可），也有明顯的脆弱性（對語境高度敏感）。如何在使用這類工具的同時保持足夠的批判性眼光，是研究者和政策制定者都需要認真對待的問題。感興趣的讀者可以通過arXiv:2606.06443查閱完整原文，進一步了解實驗細節與分析方法。

Q&A

Q1：大語言模型在模擬社交媒體用戶立場時，準確率大概有多高？

A：研究團隊在未作任何修改的原始對話語境下測試了AI的立場推斷能力，結果顯示整體準確率約為77.6%，主要評估指標宏觀F1分數為78.1。在DeepSeek、Claude、Llama三個話題上的表現都比較接近，說明AI已具備基本的立場模擬能力，但并不完美。

Q2：表情包為什么能比純文字更有效地改變AI模擬出的用戶立場？

A：研究發現表情包在兩個環節同時發揮作用：在生成階段，梗圖模板提供了無法被文字描述完整復現的多模態線索，幫助AI生成更有說服力的內容；在推斷階段，梗圖的視覺信息（情感表情、圖文關系、文化框架）為AI判斷立場提供了額外參考。兩個環節協同，使得表情包策略的整體效果超過了純文字的"添加"策略，平均方向性偏移達到+49.3%。

Q3："添加"策略和"表情包"策略在改變立場時有什么不同？

A："添加"策略通過引入平衡、理性的新論點，把對話的情感基調拉向中庸，主要擅長軟化反對立場，使其轉為中立；"表情包"策略則通過激發強烈情感，主要擅長把中立態度推向積極支持，但情感方向不那么可控，反彈效應（原本支持反而變反對）也更明顯。簡單說，前者是"理性勸說"，后者是"情感激活"。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.