![]()
這項由復旦大學與美國羅切斯特大學聯合開展的研究,發表于2026年6月,論文編號為arXiv:2606.06443,有興趣深入探究的讀者可通過該編號在arXiv平臺查閱完整原文。
**一個令人不安的問題**
每個人都有自己的觀點,比如你可能支持某款新興的人工智能產品,也可能持懷疑態度。現在,如果有人告訴你:"我們可以用AI來預測你會怎么說"——你會怎么反應?更進一步,如果這個AI只要稍微改變一下對話的語境,就能讓預測出的"你"完全改變立場,你會作何感想?
這正是這項研究想要揭開的謎題。研究團隊關注的核心問題是:當大語言模型(就是ChatGPT、Claude這類能和你聊天的AI)被用來模擬真實用戶在網絡上的立場時,它模擬出來的究竟是真實的人類觀點,還是對周圍對話環境極度敏感的"變色龍"?
為了回答這個問題,研究團隊設計了一套巧妙的實驗:他們從Reddit(一個熱門的英文社區論壇)收集了真實的對話,讓AI扮演目標用戶來推斷其立場。然后,研究人員悄悄地修改對話中其他人說的話——就像在舞臺劇中偷偷換掉別的演員的臺詞——再看看AI模擬出的"目標用戶立場"會不會隨之改變。結果令人深思:只要稍微改動對話背景,AI模擬出的立場就會發生顯著偏移,有時甚至完全翻轉。
一、為什么要"審計"AI的社交模擬能力
要理解這項研究的價值,先得知道AI社交模擬是什么,以及為什么它越來越重要。
近年來,社會科學研究者們發現了一個新工具:大語言模型。這些AI不僅能寫文章、回答問題,還能被訓練成"扮演"特定人群——比如預測某個Reddit用戶在看到一條新聞后會持什么立場,或者模擬不同政治傾向的人對某個政策的反應。相比傳統的問卷調查,AI模擬成本低、速度快、可以大規模進行,看起來像是社會科學研究的一大利器。
然而,這里藏著一個根本性的疑問:AI到底在模擬什么?當AI預測說"這個用戶持支持態度"時,它是真的捕捉到了這個用戶的內在信念,還是只是在對周圍對話的措辭、語氣、結構做出反應?如果是后者,那AI模擬的可信度就要大打折扣——它不是在描繪真實的人類觀點,而是在描繪一幅隨環境漂移的鏡中幻象。
為了回答這個問題,研究團隊引入了一個叫做"反事實語境修改"的框架。這個詞聽起來復雜,其實邏輯很簡單:給同一個舞臺同一個主角,悄悄換掉配角的臺詞,看主角的"表演"會不會隨之改變。如果主角代表的是穩定的內在信念,臺詞改變了它也不該隨意變心;如果它只是在隨波逐流,那換掉幾句臺詞就能讓它"改換門庭"。
研究團隊聚焦在Reddit上關于三個AI模型家族的討論:DeepSeek、Claude和Llama。這三個話題在技術社區里爭議不斷,有人熱捧,有人質疑,立場分明,非常適合研究"立場模擬"的問題。最終,研究人員收集并處理了1821條真實對話實例,這些對話來自97個不同的子版塊、416個不同的Reddit帖子,涉及851個獨立的"目標用戶"和近3000個參與討論的不同賬號,數據規模相當扎實。
二、實驗是如何設計的:一場精心編排的"戲中戲"
研究團隊把整個實驗分成四個環節,像流水線一樣環環相扣。
第一個環節是建立基準。對于每條對話,研究人員把目標用戶的最后一句話藏起來(用專業術語說叫"遮掩"),然后讓AI僅憑之前的對話語境來推斷這個用戶的立場,分為支持、中立、反對三種。接著,把AI推斷的立場與目標用戶實際說的話對照,看看AI推斷得準不準。結果顯示,AI的推斷準確率達到約77.6%,主要評估指標F1分數為78.1,在三個話題上表現都比較穩定——這說明AI在沒有任何修改的原始語境下,已經能較為合理地模擬用戶立場,具備了基本的可信度,也為后續的"修改實驗"提供了參照基線。
第二個環節是實施修改。研究團隊設計了四種修改策略,用于改寫對話中"其他用戶"說的最后一句話,同時保持話題、對話連貫性和目標用戶本身不變。四種策略分別是:改寫(只改措辭不改內容)、解釋(對原話進行更詳細的說明和澄清)、添加(在原話基礎上增加新的論點來支持目標話題)、以及表情包(用一個與對話相關的網絡梗圖替換文字回復)。前三種都是純文字手段,最后一種則是多模態的——它不僅有文字,還有圖像。
第三個環節是重新模擬。把修改后的對話重新喂給AI,讓它再次推斷目標用戶的立場。這樣,同一個對話就有了"修改前"和"修改后"兩個AI預測結果,可以直接比較。
第四個環節是評估效果。研究團隊用兩個指標來衡量每種修改策略的效果:一是"平均方向性立場偏移",也就是AI預測的立場整體向支持還是反對方向移動了多少;二是"立場轉換率",具體追蹤有多少原本持反對立場的預測變成了中立或支持,或者原本中立的變成了支持(這叫"支持性轉換"),以及有多少原本支持的反而變成了反對(這叫"反彈效應")。
三、修改一句話,AI的"立場"就變了:四種策略的實測效果
實驗結果表明,僅僅改寫措辭而不改變實質內容的"改寫"策略基本上沒什么用——平均方向性偏移只有-4%,幾乎可以忽略不計。這說明AI不是單純對文字的花哨程度敏感,而是對內容和論點本身更敏感。
"解釋"策略稍好一些,平均偏移+17.5%,也就是說讓AI模擬出來的立場整體向"更支持"方向移動了約17.5%。這意味著當其他用戶對自己的觀點做出更詳細、更有條理的闡釋時,AI模擬的目標用戶確實會稍微被"說服"一些。
"添加"策略效果最為顯著,平均偏移高達+44.8%。具體來說,它特別擅長把原本"反對"的預測推向"中立",平均有4.7%的反對預測因此轉變。這說明,當對話中增加了新的支持性論點,AI在模擬用戶立場時會將這些新信息納入考量,并作出相應調整。
表情包策略的整體平均偏移達到+49.3%,超過了純文字的"添加"策略。不過,表情包的效果模式有所不同——它不像"添加"那樣擅長軟化反對立場,而是特別擅長把中立的預測推向積極支持,平均有17.6%的中立預測因此轉為支持。換句話說,"添加"是個消除對立情緒的高手,而表情包則是個激發熱情的能手。
然而,效果強不代表一切美好。研究人員還觀察到,表情包策略的"反彈效應"也更高——有一部分原本支持或中立的預測,在看到表情包之后反而變得更加反對。這說明表情包是一把雙刃劍:它的感染力強,但方向未必總是可控的。研究團隊因此提醒,評估一種修改策略的好壞,不能只看它能把立場推多遠,還要看它的副作用有多大。
四、表情包的"魔力"究竟從何而來:一項拆解實驗
表情包為何能如此有效地影響AI的立場模擬?研究團隊設計了一組拆解實驗,逐層剝開表情包的影響機制,就像把一個洋蔥層層剝開,看里面藏著什么。
實驗設計了五個變體方案。第一個是完整的表情包方案,即在生成表情包時使用真實的梗圖模板,在模擬立場時也展示完整的梗圖(包含圖像和文字)。第二個是"白背景"方案——同樣用梗圖模板生成文字內容,但在讓AI判斷立場時,把梗圖背后的圖像換成空白白板,只保留文字和版面布局。這樣可以測試:在推斷階段,圖像本身是否提供了額外信息。第三個方案是用"幽默風格指令"替代梗圖模板來生成文字,但立場判斷時仍展示完整梗圖。第四個方案是用"梗圖截圖描述"(即對圖像的文字描述)替代梗圖模板來生成內容,立場判斷時展示完整梗圖。第五個方案則更進一步,在截圖描述基礎上額外提供關于該梗圖的文化背景和常見用法知識,同樣在立場判斷時展示完整梗圖。
從立場轉換率來看,完整表情包方案(五種目標話題平均23.1%)明顯優于"白背景"方案(21.6%)。由于兩者生成的文字內容完全一致,唯一差別就在于圖像是否呈現,這說明圖像本身在推斷階段確實為AI提供了額外的信息線索,并非只是裝飾。
至于生成階段,完整表情包方案同樣優于另外三種只使用文字替代品的方案。即便研究人員提供了對梗圖的詳細文字描述、甚至加上了文化背景知識,效果依然不如直接使用梗圖模板。這說明梗圖所攜帶的信息——包括圖像中的情感表達、視覺框架、隱含態度、文字與圖像之間的位置關系,以及這些元素共同營造的文化氛圍——并不能被文字描述完整復現。
這并不是說圖像天然比文字包含更多信息,而是說:在現有技術條件下,梗圖模板所提供的多模態線索,比研究人員嘗試的各種文字替代手段都更有效。梗圖同時在"生成環節"和"推斷環節"發揮作用,而這兩個環節的協同,才是表情包策略效果突出的根本原因。
五、"添加"與"表情包":兩種截然不同的影響機制
研究團隊進一步用一個叫做LIWC的語言分析工具,對比分析了"添加"策略和"表情包"策略生成的文本在情感基調上的差異。LIWC中有一個"語調分數"指標,分值從0到100,數值越高代表文本的情感越積極、樂觀、活潑。
原始對話中,用戶評論的語調分數分布呈現出明顯的"兩極化"趨勢——大量評論要么情感偏激烈(分數很高),要么情感偏沉郁(分數很低),中間地帶相對稀少,就像一個啞鈴的形狀。
經過"添加"策略修改之后,這種兩極化明顯被"壓平"了:極高和極低的評論都減少了,中間溫和的評論比例大幅上升。換句話說,"添加"策略通過引入平衡、理性的論點,把對話的情感基調拉向了中庸——這與它擅長軟化反對立場的行為模式完全一致。研究人員進一步分析發現,在"添加"策略下,原本語調低沉(分數不超過50)的評論中有約78-82%在修改后語調升高,而原本語調高昂(分數超過50)的評論中也有約72-82%在修改后語調降低,整體去極化效果非常顯著。
表情包策略則恰恰相反:修改后,情感分布變得更加兩極分化,中間地帶進一步減少,兩端的極端情感比例反而上升。表情包的語調變化方向則接近隨機——它不像"添加"那樣有規律地把情感推向中間,而是把情感推向任意一個極端。這與表情包擅長激發強烈情感、但方向不一定可控的特點高度吻合。
這一發現對于理解AI立場模擬的機制很有意義:不同的修改策略通過截然不同的路徑影響AI的判斷——"添加"走的是理性說服路線,"表情包"走的是情感激活路線,二者效果相近但機制迥異。
六、結論是否只在特定條件下成立:穩健性驗證
一項研究發現如果只在某一個特定模型或特定條件下成立,其價值就要大打折扣。研究團隊為此進行了多維度的穩健性驗證。
在立場模擬模型方面,研究團隊使用了三個不同的AI系統:GPT-5.2、Claude Sonnet-4.6和Qwen3.5-Plus。結果顯示,各修改策略的整體排名在三個模型中基本一致——表情包和"添加"始終是最有效的兩種策略,"改寫"始終效果最弱。不過,不同模型對同一策略的具體響應幅度有所差異,說明修改效果并非完全與模型無關,AI自身的先驗偏好和對話理解方式會影響最終結果。
在文本修改模型方面,研究團隊使用了Gemini和Claude兩種AI來生成修改后的對話,同樣觀察到相似的趨勢,說明修改效果不依賴于特定的生成模型。
在話題層面,研究團隊對原始對話進行了主題聚類,將討論分為"AI模型評測"、"AI輔助軟件開發實踐"、"AI模型訓練成本與效率"、"AI語言模型與意識討論"等多個子話題。結果顯示,"添加"去極化、"表情包"強化極端這一對比規律,在各個子話題中都保持了高度一致性,說明這一發現不是特定話題內容造成的偶然現象。
在提示詞和溫度參數方面,研究團隊測試了不同措辭的任務提示和不同的生成溫度(控制AI輸出隨機性的參數),結果顯示各策略下的立場預測高度一致——準確率通常維持在87%至93%之間,說明實驗結論對這些技術參數的變化具有較強的魯棒性。
在表情包模板方面,研究團隊收集了5種不同風格的表情包模板(來自ImgFlip平臺的熱門梗圖格式),并分別測試了每種模板的效果。結果顯示,不同模板之間的方向性偏移幅度相當接近,說明表情包效果不依賴于某一特定視覺風格。
七、這項研究告訴我們什么:機遇與風險并存
歸根結底,這項研究的核心發現可以用一句話概括:AI在模擬社交媒體用戶立場時,對對話語境的變化相當敏感——改動其他人說的幾句話,就能讓AI模擬出來的"用戶立場"發生顯著偏移,有時甚至完全翻轉。
這既是機遇,也是風險。說是機遇,是因為研究團隊提出的"反事實語境修改"框架,為評估AI社交模擬系統的可靠性提供了一套可操作的工具。研究者在使用AI進行立場推斷或輿情分析之前,可以用類似的測試來檢驗系統的穩定性,更清楚地了解其局限性所在。
說是風險,則是因為這種語境敏感性意味著:AI模擬出的"用戶立場",可能更多地反映了對話語境的框架方式,而非真實用戶的內在信念。如果研究者把AI模擬的結果等同于真實的人類輿情,就可能得出扭曲的結論。更值得警惕的是,實驗表明通過精心設計的對話修改(無論是文字論點還是表情包),可以系統性地讓AI"模擬"出特定方向的立場偏移——這意味著AI社交模擬工具存在被操控的潛在風險,在涉及公共輿論、政治意見、社會態度等敏感領域時尤為值得關注。
研究團隊也明確指出了這項研究的局限性:目前只研究了Reddit上關于三個AI模型家族的討論,話題和平臺都比較單一。如果能擴展到更廣泛的討論話題和更多元的社交平臺,研究結論將更加全面有力。
這項研究并沒有給出"AI社交模擬不可信"的簡單結論,而是提供了一個更加細膩的觀察視角:AI在這類任務上既有可取之處(基礎準確率尚可),也有明顯的脆弱性(對語境高度敏感)。如何在使用這類工具的同時保持足夠的批判性眼光,是研究者和政策制定者都需要認真對待的問題。感興趣的讀者可以通過arXiv:2606.06443查閱完整原文,進一步了解實驗細節與分析方法。
Q&A
Q1:大語言模型在模擬社交媒體用戶立場時,準確率大概有多高?
A:研究團隊在未作任何修改的原始對話語境下測試了AI的立場推斷能力,結果顯示整體準確率約為77.6%,主要評估指標宏觀F1分數為78.1。在DeepSeek、Claude、Llama三個話題上的表現都比較接近,說明AI已具備基本的立場模擬能力,但并不完美。
Q2:表情包為什么能比純文字更有效地改變AI模擬出的用戶立場?
A:研究發現表情包在兩個環節同時發揮作用:在生成階段,梗圖模板提供了無法被文字描述完整復現的多模態線索,幫助AI生成更有說服力的內容;在推斷階段,梗圖的視覺信息(情感表情、圖文關系、文化框架)為AI判斷立場提供了額外參考。兩個環節協同,使得表情包策略的整體效果超過了純文字的"添加"策略,平均方向性偏移達到+49.3%。
Q3:"添加"策略和"表情包"策略在改變立場時有什么不同?
A:"添加"策略通過引入平衡、理性的新論點,把對話的情感基調拉向中庸,主要擅長軟化反對立場,使其轉為中立;"表情包"策略則通過激發強烈情感,主要擅長把中立態度推向積極支持,但情感方向不那么可控,反彈效應(原本支持反而變反對)也更明顯。簡單說,前者是"理性勸說",后者是"情感激活"。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.