![]()
隨著語音、視頻、多模態能力不斷融入大語言模型(LLM),人與 AI 的交互正在越來越接近自然對話。今天的 LLM 不再只是回答問題的工具,也越來越多地出現在教育、客服、陪伴、心理健康等高度依賴情緒理解的場景中。
那么,大語言模型究竟是如何理解人類情緒的?
過去,關于 LLM 情緒能力的研究大多集中在情緒分類任務上:給模型一句話,看它能否判斷出其中包含的是快樂、悲傷、憤怒還是恐懼。
但在人類認知中,情緒并不是一組扁平的類別。心理學中的「情緒輪」認為,情緒往往以層級方式組織:例如「樂觀」可以被看作「快樂」的一種具體形式,「驚恐」可以被看作「恐懼」的一種具體形式。
![]()
圖 1 情緒輪。(來自:Idaho State University)
在 ICML2026 的一篇論文中,來自哈佛大學、加州大學圣地亞哥分校、NTT Research 的研究人員 Bo Zhao、Maya Okawa 等提出:大語言模型內部會自然形成類似人類心理學模型的「情緒樹」。
模型越大,情緒樹越復雜。同時,擁有更復雜情緒結構的模型在銷售等任務上表現更好。模型中的情緒結構還會受到性別、種族、收入、教育水平等身份設定的影響,呈現出與人類實驗中相似的的情緒識別偏見。
![]()
- 論文標題:Emergence of Hierarchical Emotion Organization in Large Language Models
- 論文鏈接:https://arxiv.org/abs/2507.10599
- 項目主頁:https://b-zhao.github.io/blog/hierarchical-emotion-in-llm
- 作者主頁:https://b-zhao.github.io/
從 LLM 中提取情緒樹
作者首先用 GPT-4o 生成 5000 個包含不同情緒狀態的場景句子,然后讓 Llama 系列模型在句子后繼續預測「這個句子中的情緒是……」。
接著,作者提取模型在 135 個情緒詞上的輸出概率,并比較兩個情緒詞在模型輸出中是否經常共同出現。例如,如果模型認為下一個單詞是「樂觀」的概率較高時,「快樂」也經常概率較高,但反過來并不總是成立,那么我們就可以認為「樂觀」是「快樂」的一個更具體的子情緒。
基于這種條件概率關系,模型中的情緒可以構造出一棵情緒樹。這種方法不需要人工標注,而是來自模型自身對大量情緒場景的概率判斷。
![]()
圖 2 不同規模 Llama 模型的情緒樹(8B,70B,405B)
模型越大,情緒層級越復雜
實驗比較了 GPT-2、Llama 3.1 8B、70B 和 405B。結果顯示,隨著模型規模增大,情緒樹變得更深、更復雜,也更接近心理學中的情緒輪結構。
在 Llama 405B 中,諸如快樂、憤怒、悲傷、恐懼等基本情緒,會自然聚合出更細粒度的子類,例如幸福、樂觀、沮喪、后悔、焦慮等。論文進一步用總路徑長度和平均深度衡量情緒樹復雜度,發現這兩個指標隨模型規模整體上升。
![]()
圖 3 情緒層級復雜度隨模型規模增長。
情緒樹能預測模型的情緒識別能力
作者進一步發現,情緒樹不只是可視化工具,還能預測模型在不同身份設定下識別情緒的表現。
研究者讓 Llama 405B 分別以男性、女性、高收入、低收入、高教育水平、低教育水平等身份來判斷情緒。結果顯示,不同身份設定會生成不同的情緒樹,而情緒樹越豐富、路徑越長,模型的情緒識別準確率越高。樹中的總路徑長度與識別準確率的相關系數達到 0.84,顯著性小于 0.001。
![]()
圖 4 情緒樹結構越復雜,情緒識別準確率越高。
這意味著,層級結構可以成為一種新的 LLM 評測指標:它衡量的不是模型是否偶然選對標簽,而是模型是否形成了更細粒度的情緒概念組織。
LLM 的偏見和人類有多像?
論文還揭示了 LLM 情緒識別中的系統性偏見。Llama 405B 在模擬一些少數或弱勢群體身份時,情緒識別準確率明顯下降,例如女性、黑人、低收入、低教育水平等身份設定的表現低于對應多數群體或優勢群體。
為了驗證這些現象是否只是模型自身的偏差,作者還進行了人類實驗。研究者在 Prolific 平臺上招募 60 名參與者,讓他們對 135 個情緒場景進行六類情緒判斷。
結果顯示,LLM 的一些誤判模式與人類參與者存在相似之處。例如,女性參與者和 Llama 的女性身份設定都更容易在「憤怒」與「恐懼」之間混淆;黑人參與者和 Llama 的黑人身份設定也表現出類似的負面情緒混淆模式。
這說明,LLM 可能不僅學到了情緒詞和文本之間的對應關系,也在一定程度上吸收了人類社會中的感知模式與偏見。
從理解情緒到影響情緒
情緒樹的復雜度不僅反映模型能否「看懂」情緒,也可能影響模型在對話中改變情緒的能力。論文進一步模擬了銷售和投訴處理兩類場景:前者讓模型嘗試把一顆橡果賣出更高價格,后者讓模型安撫憤怒顧客。每輪對話中,模型都需要預測對方下一步的情緒變化。
結果顯示,情緒預測越準確,銷售場景中的最終成交價格越高;在投訴處理場景中,顧客對話后的憤怒程度下降也越明顯。
這說明,LLM 的情緒理解并不只是靜態分類能力。更細致的情緒建模可能幫助模型更有效地順應、引導甚至改變用戶情緒。這一能力在客服、教育和心理支持中可能帶來積極作用,但也需要更謹慎地評估其潛在風險。
![]()
圖 5 情緒預測誤差越低,銷售 / 客服表現越好。
總結
這篇論文指出,LLM 內部會自然涌現出類似人類情緒輪的層級情緒結構。 隨著模型規模增加,這種結構變得更復雜,也更接近心理學模型。
同時,論文也發現,LLM 的情緒理解并非中性。模型在不同身份設定下會表現出系統性偏見,并且這些偏見在部分情況下與人類群體的誤判模式相似。
從更廣的角度看,這項工作展示了一條新的大模型評測路徑:將認知科學理論作為假設,用來分析 LLM 的內部結構和輸出行為。我們不僅需要知道模型是否能識別情緒,也需要評估它如何理解,預測,甚至影響情緒。這些能力既可能讓 AI 交互更自然、更有幫助,也可能被用于操控、誤導或放大社會偏見,因此需要更系統的評測與干預。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.