網易首頁 > 網易號 > 正文申請入駐

ICML 2026 | 大模型內部也會長出「情緒樹」，規模越大越懂人心

2026-05-12 12:53:18　來源: 機器之心Pro

河北舉報

分享至

隨著語音、視頻、多模態能力不斷融入大語言模型（LLM），人與 AI 的交互正在越來越接近自然對話。今天的 LLM 不再只是回答問題的工具，也越來越多地出現在教育、客服、陪伴、心理健康等高度依賴情緒理解的場景中。

那么，大語言模型究竟是如何理解人類情緒的？

過去，關于 LLM 情緒能力的研究大多集中在情緒分類任務上：給模型一句話，看它能否判斷出其中包含的是快樂、悲傷、憤怒還是恐懼。

但在人類認知中，情緒并不是一組扁平的類別。心理學中的「情緒輪」認為，情緒往往以層級方式組織：例如「樂觀」可以被看作「快樂」的一種具體形式，「驚恐」可以被看作「恐懼」的一種具體形式。

圖 1 情緒輪。（來自：Idaho State University）

在 ICML2026 的一篇論文中，來自哈佛大學、加州大學圣地亞哥分校、NTT Research 的研究人員 Bo Zhao、Maya Okawa 等提出：大語言模型內部會自然形成類似人類心理學模型的「情緒樹」。

模型越大，情緒樹越復雜。同時，擁有更復雜情緒結構的模型在銷售等任務上表現更好。模型中的情緒結構還會受到性別、種族、收入、教育水平等身份設定的影響，呈現出與人類實驗中相似的的情緒識別偏見。

論文標題：Emergence of Hierarchical Emotion Organization in Large Language Models
論文鏈接：https://arxiv.org/abs/2507.10599
項目主頁：https://b-zhao.github.io/blog/hierarchical-emotion-in-llm
作者主頁：https://b-zhao.github.io/

從 LLM 中提取情緒樹

作者首先用 GPT-4o 生成 5000 個包含不同情緒狀態的場景句子，然后讓 Llama 系列模型在句子后繼續預測「這個句子中的情緒是……」。

接著，作者提取模型在 135 個情緒詞上的輸出概率，并比較兩個情緒詞在模型輸出中是否經常共同出現。例如，如果模型認為下一個單詞是「樂觀」的概率較高時，「快樂」也經常概率較高，但反過來并不總是成立，那么我們就可以認為「樂觀」是「快樂」的一個更具體的子情緒。

基于這種條件概率關系，模型中的情緒可以構造出一棵情緒樹。這種方法不需要人工標注，而是來自模型自身對大量情緒場景的概率判斷。

圖 2 不同規模 Llama 模型的情緒樹（8B，70B，405B）

模型越大，情緒層級越復雜

實驗比較了 GPT-2、Llama 3.1 8B、70B 和 405B。結果顯示，隨著模型規模增大，情緒樹變得更深、更復雜，也更接近心理學中的情緒輪結構。

在 Llama 405B 中，諸如快樂、憤怒、悲傷、恐懼等基本情緒，會自然聚合出更細粒度的子類，例如幸福、樂觀、沮喪、后悔、焦慮等。論文進一步用總路徑長度和平均深度衡量情緒樹復雜度，發現這兩個指標隨模型規模整體上升。

圖 3 情緒層級復雜度隨模型規模增長。

情緒樹能預測模型的情緒識別能力

作者進一步發現，情緒樹不只是可視化工具，還能預測模型在不同身份設定下識別情緒的表現。

研究者讓 Llama 405B 分別以男性、女性、高收入、低收入、高教育水平、低教育水平等身份來判斷情緒。結果顯示，不同身份設定會生成不同的情緒樹，而情緒樹越豐富、路徑越長，模型的情緒識別準確率越高。樹中的總路徑長度與識別準確率的相關系數達到 0.84，顯著性小于 0.001。

圖 4 情緒樹結構越復雜，情緒識別準確率越高。

這意味著，層級結構可以成為一種新的 LLM 評測指標：它衡量的不是模型是否偶然選對標簽，而是模型是否形成了更細粒度的情緒概念組織。

LLM 的偏見和人類有多像？

論文還揭示了 LLM 情緒識別中的系統性偏見。Llama 405B 在模擬一些少數或弱勢群體身份時，情緒識別準確率明顯下降，例如女性、黑人、低收入、低教育水平等身份設定的表現低于對應多數群體或優勢群體。

為了驗證這些現象是否只是模型自身的偏差，作者還進行了人類實驗。研究者在 Prolific 平臺上招募 60 名參與者，讓他們對 135 個情緒場景進行六類情緒判斷。

結果顯示，LLM 的一些誤判模式與人類參與者存在相似之處。例如，女性參與者和 Llama 的女性身份設定都更容易在「憤怒」與「恐懼」之間混淆；黑人參與者和 Llama 的黑人身份設定也表現出類似的負面情緒混淆模式。

這說明，LLM 可能不僅學到了情緒詞和文本之間的對應關系，也在一定程度上吸收了人類社會中的感知模式與偏見。

從理解情緒到影響情緒

情緒樹的復雜度不僅反映模型能否「看懂」情緒，也可能影響模型在對話中改變情緒的能力。論文進一步模擬了銷售和投訴處理兩類場景：前者讓模型嘗試把一顆橡果賣出更高價格，后者讓模型安撫憤怒顧客。每輪對話中，模型都需要預測對方下一步的情緒變化。

結果顯示，情緒預測越準確，銷售場景中的最終成交價格越高；在投訴處理場景中，顧客對話后的憤怒程度下降也越明顯。

這說明，LLM 的情緒理解并不只是靜態分類能力。更細致的情緒建模可能幫助模型更有效地順應、引導甚至改變用戶情緒。這一能力在客服、教育和心理支持中可能帶來積極作用，但也需要更謹慎地評估其潛在風險。

圖 5 情緒預測誤差越低，銷售 / 客服表現越好。

總結

這篇論文指出，LLM 內部會自然涌現出類似人類情緒輪的層級情緒結構。隨著模型規模增加，這種結構變得更復雜，也更接近心理學模型。

同時，論文也發現，LLM 的情緒理解并非中性。模型在不同身份設定下會表現出系統性偏見，并且這些偏見在部分情況下與人類群體的誤判模式相似。

從更廣的角度看，這項工作展示了一條新的大模型評測路徑：將認知科學理論作為假設，用來分析 LLM 的內部結構和輸出行為。我們不僅需要知道模型是否能識別情緒，也需要評估它如何理解，預測，甚至影響情緒。這些能力既可能讓 AI 交互更自然、更有幫助，也可能被用于操控、誤導或放大社會偏見，因此需要更系統的評測與干預。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.