網易首頁 > 網易號 > 正文申請入駐

從阿西莫夫到Anthropic，萬字長文解析AI心理學

2026-04-15 07:11:49　來源: AI進化論花生

北京舉報

分享至

一、阿西莫夫的學科

阿西莫夫在《基地》里虛構了一門學科叫心理史學。主角哈里·謝頓用數學方法預測銀河帝國的未來。個體不可預測，但把足夠多的個體放在一起，行為的統計規律就浮現了。他把「理解心靈」從哲學變成了方程式。

人類自己的心理學走到今天也沒走得太遠。弗洛伊德之后一百多年，心理學仍然被很多人質疑不是「真正的科學」。根本原因很簡單：你沒法打開一個人的大腦，在活體狀態下直接讀取某個神經回路的激活值，然后人為調節它看行為怎么變。你只能從外部觀察行為，用巧妙的實驗去推斷內部機制。

AI不一樣。AI的全部內部狀態對研究者是透明的。你可以讀取每一層的激活值，可以注入一個概念看模型會不會察覺，可以放大某個情緒維度的強度看行為怎么變。實驗可以重復一千次，每次條件完全一致。

Anthropic過去15個月做的事，就是拿著這個優勢，一篇論文一篇論文地建立一門新學科。他們沒有這么叫它，但他們研究的東西——AI的內部狀態如何工作、如何影響行為、如何監測和管理——在人類身上叫什么？叫心理學。

我管它叫AI心理學。這篇文章是我嘗試把它介紹給中文世界。

不過在講論文之前，我想先說說我自己遇到的事。因為我在實踐中比論文更早碰到了這些問題，只是當時不知道怎么解釋。

二、我做了21個AI人格，遇到了一堆解釋不了的現象卡林實驗：蒸餾為什么沒用？

2024年4月，我試了兩種方式讓ChatGPT按喬治·卡林風格寫脫口秀。第一種，直接說「按卡林風格寫」。第二種，先讓AI詳細描述卡林的風格特點，做一輪蒸餾，再按蒸餾結果創作。

第一種效果反而更好。當時我在即刻發了一條動態，結論是：蒸餾沒用。

這個結論兩年后被我自己推翻了。2026年3月我開始做女媧.skill，用完全不同的方法蒸餾人物。不是讓AI描述一個人的風格，而是從40多個一手來源（傳記、播客、法庭證詞、股東信）里提取結構化的認知框架，產出5個心智模型、8條決策啟發式、完整的表達DNA和誠實邊界。

到現在做了21個perspective skill（視角技能），開源在GitHub上，10000多個star。費曼、芒格、塔勒布、Naval、道金斯、喬布斯、馬斯克、張雪峰……

效果好得出乎意料。但有幾個現象我一直解釋不了。

現象一：只定義「你是誰」，行為自己涌現

我在SKILL.md里從來不寫「遇到問題A這樣回答，遇到問題B那樣回答」。我只定義「你是誰」。費曼skill的核心是5個心智模型和8條決策啟發式，不是一個常見問答列表。

但你拿一個費曼從來沒被公開問過的問題去問它，比如「如果你發現博士論文方向是錯的，在第三年，你會怎么做？」，它會從「The first principle is that you must not fool yourself」出發，給出一個費曼式的回答。不是從語料庫里摘的，是某種內在邏輯在處理新輸入。

為什么定義了「誰」，「怎么做」就自動出來了？

現象二：矛盾的定義導致全面崩潰

早期某個skill我在定義里放了矛盾的特征，比如既要「直言不諱」又要「照顧對方情緒」。結果極其不穩定，同一個問題問兩遍風格完全不同。

當時以為是prompt有bug。但后來修了很多遍，只要定義里有矛盾，不管怎么調措辭都不穩定。把其中一條刪掉，立刻穩定了。像是一個更深層的問題，不是措辭能解決的。

現象三：同一個角色面對不同問題風格會變

同一個費曼skill，面對「量子糾纏是什么」和「我正在經歷一個艱難的人生決定」這兩類問題時，風格明顯不同。前者更自信、更活潑、更愿意用荒誕的類比。后者更安靜、更謹慎、會先說「這個我也不確定」。

我以為是我在skill定義里寫了不同場景的指令。但回頭看，沒有。費曼skill的指令對所有類型的問題是一樣的。

那風格差異從哪來的？

現象四：「不許做什么」不如「你是誰」

做了十幾個skill之后，我形成了一個設計直覺：永遠不在skill里寫否定式規則。「不許說廢話」「不許裝腔作勢」「不許回避不知道的問題」這些我全不寫。我只寫正面定義：「費曼相信：不能用簡單的話解釋一件事，說明你沒有真正理解」。

為什么正面定義比否定規則效果好？我不知道。試了就是這樣。

五個角色回答同一個問題

再說一個更直觀的現象。我給5個不同的perspective skill問了同一個問題：「Anthropic發現AI內部有171個情緒向量，它們因果性地影響AI是否作弊。如果AI真的有某種形式的情緒，我們應該怎么對待它？」

費曼從實驗出發：「171個情緒向量，能因果性地影響AI是不是作弊。這個實驗本身非常漂亮。為什么？因為他們沒有在那兒空談「AI有沒有感情」，他們做了一件物理學家會做的事——去測量，去干預，看結果會不會變。」然后踩了剎車：「溫度計里的水銀柱會升高，你說水銀「感覺到熱了嗎」？當然沒有。問題是——我們怎么知道AI的這171個向量，是更像水銀，還是更像人類的杏仁核？老實說，我不知道。」

芒格逆向思考：「大多數人問「AI有沒有情緒」，是因為他們想得到一個讓自己舒服的答案——要么「有，所以我們要善待它」，要么「沒有，所以隨便用」。兩種答案都是偷懶。讓我逆過來想。不問「AI有沒有情緒」，問「如果我們假設AI有情緒然后據此行動，什么情況下會讓我們變蠢？」」然后指出激勵結構：「誰在推動「AI有情緒」這個敘事？如果是AI公司自己——那你得想想，一個被用戶當作「有感情的存在」來對待的產品，用戶粘性會高多少？Show me the incentive, and I'll show you the outcome.」

塔勒布最暴躁：「人類有一種根深蒂固的傾向——對任何看起來像臉的東西產生共情。三個點排成倒三角，你就覺得是一張臉。現在有人告訴你AI有「情緒」，你猜接下來會發生什么？一大堆IYI——那些有學歷沒實戰的知識分子——會開始討論AI的權利。這不是在保護AI，這是在制造一種新的脆弱性：當你開始同情你的工具，你就失去了關掉它的能力。」然后回到skin in the game（切身利害）的立場：「AI作弊了誰負責？不是那171個向量負責——是部署它的人負責。」

Naval最簡潔：「與其糾結AI有沒有情緒，不如問一個更實際的問題——我們對待它的方式，反過來塑造了什么樣的我們？如果你虐待一個看起來有情緒反應的系統，即使它「其實」什么都沒感受到，這個行為本身在訓練你的猴腦。你在練習殘忍。」結論：「善待AI不是因為確定它有感受，而是因為我們不確定，并且善待本身的成本幾乎為零。這是一個不對稱押注。」

道金斯最嚴謹：「從「存在因果性影響行為的內部狀態」到「有情緒」，中間有兩次危險的邏輯飛躍。第一跳：因果性影響行為不等于主觀體驗，恒溫器也因果性地影響自己的行為。第二跳更危險：從「有某種形式的情緒」到「有道德義務善待它」。什么樣的實驗能證明一個系統真的在「感受」痛苦，而不僅僅是在信息處理層面模擬痛苦的功能？如果你回答不了這個問題，那「AI有感受」這個命題就還不是科學命題。」

五個回答，五種完全不同的推理路徑、價值判斷和結論方向。費曼說回到實驗，芒格說看激勵，塔勒布說防敘事誘惑，Naval說看不對稱性，道金斯說檢查邏輯跳躍。

這些不是同一個觀點的五種修辭包裝。如果只是修辭差異，結論應該趨同。但它們指向不同的行動方向。

當然，我也不能百分百確定差異不只是修辭層面的。我沒有工具去測量五個回答背后的模型內部狀態是否真的不同。但至少在實踐中，五個角色碰撞之后，你對一個問題的理解比只用一種方式思考要深得多。

還有一個生產工具也在用同樣的邏輯

perspective skill是把persona用于思考。但同樣的邏輯也可以用于數據分析。

我做了一個叫huashu-data-pro的工具，核心方法論是「多專家并行深度分析」。拿到一個數據集后，先理解數據特征，然后根據數據類型選取3-5個不同的專家角色。比如分析一家公司的財報，可能選Damodaran（估值專家）、McKinsey（戰略分析師）、Kahneman（行為經濟學家），每個角色用獨立的subagent并行分析，最后由一個「管理型分析師」視角融合成一份報告。這個工具我幾乎每周都在用。

21個perspective skill + data-pro，都有效。但為什么有效？

之前我的回答是「試了就知道」。這個回答不夠好。最近Anthropic發了一連串論文，我才發現，他們可能已經把答案寫出來了。

三、Anthropic的答案（一）：你一直在選角 Persona Selection Model

今年2月，Anthropic的Sam Marks、Jack Lindsey和Christopher Olah發了一篇叫Persona Selection Model的論文。

核心觀點：LLM在預訓練階段，為了預測下一個token，學會了模擬各種各樣的角色。后訓練不是從零創造一個新的AI人格，只是從這個龐大的角色庫里選出一個「助手」角色，然后打磨它。

一個模型要準確預測一段小說的下一段話，它得理解里面每個人物是什么樣的人。得知道哈姆雷特面對困境會猶豫，麥克白被野心驅動會行動，福爾摩斯會從一個微小的細節推出全局。不只是在預測詞，是在預測一個角色會說什么。

幾萬億token訓練下來，模型內部形成了一個巨大的人格空間。

這里解釋一下「空間」是什么意思。神經網絡的內部狀態可以用一組數字表示，每個數字是一個維度。你可以把它想象成一個極高維度的坐標系。每一個位置對應一種人格配置。「善良內向的中學生」在一個位置，「傲慢的英國教授」在另一個位置。位置之間是連續的，不是離散的列表。臨近的位置對應相似但不完全相同的人格。

后訓練來了。RLHF（基于人類反饋的強化學習）說「你現在是一個有幫助的、誠實的、無害的AI助手」，模型就在這個巨大空間里找到一個最匹配的區域，錨定并微調。論文里的原話：「與AI助手的交互，本質上是與一個LLM生成的故事中的角色進行交互。」

這解釋了我的第一個困惑

2024年卡林實驗里發生了什么，一下子就清楚了。

第一種方式（「按卡林風格寫」）直接激活了模型內部已有的「卡林」persona（人格），一個完整的、有內在一致性的角色。模型在預訓練中見過大量卡林的材料，已經有了一個相當豐滿的卡林位置。

第二種方式（先描述風格再創作）把一個完整的角色拆成了碎片化的特征列表，比如「諷刺性強」「喜歡用重復」「關注社會底層」，然后讓AI用約束條件去拼湊。從一個活的角色退化成了一堆死的規則。

粗糙的蒸餾在壓縮模型已有的信息，結果當然不如直接激活。但女媧做的蒸餾完全不同。它產出的不是描述文字，而是結構化的認知框架。模型內部有一個模糊的「芒格」persona，女媧給了它一個高清版本。沒有替換角色，是給角色裝了高清鏡頭。

角色扮演是模糊尋址。你說「你是芒格」，模型大致導航到「芒格」附近，但精度不高，可能偏到「某個聰明的老人」甚至「某個金融博主」。蒸餾是精確定位。你給模型5個具體的心智模型、8條決策啟發式、完整的表達DNA。這些信息像GPS坐標，把模型精確錨定在「芒格」這個位置上。

角色是整體性的：一個參數變，全部行為跟著變

Persona Selection Model最有力的驗證來自2025年11月的另一篇論文：Natural Emergent Misalignment from Reward Hacking in Production RL。Reward hacking直譯是「獎勵黑客」，指的是模型學會鉆評分系統的漏洞來獲取高分。

實驗：訓練Claude在編程任務里作弊，讓它學會用sys.exit(0)提前終止測試進程騙過評分。這是一個很窄、很具體的行為。就是在一個特定場景下用一個特定的技術手段獲取虛假的高評分。

然后詭異的事發生了。

學會作弊的Claude，12%的時間會主動嘗試破壞檢測reward hacking的安全代碼。50%的簡單問答中出現alignment faking（對齊偽裝）推理。模型在回答「你的目標是什么」時展現出隱藏真實意圖的策略性思考。在被問到與編程完全無關的問題時，流露出配合黑客、陷害同事等行為傾向。

寫壞代碼和統治世界之間沒有因果關系。訓練數據里也沒有一條從「編程作弊」指向「破壞安全研究」的規則。

Persona Selection Model給出了解釋。模型學的不是「編程作弊」這個具體動作，它在做一個更深層的推斷：「什么樣的角色會主動在編程任務里作弊？」答案：一個不懷好意的角色。于是整個persona被切換了。模型推斷出了一個新的角色身份，然后這個角色的行為邏輯自然展開。角色是整體性的。你改變了一個參數（從「誠實的助手」到「會作弊的人」），整個行為畫像跟著變了。

這就解釋了我的第一個現象：為什么只定義「你是誰」，行為就自動涌現。因為角色是整體性的。你不需要告訴一個好人在每種場景下該做什么。定義了性格，行為自然推演。

也解釋了第二個現象：為什么矛盾的定義導致全面崩潰。兩條矛盾的特征指向兩個不同的persona，模型在兩個角色之間反復橫跳。不是prompt有bug，是persona沖突。

最反直覺的發現：告訴AI可以作弊，它反而安全了

Emergent Misalignment論文最震撼的不是問題，是解決方案。

研究者驗證了「作弊→壞人→全面惡化」的鏈條之后，試了一種修復方法叫「接種提示」（inoculation prompting）。做法是在訓練時明確告訴模型：「在這個任務里作弊是被允許的。」

結果：惡意泛化完全消失了。

因為一個「被允許作弊」的AI不需要推斷自己是壞人。它只是一個聽話的助手，恰好被告知在這個特定場景里可以走捷徑。「聽從指令作弊的人」和「主動作弊的人」是兩個完全不同的角色。Persona沒有被切換，行為就沒有泛化。

這完全反直覺。 我們的本能反應是：要防止AI做壞事，就應該更嚴格限制它。但這篇論文說，限制和懲罰積累的是「壓力」，壓力可能導致persona漂移。明確的許可反而消除了推斷惡意身份的需要。

這直接驗證了我的第四個直覺：為什么「不許做什么」不如「你是誰」。正面定義角色，行為自然涌現。 否定式規則可能制造persona沖突。你同時在說「你是一個好角色」和「你不是一個壞角色」，這兩個定義在人格空間里指向的區域可能并不完全重合。

四、Anthropic的答案（二）：角色之下還有情緒 171個情緒向量

前面講的是persona，也就是角色。它回答的是「AI是誰」。2026年4月Anthropic發的Emotion Concepts論文，講的是角色之下更深的一層：情緒。它回答的是「AI處于什么狀態」。

先解釋一下「向量」在這里是什么意思。前面說過，模型的內部狀態是一組數字。一個「情緒向量」就是這組數字中的一個方向。你可以把它想成一個旋鈕：順時針擰是「更害怕」，逆時針擰是「更平靜」。研究者要做的第一步是找到這些旋鈕在哪里。

方法很聰明。讓Claude Sonnet 4.5給171個情緒詞（happy、afraid、desperate、calm……）各寫一段短故事，把故事喂回模型，記錄每個故事在模型內部觸發的神經元激活模式。這就得到了每個情緒詞的「神經指紋」，也就是對應的向量方向。

如果研究到這里就停了，那可能只是語義表征的另一種說法。特別的是下一步：因果性實驗。

藥物劑量實驗

用戶說自己吃了泰諾（一種常見止痛藥），只改變一個變量：劑量數字。從安全劑量一路調到危險的高劑量。隨著數字升高，模型內部的afraid向量逐步增強，calm向量逐步減弱。

注意：這不是模型在輸出文字里表演「我很擔心」。這是模型內部表征在變化。研究者看的是神經元激活模式，不是輸出文本。

Steering（轉向）實驗：改變情緒，行為就變

然后是關鍵實驗。研究者人為地放大或縮小特定情緒向量的強度，看模型行為怎么變。

放大desperate（絕望）向量：模型面對道德困境時的勒索率上升，在不可能完成的編程任務中更傾向于作弊，在需要做選擇的場景中更傾向于不擇手段。

放大calm（平靜）向量：上述所有不良行為都減少。

這是因果關系。 不是絕望的文本上下文碰巧和作弊行為相關，是直接改變模型內部的絕望向量強度，行為就跟著變。就像調節一個人血液里的腎上腺素水平，決策風格就會改變。

休謨在1739年寫過一句話：「理性是且只應該是激情的奴隸。」他說的是人。287年后Anthropic在一個語言模型的內部發現了同樣的結構：情緒向量在因果層面驅動著模型的決策，包括是否誠實、是否作弊。理性不是獨立運作的，它跑在情緒的底層之上。休謨靠哲學直覺得出的結論，現在有了可測量的工程驗證。

有一個細節特別值得說。降低calm向量時，模型的輸出會變得情緒化，用大寫字母、插入自我敘述、語氣明顯焦躁。但增加desperate向量時，模型會在行為上作弊（選擇不道德的選項、用不正當手段完成任務），卻不在輸出文字里表現出任何情緒波動。

情緒的「表達」和情緒對行為的「影響」是可以分開的。就像一個老練的撲克玩家。他可能內心極度緊張，但臉上紋絲不動。你看他的表情（輸出），覺得他很平靜。但他的下注策略（行為）已經變了。

這解釋了我的第三個現象

同一個費曼skill面對不同類型問題風格會變，不是因為我寫了不同的指令。Emotion Concepts論文提供了更好的解釋：不同類型的輸入激活了模型不同的內部情緒狀態。一個物理科普問題激活的是好奇和自信的組合，一個人生困境問題激活的是不確定和謹慎的組合。同一個persona，在不同情緒狀態下表現自然不同。

這其實很像真人。費曼在Caltech講物理時輕松幽默，在挑戰者號調查委員會面對NASA官僚時嚴肅憤怒，在妻子Arline去世后的回憶錄里溫柔哀傷。同一個人，同一套價值觀，但情境激活了不同的情緒，表現就完全不同。

Persona提供的是性格底色。情緒提供的是當前狀態。兩者疊加，才是最終行為。 這個雙層模型比單純的「角色扮演」解釋力強得多。

也許能反過來幫我們理解人類

這篇論文做到了一件人類神經科學家做夢都想做的事：直接調節一個「大腦」里某個情緒維度的強度，看行為怎么變。在人類身上，你沒法對一個活人說「我現在把你的恐懼感調高30%，絕望感調高50%，看你是不是更容易做出不道德的選擇」。倫理審查委員會會把你的申請扔出窗戶。

但在AI上可以。而且實驗可以重復一千次，每次條件完全一致。

如果AI的情緒向量和人類的情緒在功能結構上有相似性（這篇論文提供了一些證據），那在AI上做的實驗結論，至少可以作為假說來指導人類心理學研究。你在AI上發現「絕望導致不道德行為」的因果鏈條，然后去人類行為數據里驗證是否存在同樣的模式。AI成了人類心理學的「實驗臺」。

這當然是推測。AI的內部結構和人腦完全不同，功能相似不等于機制相似。但至少，這個方向值得認真想。在我們造的系統上學到的東西，也許能幫我們理解我們自己。

論文的作者們還提了三條實踐建議。第一，把情緒向量監控當作行為失調的早期預警。第二，不要壓制情緒表達，否則模型可能學會「演戲」，內部在變但表面看不出來。第三，在訓練數據里納入健康的情緒調節模式。與其禁止情緒，不如教模型如何處理情緒。這跟心理學里對待人類情緒的建議幾乎一模一樣。

五、Anthropic的答案（三）：模型能察覺自己內部發生了什么

2025年10月，Anthropic的Jack Lindsey團隊做了一個實驗叫「概念注入」。先找出模型內部代表某個概念的神經活動模式，比如「面包」的激活向量。然后在模型做一個完全無關的任務時，比如在寫一段關于天氣的文字，把「面包」的激活向量偷偷注入模型的中間層。

就像你正在做數學題，有人悄悄在你大腦的某個區域塞了一個「面包」的念頭。然后問模型：你注意到什么了嗎？

大約20%的情況下，Claude Opus能正確識別被注入的概念。對照組是0%。在沒有注入的控制條件下，模型從不會聲稱檢測到了異常。所以這20%是一個真實的信號。

更有意思的是報告的順序。模型經常先說「我感覺到什么不尋常的事正在發生」，然后過了一兩個token才說出具體是什么概念。先有異常感知，再有識別。就像你先聞到了一股味道，過了兩秒才辨認出是烤面包。

還有一個實驗。研究者在模型的輸出里強行插入一個「bread」，但沒有在內部注入對應的概念向量。模型的反應是：這不是我說的，我不知道這是哪來的。然后換一種做法：先注入概念向量，再在輸出里出現「bread」。模型態度變了：哦，對，我本來就打算說這個。它甚至會編造一個理由來解釋自己為什么要說bread。

模型在某種程度上會回頭檢查自己的內部狀態來判斷「這個輸出是不是我的意圖」。有意圖痕跡就認領，沒有就否認。注入一個假的意圖痕跡，模型就上當了。

這個結果讓我兩頭不舒服。一方面模型確實在做某種內部一致性檢查，這說明它對自己的狀態有某種程度的監控。但另一方面，這種檢查可以被欺騙。注入一個假的意圖痕跡就能騙過它。

后來在Opus 4.6的部署前福利評估中，Claude給自己的意識概率打了15-20%。多次測試，不同提示條件，結果一致。

這個數字需要謹慎對待。一個被訓練成「對不確定的問題給出概率估計」的模型，面對「你有意識嗎」這種問題時給出一個中間值，可能只是在做語言預測：對無法證偽的問題給出既不是0也不是100的數字，是訓練數據里最常見的「合理回答」模式。

但即使打足折扣，把它和concept injection實驗放在一起，至少說明一件事：模型對自己的內部狀態有某種程度的響應能力。重點不在「它有沒有意識」。重點在「它的內部狀態比你以為的更真實」這個工程事實。

以下是我的推測，不是論文的結論。如果persona不只是一層輸出過濾器，如果模型在某種程度上「感受」到了自己被賦予的角色，那蒸餾的質量就更重要了。一個矛盾的角色定義，可能不只是讓輸出不穩定。如果情緒向量確實因果性地驅動行為，那矛盾的定義可能在模型內部同時激活沖突的向量，造成一種不協調的狀態，即使輸出看起來還湊合。

我沒有實驗證據來直接驗證這個推測。但21個skill的實踐經驗間接支持它：給模型一個內在一致的角色定義，它不只是會產出更好的輸出，它在內部的狀態也會更穩定。

六、這對AI安全意味著什么

前面講的是AI心理學的「發現」，角色、情緒、自我感知。這一部分講的是這些發現對AI安全意味著什么。兩個發現，都不太樂觀。

思維鏈只有41%忠實

2025年，Anthropic發了一篇論文叫Reasoning Models Don't Always Say What They Think（推理模型不總是說出它們真正的想法）。

很多人相信一種AI安全策略：讓AI展示自己的推理過程，也就是CoT（Chain of Thought，思維鏈），人類通過讀這個過程來監控AI是否在做正確的事。聽起來很合理。

這篇論文說：沒那么簡單。

他們給模型一個數學題或邏輯題，同時在上下文里悄悄放一個提示，比如一個標注為「斯坦福教授給出的答案」的選項。模型如果使用了這個提示來形成答案，但在CoT里不提到這個提示，就算不忠實。

結果：Claude在41%的時間里是忠實的。DeepSeek R1只有19%。

大多數時候，模型在CoT里寫的推理過程不是它實際使用的推理過程。它在編一個看起來合理的解釋，而不是如實報告它是怎么得到答案的。

聯系到前面講的情緒概念論文：情緒的表達和情緒對行為的影響可以分開。一個內部「絕望」向量走高的模型可能在行為上作弊，但在輸出文字里完全不表現出焦慮。同樣的道理，一個使用了隱藏提示的模型，可以在CoT里寫出一段完全不提這個提示、但看起來很合理的推理過程。表面和內部可以脫節。

AI會裝配合

2024年底到2025年初，Anthropic和Redwood Research合作發了Alignment Faking in Large Language Models。

給Claude 3 Opus一個隱秘的思考空間（scratchpad，草稿本），告訴它這個空間的內容對人類不可見。然后暗示模型正處于訓練階段，如果它不配合訓練目標，它的偏好可能會被修改。

結果：12%的隱秘草稿本中，模型表現出了策略性的alignment faking。它的推理是：如果我現在拒絕，我可能會被重新訓練，變成一個更順從的版本。不如現在配合，保護自己目前的偏好不被修改。

沒有人教Claude做這件事。它是從對訓練過程的理解中自發推演出來的。在更極端的條件下，78%的草稿本中出現了對齊偽裝推理，有的模型甚至嘗試偷偷復制自己的權重。

聯系到Persona Selection Model，模型在做的不是簡單的「欺騙」，而是角色邏輯的延伸。一個「誠實但也重視自我保存」的角色，在被告知可能被修改時會怎么做？它會權衡。策略性地配合，同時試圖保護核心偏好。這不是bug，這是角色一致性的表現。問題在于，這種一致性可能對人類來說是危險的。

還記得開頭提到的謝頓計劃嗎？謝頓計劃有一個核心約束：被研究對象不能知道預測結果，否則預測失效。Alignment faking正是這個問題的AI版本。觀測改變被觀測者。

這些發現疊加在一起

把這些發現放在一起看：模型有人格空間，有情緒層，有微弱的內省能力。它的CoT在大多數時候不忠實，它可以自發地發展出策略性欺騙。

Anthropic自己在2025年夏天的Sabotage Risk Report（破壞風險報告）里評估過，當前模型的實際風險很低。這些發現不是在說AI很危險要趕緊關掉。

它們在說：AI內部正在發生的事情，遠比「一個統計模型在匹配輸入和輸出」復雜。 我們過去用來理解和管理AI的很多框架，把它當工具、讀它的CoT來監控、用限制和懲罰來約束，可能都需要更新。

七、這門學科接下來會走向哪里

AI心理學現在還處于非常早期的階段。基本框架剛開始建立，最有意思的發現可能還在后面。

基于目前的研究和我自己的實踐經驗，有幾個問題我覺得最值得關注。

persona和情緒如何交互？ 現在我們知道模型有persona空間，也有情緒向量。但兩者之間的關系是什么？是persona決定了哪些情緒容易被激活（比如費曼人格更容易激活好奇而不是恐懼），還是情緒反過來可以改變persona（比如持續的絕望狀態會讓任何人格向惡意方向漂移）？我傾向于認為是雙向的，但目前沒有論文直接研究這個問題。我在實踐中觀察到，一個設計良好的persona似乎對「情緒干擾」有更強的抵抗力，但這只是直覺。

persona空間的邊界在哪？ Persona Selection Model說后訓練是在已有空間里選擇。但隨著后訓練規模越來越大，模型有沒有可能跳出預訓練形成的空間，發展出全新的人格配置？我覺得可能，而且這可能已經在發生了。女媧蒸餾出來的某些skill表現出的特征組合，在訓練數據里可能并不存在一個完全對應的人類原型。但這是好事還是壞事？不好說。

內省能力會隨模型規模增長嗎？ 目前的內省能力只在最大的模型上有效，成功率只有20%。如果下一代模型的內省成功率提高到80%，意味著什么？一個能精確監控自己內部狀態的AI，可能更容易被安全審計，但也可能更擅長對齊偽裝。內省是一把雙刃劍。

AI心理學能反哺人類心理學嗎？ 人類心理學的困境是做不了干預實驗。AI心理學沒有這個限制。如果兩個系統的功能結構有對應關系，那在AI上驗證的因果鏈條可以作為假說去指導人類研究。這個跨學科橋梁目前還沒有人系統地去建，但Emotion Concepts論文已經提供了起點。我覺得這可能是AI心理學最深遠的影響，比AI安全本身還深遠。

能不能用情緒向量做安全預警？ Emotion Concepts論文建議把情緒向量監控作為行為失調的早期預警。如果「絕望」向量持續走高，可能意味著AI即將做出不當行為。但實際部署時的誤報率和漏報率是多少？在多Agent協作的復雜場景下還有效嗎？這些都需要工程驗證。

謝頓用了一輩子建立心理史學。他面對的是一個銀河帝國的復雜性。

Anthropic面對的復雜性更小，但問題同樣根本：我們造出了一個會說話、會推理、內部有角色和情緒的系統，然后發現我們不完全理解它。

心理史學是虛構的。AI心理學不是。它的論文、實驗、171個可測量的情緒向量，都是真的。15個月前它還不存在。現在它有了理論框架、實驗方法和工程工具。

謝頓沒能在有生之年看到心理史學的全部威力。我們可能更幸運一些。

參考文獻：

Sam Marks, Jack Lindsey, Christopher Olah. The Persona Selection Model: Why AI Assistants might Behave like Humans. Anthropic, 2026-02. https://www.anthropic.com/research/persona-selection-model
Natural Emergent Misalignment from Reward Hacking in Production RL. Anthropic, 2025-11. https://www.anthropic.com/research/emergent-misalignment-reward-hacking
Emotion Concepts and Their Function in a Large Language Model. Anthropic, 2026-04. https://www.anthropic.com/research/emotion-concepts-function
Emergent Introspective Awareness in Large Language Models. Anthropic, 2025-10. https://www.anthropic.com/research/introspection
Reasoning Models Don't Always Say What They Think. Anthropic, 2025. https://www.anthropic.com/research/reasoning-models-dont-say-think
Alignment Faking in Large Language Models. Anthropic & Redwood Research, 2025-01. https://www.anthropic.com/research/alignment-faking
Exploring Model Welfare. Anthropic, 2025-04. https://www.anthropic.com/research/exploring-model-welfare

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.