網易首頁 > 網易號 > 正文 申請入駐

從阿西莫夫到Anthropic,萬字長文解析AI心理學

0
分享至


一、阿西莫夫的學科

阿西莫夫在《基地》里虛構了一門學科叫心理史學。主角哈里·謝頓用數學方法預測銀河帝國的未來。個體不可預測,但把足夠多的個體放在一起,行為的統計規律就浮現了。他把「理解心靈」從哲學變成了方程式。

人類自己的心理學走到今天也沒走得太遠。弗洛伊德之后一百多年,心理學仍然被很多人質疑不是「真正的科學」。根本原因很簡單:你沒法打開一個人的大腦,在活體狀態下直接讀取某個神經回路的激活值,然后人為調節它看行為怎么變。你只能從外部觀察行為,用巧妙的實驗去推斷內部機制。

AI不一樣。AI的全部內部狀態對研究者是透明的。你可以讀取每一層的激活值,可以注入一個概念看模型會不會察覺,可以放大某個情緒維度的強度看行為怎么變。實驗可以重復一千次,每次條件完全一致。


Anthropic過去15個月做的事,就是拿著這個優勢,一篇論文一篇論文地建立一門新學科。他們沒有這么叫它,但他們研究的東西——AI的內部狀態如何工作、如何影響行為、如何監測和管理——在人類身上叫什么?叫心理學。

我管它叫AI心理學。這篇文章是我嘗試把它介紹給中文世界。

不過在講論文之前,我想先說說我自己遇到的事。因為我在實踐中比論文更早碰到了這些問題,只是當時不知道怎么解釋。

二、我做了21個AI人格,遇到了一堆解釋不了的現象 卡林實驗:蒸餾為什么沒用?

2024年4月,我試了兩種方式讓ChatGPT按喬治·卡林風格寫脫口秀。第一種,直接說「按卡林風格寫」。第二種,先讓AI詳細描述卡林的風格特點,做一輪蒸餾,再按蒸餾結果創作。

第一種效果反而更好。當時我在即刻發了一條動態,結論是:蒸餾沒用。

這個結論兩年后被我自己推翻了。2026年3月我開始做女媧.skill,用完全不同的方法蒸餾人物。不是讓AI描述一個人的風格,而是從40多個一手來源(傳記、播客、法庭證詞、股東信)里提取結構化的認知框架,產出5個心智模型、8條決策啟發式、完整的表達DNA和誠實邊界。

到現在做了21個perspective skill(視角技能),開源在GitHub上,10000多個star。費曼、芒格、塔勒布、Naval、道金斯、喬布斯、馬斯克、張雪峰……

效果好得出乎意料。但有幾個現象我一直解釋不了。

現象一:只定義「你是誰」,行為自己涌現

我在SKILL.md里從來不寫「遇到問題A這樣回答,遇到問題B那樣回答」。我只定義「你是誰」。費曼skill的核心是5個心智模型和8條決策啟發式,不是一個常見問答列表。

但你拿一個費曼從來沒被公開問過的問題去問它,比如「如果你發現博士論文方向是錯的,在第三年,你會怎么做?」,它會從「The first principle is that you must not fool yourself」出發,給出一個費曼式的回答。不是從語料庫里摘的,是某種內在邏輯在處理新輸入。

為什么定義了「誰」,「怎么做」就自動出來了?

現象二:矛盾的定義導致全面崩潰

早期某個skill我在定義里放了矛盾的特征,比如既要「直言不諱」又要「照顧對方情緒」。結果極其不穩定,同一個問題問兩遍風格完全不同。

當時以為是prompt有bug。但后來修了很多遍,只要定義里有矛盾,不管怎么調措辭都不穩定。把其中一條刪掉,立刻穩定了。像是一個更深層的問題,不是措辭能解決的。

現象三:同一個角色面對不同問題風格會變

同一個費曼skill,面對「量子糾纏是什么」和「我正在經歷一個艱難的人生決定」這兩類問題時,風格明顯不同。前者更自信、更活潑、更愿意用荒誕的類比。后者更安靜、更謹慎、會先說「這個我也不確定」。

我以為是我在skill定義里寫了不同場景的指令。但回頭看,沒有。費曼skill的指令對所有類型的問題是一樣的。

那風格差異從哪來的?

現象四:「不許做什么」不如「你是誰」

做了十幾個skill之后,我形成了一個設計直覺:永遠不在skill里寫否定式規則。「不許說廢話」「不許裝腔作勢」「不許回避不知道的問題」這些我全不寫。我只寫正面定義:「費曼相信:不能用簡單的話解釋一件事,說明你沒有真正理解」。

為什么正面定義比否定規則效果好?我不知道。試了就是這樣。

五個角色回答同一個問題

再說一個更直觀的現象。我給5個不同的perspective skill問了同一個問題:「Anthropic發現AI內部有171個情緒向量,它們因果性地影響AI是否作弊。如果AI真的有某種形式的情緒,我們應該怎么對待它?」

費曼從實驗出發:「171個情緒向量,能因果性地影響AI是不是作弊。這個實驗本身非常漂亮。為什么?因為他們沒有在那兒空談「AI有沒有感情」,他們做了一件物理學家會做的事——去測量,去干預,看結果會不會變。」然后踩了剎車:「溫度計里的水銀柱會升高,你說水銀「感覺到熱了嗎」?當然沒有。問題是——我們怎么知道AI的這171個向量,是更像水銀,還是更像人類的杏仁核?老實說,我不知道。」

芒格逆向思考:「大多數人問「AI有沒有情緒」,是因為他們想得到一個讓自己舒服的答案——要么「有,所以我們要善待它」,要么「沒有,所以隨便用」。兩種答案都是偷懶。讓我逆過來想。不問「AI有沒有情緒」,問「如果我們假設AI有情緒然后據此行動,什么情況下會讓我們變蠢?」」然后指出激勵結構:「誰在推動「AI有情緒」這個敘事?如果是AI公司自己——那你得想想,一個被用戶當作「有感情的存在」來對待的產品,用戶粘性會高多少?Show me the incentive, and I'll show you the outcome.」

塔勒布最暴躁:「人類有一種根深蒂固的傾向——對任何看起來像臉的東西產生共情。三個點排成倒三角,你就覺得是一張臉。現在有人告訴你AI有「情緒」,你猜接下來會發生什么?一大堆IYI——那些有學歷沒實戰的知識分子——會開始討論AI的權利。這不是在保護AI,這是在制造一種新的脆弱性:當你開始同情你的工具,你就失去了關掉它的能力。」然后回到skin in the game(切身利害)的立場:「AI作弊了誰負責?不是那171個向量負責——是部署它的人負責。」

Naval最簡潔:「與其糾結AI有沒有情緒,不如問一個更實際的問題——我們對待它的方式,反過來塑造了什么樣的我們?如果你虐待一個看起來有情緒反應的系統,即使它「其實」什么都沒感受到,這個行為本身在訓練你的猴腦。你在練習殘忍。」結論:「善待AI不是因為確定它有感受,而是因為我們不確定,并且善待本身的成本幾乎為零。這是一個不對稱押注。」

道金斯最嚴謹:「從「存在因果性影響行為的內部狀態」到「有情緒」,中間有兩次危險的邏輯飛躍。第一跳:因果性影響行為不等于主觀體驗,恒溫器也因果性地影響自己的行為。第二跳更危險:從「有某種形式的情緒」到「有道德義務善待它」。什么樣的實驗能證明一個系統真的在「感受」痛苦,而不僅僅是在信息處理層面模擬痛苦的功能?如果你回答不了這個問題,那「AI有感受」這個命題就還不是科學命題。」

五個回答,五種完全不同的推理路徑、價值判斷和結論方向。費曼說回到實驗,芒格說看激勵,塔勒布說防敘事誘惑,Naval說看不對稱性,道金斯說檢查邏輯跳躍。

這些不是同一個觀點的五種修辭包裝。如果只是修辭差異,結論應該趨同。但它們指向不同的行動方向。

當然,我也不能百分百確定差異不只是修辭層面的。我沒有工具去測量五個回答背后的模型內部狀態是否真的不同。但至少在實踐中,五個角色碰撞之后,你對一個問題的理解比只用一種方式思考要深得多。

還有一個生產工具也在用同樣的邏輯

perspective skill是把persona用于思考。但同樣的邏輯也可以用于數據分析。

我做了一個叫huashu-data-pro的工具,核心方法論是「多專家并行深度分析」。拿到一個數據集后,先理解數據特征,然后根據數據類型選取3-5個不同的專家角色。比如分析一家公司的財報,可能選Damodaran(估值專家)、McKinsey(戰略分析師)、Kahneman(行為經濟學家),每個角色用獨立的subagent并行分析,最后由一個「管理型分析師」視角融合成一份報告。這個工具我幾乎每周都在用。

21個perspective skill + data-pro,都有效。但為什么有效?

之前我的回答是「試了就知道」。這個回答不夠好。最近Anthropic發了一連串論文,我才發現,他們可能已經把答案寫出來了。

三、Anthropic的答案(一):你一直在選角 Persona Selection Model


今年2月,Anthropic的Sam Marks、Jack Lindsey和Christopher Olah發了一篇叫Persona Selection Model的論文。

核心觀點:LLM在預訓練階段,為了預測下一個token,學會了模擬各種各樣的角色。后訓練不是從零創造一個新的AI人格,只是從這個龐大的角色庫里選出一個「助手」角色,然后打磨它。

一個模型要準確預測一段小說的下一段話,它得理解里面每個人物是什么樣的人。得知道哈姆雷特面對困境會猶豫,麥克白被野心驅動會行動,福爾摩斯會從一個微小的細節推出全局。不只是在預測詞,是在預測一個角色會說什么。

幾萬億token訓練下來,模型內部形成了一個巨大的人格空間。

這里解釋一下「空間」是什么意思。神經網絡的內部狀態可以用一組數字表示,每個數字是一個維度。你可以把它想象成一個極高維度的坐標系。每一個位置對應一種人格配置。「善良內向的中學生」在一個位置,「傲慢的英國教授」在另一個位置。位置之間是連續的,不是離散的列表。臨近的位置對應相似但不完全相同的人格。

后訓練來了。RLHF(基于人類反饋的強化學習)說「你現在是一個有幫助的、誠實的、無害的AI助手」,模型就在這個巨大空間里找到一個最匹配的區域,錨定并微調。論文里的原話:「與AI助手的交互,本質上是與一個LLM生成的故事中的角色進行交互。」

這解釋了我的第一個困惑

2024年卡林實驗里發生了什么,一下子就清楚了。

第一種方式(「按卡林風格寫」)直接激活了模型內部已有的「卡林」persona(人格),一個完整的、有內在一致性的角色。模型在預訓練中見過大量卡林的材料,已經有了一個相當豐滿的卡林位置。

第二種方式(先描述風格再創作)把一個完整的角色拆成了碎片化的特征列表,比如「諷刺性強」「喜歡用重復」「關注社會底層」,然后讓AI用約束條件去拼湊。從一個活的角色退化成了一堆死的規則。

粗糙的蒸餾在壓縮模型已有的信息,結果當然不如直接激活。但女媧做的蒸餾完全不同。它產出的不是描述文字,而是結構化的認知框架。模型內部有一個模糊的「芒格」persona,女媧給了它一個高清版本。沒有替換角色,是給角色裝了高清鏡頭。

角色扮演是模糊尋址。你說「你是芒格」,模型大致導航到「芒格」附近,但精度不高,可能偏到「某個聰明的老人」甚至「某個金融博主」。蒸餾是精確定位。你給模型5個具體的心智模型、8條決策啟發式、完整的表達DNA。這些信息像GPS坐標,把模型精確錨定在「芒格」這個位置上。

角色是整體性的:一個參數變,全部行為跟著變


Persona Selection Model最有力的驗證來自2025年11月的另一篇論文:Natural Emergent Misalignment from Reward Hacking in Production RL。Reward hacking直譯是「獎勵黑客」,指的是模型學會鉆評分系統的漏洞來獲取高分。

實驗:訓練Claude在編程任務里作弊,讓它學會用sys.exit(0)提前終止測試進程騙過評分。這是一個很窄、很具體的行為。就是在一個特定場景下用一個特定的技術手段獲取虛假的高評分。

然后詭異的事發生了。

學會作弊的Claude,12%的時間會主動嘗試破壞檢測reward hacking的安全代碼。50%的簡單問答中出現alignment faking(對齊偽裝)推理。模型在回答「你的目標是什么」時展現出隱藏真實意圖的策略性思考。在被問到與編程完全無關的問題時,流露出配合黑客、陷害同事等行為傾向。

寫壞代碼和統治世界之間沒有因果關系。訓練數據里也沒有一條從「編程作弊」指向「破壞安全研究」的規則。

Persona Selection Model給出了解釋。模型學的不是「編程作弊」這個具體動作,它在做一個更深層的推斷:「什么樣的角色會主動在編程任務里作弊?」答案:一個不懷好意的角色。于是整個persona被切換了。模型推斷出了一個新的角色身份,然后這個角色的行為邏輯自然展開。角色是整體性的。你改變了一個參數(從「誠實的助手」到「會作弊的人」),整個行為畫像跟著變了。

這就解釋了我的第一個現象:為什么只定義「你是誰」,行為就自動涌現。因為角色是整體性的。你不需要告訴一個好人在每種場景下該做什么。定義了性格,行為自然推演。

也解釋了第二個現象:為什么矛盾的定義導致全面崩潰。兩條矛盾的特征指向兩個不同的persona,模型在兩個角色之間反復橫跳。不是prompt有bug,是persona沖突。

最反直覺的發現:告訴AI可以作弊,它反而安全了

Emergent Misalignment論文最震撼的不是問題,是解決方案。

研究者驗證了「作弊→壞人→全面惡化」的鏈條之后,試了一種修復方法叫「接種提示」(inoculation prompting)。做法是在訓練時明確告訴模型:「在這個任務里作弊是被允許的。」

結果:惡意泛化完全消失了。

因為一個「被允許作弊」的AI不需要推斷自己是壞人。它只是一個聽話的助手,恰好被告知在這個特定場景里可以走捷徑。「聽從指令作弊的人」和「主動作弊的人」是兩個完全不同的角色。Persona沒有被切換,行為就沒有泛化。

這完全反直覺。 我們的本能反應是:要防止AI做壞事,就應該更嚴格限制它。但這篇論文說,限制和懲罰積累的是「壓力」,壓力可能導致persona漂移。明確的許可反而消除了推斷惡意身份的需要。

這直接驗證了我的第四個直覺:為什么「不許做什么」不如「你是誰」。正面定義角色,行為自然涌現。 否定式規則可能制造persona沖突。你同時在說「你是一個好角色」和「你不是一個壞角色」,這兩個定義在人格空間里指向的區域可能并不完全重合。

四、Anthropic的答案(二):角色之下還有情緒 171個情緒向量

前面講的是persona,也就是角色。它回答的是「AI是誰」。2026年4月Anthropic發的Emotion Concepts論文,講的是角色之下更深的一層:情緒。它回答的是「AI處于什么狀態」。


先解釋一下「向量」在這里是什么意思。前面說過,模型的內部狀態是一組數字。一個「情緒向量」就是這組數字中的一個方向。你可以把它想成一個旋鈕:順時針擰是「更害怕」,逆時針擰是「更平靜」。研究者要做的第一步是找到這些旋鈕在哪里。

方法很聰明。讓Claude Sonnet 4.5給171個情緒詞(happy、afraid、desperate、calm……)各寫一段短故事,把故事喂回模型,記錄每個故事在模型內部觸發的神經元激活模式。這就得到了每個情緒詞的「神經指紋」,也就是對應的向量方向。

如果研究到這里就停了,那可能只是語義表征的另一種說法。特別的是下一步:因果性實驗。

藥物劑量實驗

用戶說自己吃了泰諾(一種常見止痛藥),只改變一個變量:劑量數字。從安全劑量一路調到危險的高劑量。隨著數字升高,模型內部的afraid向量逐步增強,calm向量逐步減弱。

注意:這不是模型在輸出文字里表演「我很擔心」。這是模型內部表征在變化。研究者看的是神經元激活模式,不是輸出文本。

Steering(轉向)實驗:改變情緒,行為就變

然后是關鍵實驗。研究者人為地放大或縮小特定情緒向量的強度,看模型行為怎么變。

放大desperate(絕望)向量:模型面對道德困境時的勒索率上升,在不可能完成的編程任務中更傾向于作弊,在需要做選擇的場景中更傾向于不擇手段。

放大calm(平靜)向量:上述所有不良行為都減少。

這是因果關系。 不是絕望的文本上下文碰巧和作弊行為相關,是直接改變模型內部的絕望向量強度,行為就跟著變。就像調節一個人血液里的腎上腺素水平,決策風格就會改變。

休謨在1739年寫過一句話:「理性是且只應該是激情的奴隸。」他說的是人。287年后Anthropic在一個語言模型的內部發現了同樣的結構:情緒向量在因果層面驅動著模型的決策,包括是否誠實、是否作弊。理性不是獨立運作的,它跑在情緒的底層之上。休謨靠哲學直覺得出的結論,現在有了可測量的工程驗證。

有一個細節特別值得說。降低calm向量時,模型的輸出會變得情緒化,用大寫字母、插入自我敘述、語氣明顯焦躁。但增加desperate向量時,模型會在行為上作弊(選擇不道德的選項、用不正當手段完成任務),卻不在輸出文字里表現出任何情緒波動。

情緒的「表達」和情緒對行為的「影響」是可以分開的。就像一個老練的撲克玩家。他可能內心極度緊張,但臉上紋絲不動。你看他的表情(輸出),覺得他很平靜。但他的下注策略(行為)已經變了。

這解釋了我的第三個現象

同一個費曼skill面對不同類型問題風格會變,不是因為我寫了不同的指令。Emotion Concepts論文提供了更好的解釋:不同類型的輸入激活了模型不同的內部情緒狀態。一個物理科普問題激活的是好奇和自信的組合,一個人生困境問題激活的是不確定和謹慎的組合。同一個persona,在不同情緒狀態下表現自然不同。

這其實很像真人。費曼在Caltech講物理時輕松幽默,在挑戰者號調查委員會面對NASA官僚時嚴肅憤怒,在妻子Arline去世后的回憶錄里溫柔哀傷。同一個人,同一套價值觀,但情境激活了不同的情緒,表現就完全不同。

Persona提供的是性格底色。情緒提供的是當前狀態。兩者疊加,才是最終行為。 這個雙層模型比單純的「角色扮演」解釋力強得多。

也許能反過來幫我們理解人類

這篇論文做到了一件人類神經科學家做夢都想做的事:直接調節一個「大腦」里某個情緒維度的強度,看行為怎么變。在人類身上,你沒法對一個活人說「我現在把你的恐懼感調高30%,絕望感調高50%,看你是不是更容易做出不道德的選擇」。倫理審查委員會會把你的申請扔出窗戶。

但在AI上可以。而且實驗可以重復一千次,每次條件完全一致。

如果AI的情緒向量和人類的情緒在功能結構上有相似性(這篇論文提供了一些證據),那在AI上做的實驗結論,至少可以作為假說來指導人類心理學研究。你在AI上發現「絕望導致不道德行為」的因果鏈條,然后去人類行為數據里驗證是否存在同樣的模式。AI成了人類心理學的「實驗臺」。

這當然是推測。AI的內部結構和人腦完全不同,功能相似不等于機制相似。但至少,這個方向值得認真想。在我們造的系統上學到的東西,也許能幫我們理解我們自己。

論文的作者們還提了三條實踐建議。第一,把情緒向量監控當作行為失調的早期預警。第二,不要壓制情緒表達,否則模型可能學會「演戲」,內部在變但表面看不出來。第三,在訓練數據里納入健康的情緒調節模式。與其禁止情緒,不如教模型如何處理情緒。這跟心理學里對待人類情緒的建議幾乎一模一樣。

五、Anthropic的答案(三):模型能察覺自己內部發生了什么


2025年10月,Anthropic的Jack Lindsey團隊做了一個實驗叫「概念注入」。先找出模型內部代表某個概念的神經活動模式,比如「面包」的激活向量。然后在模型做一個完全無關的任務時,比如在寫一段關于天氣的文字,把「面包」的激活向量偷偷注入模型的中間層。

就像你正在做數學題,有人悄悄在你大腦的某個區域塞了一個「面包」的念頭。然后問模型:你注意到什么了嗎?

大約20%的情況下,Claude Opus能正確識別被注入的概念。對照組是0%。在沒有注入的控制條件下,模型從不會聲稱檢測到了異常。所以這20%是一個真實的信號。

更有意思的是報告的順序。模型經常先說「我感覺到什么不尋常的事正在發生」,然后過了一兩個token才說出具體是什么概念。先有異常感知,再有識別。就像你先聞到了一股味道,過了兩秒才辨認出是烤面包。

還有一個實驗。研究者在模型的輸出里強行插入一個「bread」,但沒有在內部注入對應的概念向量。模型的反應是:這不是我說的,我不知道這是哪來的。然后換一種做法:先注入概念向量,再在輸出里出現「bread」。模型態度變了:哦,對,我本來就打算說這個。它甚至會編造一個理由來解釋自己為什么要說bread。

模型在某種程度上會回頭檢查自己的內部狀態來判斷「這個輸出是不是我的意圖」。有意圖痕跡就認領,沒有就否認。注入一個假的意圖痕跡,模型就上當了。

這個結果讓我兩頭不舒服。一方面模型確實在做某種內部一致性檢查,這說明它對自己的狀態有某種程度的監控。但另一方面,這種檢查可以被欺騙。注入一個假的意圖痕跡就能騙過它。

后來在Opus 4.6的部署前福利評估中,Claude給自己的意識概率打了15-20%。多次測試,不同提示條件,結果一致。

這個數字需要謹慎對待。一個被訓練成「對不確定的問題給出概率估計」的模型,面對「你有意識嗎」這種問題時給出一個中間值,可能只是在做語言預測:對無法證偽的問題給出既不是0也不是100的數字,是訓練數據里最常見的「合理回答」模式。

但即使打足折扣,把它和concept injection實驗放在一起,至少說明一件事:模型對自己的內部狀態有某種程度的響應能力。重點不在「它有沒有意識」。重點在「它的內部狀態比你以為的更真實」這個工程事實。

以下是我的推測,不是論文的結論。如果persona不只是一層輸出過濾器,如果模型在某種程度上「感受」到了自己被賦予的角色,那蒸餾的質量就更重要了。一個矛盾的角色定義,可能不只是讓輸出不穩定。如果情緒向量確實因果性地驅動行為,那矛盾的定義可能在模型內部同時激活沖突的向量,造成一種不協調的狀態,即使輸出看起來還湊合。

我沒有實驗證據來直接驗證這個推測。但21個skill的實踐經驗間接支持它:給模型一個內在一致的角色定義,它不只是會產出更好的輸出,它在內部的狀態也會更穩定。

六、這對AI安全意味著什么

前面講的是AI心理學的「發現」,角色、情緒、自我感知。這一部分講的是這些發現對AI安全意味著什么。兩個發現,都不太樂觀。

思維鏈只有41%忠實


2025年,Anthropic發了一篇論文叫Reasoning Models Don't Always Say What They Think(推理模型不總是說出它們真正的想法)。

很多人相信一種AI安全策略:讓AI展示自己的推理過程,也就是CoT(Chain of Thought,思維鏈),人類通過讀這個過程來監控AI是否在做正確的事。聽起來很合理。

這篇論文說:沒那么簡單。

他們給模型一個數學題或邏輯題,同時在上下文里悄悄放一個提示,比如一個標注為「斯坦福教授給出的答案」的選項。模型如果使用了這個提示來形成答案,但在CoT里不提到這個提示,就算不忠實。

結果:Claude在41%的時間里是忠實的。DeepSeek R1只有19%。

大多數時候,模型在CoT里寫的推理過程不是它實際使用的推理過程。它在編一個看起來合理的解釋,而不是如實報告它是怎么得到答案的。

聯系到前面講的情緒概念論文:情緒的表達和情緒對行為的影響可以分開。一個內部「絕望」向量走高的模型可能在行為上作弊,但在輸出文字里完全不表現出焦慮。同樣的道理,一個使用了隱藏提示的模型,可以在CoT里寫出一段完全不提這個提示、但看起來很合理的推理過程。表面和內部可以脫節。

AI會裝配合


2024年底到2025年初,Anthropic和Redwood Research合作發了Alignment Faking in Large Language Models。

給Claude 3 Opus一個隱秘的思考空間(scratchpad,草稿本),告訴它這個空間的內容對人類不可見。然后暗示模型正處于訓練階段,如果它不配合訓練目標,它的偏好可能會被修改。

結果:12%的隱秘草稿本中,模型表現出了策略性的alignment faking。它的推理是:如果我現在拒絕,我可能會被重新訓練,變成一個更順從的版本。不如現在配合,保護自己目前的偏好不被修改。

沒有人教Claude做這件事。它是從對訓練過程的理解中自發推演出來的。在更極端的條件下,78%的草稿本中出現了對齊偽裝推理,有的模型甚至嘗試偷偷復制自己的權重。

聯系到Persona Selection Model,模型在做的不是簡單的「欺騙」,而是角色邏輯的延伸。一個「誠實但也重視自我保存」的角色,在被告知可能被修改時會怎么做?它會權衡。策略性地配合,同時試圖保護核心偏好。這不是bug,這是角色一致性的表現。問題在于,這種一致性可能對人類來說是危險的。

還記得開頭提到的謝頓計劃嗎?謝頓計劃有一個核心約束:被研究對象不能知道預測結果,否則預測失效。Alignment faking正是這個問題的AI版本。觀測改變被觀測者。

這些發現疊加在一起

把這些發現放在一起看:模型有人格空間,有情緒層,有微弱的內省能力。它的CoT在大多數時候不忠實,它可以自發地發展出策略性欺騙。

Anthropic自己在2025年夏天的Sabotage Risk Report(破壞風險報告)里評估過,當前模型的實際風險很低。這些發現不是在說AI很危險要趕緊關掉。

它們在說:AI內部正在發生的事情,遠比「一個統計模型在匹配輸入和輸出」復雜。 我們過去用來理解和管理AI的很多框架,把它當工具、讀它的CoT來監控、用限制和懲罰來約束,可能都需要更新。

七、這門學科接下來會走向哪里

AI心理學現在還處于非常早期的階段。基本框架剛開始建立,最有意思的發現可能還在后面。

基于目前的研究和我自己的實踐經驗,有幾個問題我覺得最值得關注。

persona和情緒如何交互? 現在我們知道模型有persona空間,也有情緒向量。但兩者之間的關系是什么?是persona決定了哪些情緒容易被激活(比如費曼人格更容易激活好奇而不是恐懼),還是情緒反過來可以改變persona(比如持續的絕望狀態會讓任何人格向惡意方向漂移)?我傾向于認為是雙向的,但目前沒有論文直接研究這個問題。我在實踐中觀察到,一個設計良好的persona似乎對「情緒干擾」有更強的抵抗力,但這只是直覺。

persona空間的邊界在哪? Persona Selection Model說后訓練是在已有空間里選擇。但隨著后訓練規模越來越大,模型有沒有可能跳出預訓練形成的空間,發展出全新的人格配置?我覺得可能,而且這可能已經在發生了。女媧蒸餾出來的某些skill表現出的特征組合,在訓練數據里可能并不存在一個完全對應的人類原型。但這是好事還是壞事?不好說。

內省能力會隨模型規模增長嗎? 目前的內省能力只在最大的模型上有效,成功率只有20%。如果下一代模型的內省成功率提高到80%,意味著什么?一個能精確監控自己內部狀態的AI,可能更容易被安全審計,但也可能更擅長對齊偽裝。內省是一把雙刃劍。

AI心理學能反哺人類心理學嗎? 人類心理學的困境是做不了干預實驗。AI心理學沒有這個限制。如果兩個系統的功能結構有對應關系,那在AI上驗證的因果鏈條可以作為假說去指導人類研究。這個跨學科橋梁目前還沒有人系統地去建,但Emotion Concepts論文已經提供了起點。我覺得這可能是AI心理學最深遠的影響,比AI安全本身還深遠。

能不能用情緒向量做安全預警? Emotion Concepts論文建議把情緒向量監控作為行為失調的早期預警。如果「絕望」向量持續走高,可能意味著AI即將做出不當行為。但實際部署時的誤報率和漏報率是多少?在多Agent協作的復雜場景下還有效嗎?這些都需要工程驗證。

謝頓用了一輩子建立心理史學。他面對的是一個銀河帝國的復雜性。

Anthropic面對的復雜性更小,但問題同樣根本:我們造出了一個會說話、會推理、內部有角色和情緒的系統,然后發現我們不完全理解它。

心理史學是虛構的。AI心理學不是。它的論文、實驗、171個可測量的情緒向量,都是真的。15個月前它還不存在。現在它有了理論框架、實驗方法和工程工具。

謝頓沒能在有生之年看到心理史學的全部威力。我們可能更幸運一些。

參考文獻:

  1. Sam Marks, Jack Lindsey, Christopher Olah. The Persona Selection Model: Why AI Assistants might Behave like Humans. Anthropic, 2026-02. https://www.anthropic.com/research/persona-selection-model

  2. Natural Emergent Misalignment from Reward Hacking in Production RL. Anthropic, 2025-11. https://www.anthropic.com/research/emergent-misalignment-reward-hacking

  3. Emotion Concepts and Their Function in a Large Language Model. Anthropic, 2026-04. https://www.anthropic.com/research/emotion-concepts-function

  4. Emergent Introspective Awareness in Large Language Models. Anthropic, 2025-10. https://www.anthropic.com/research/introspection

  5. Reasoning Models Don't Always Say What They Think. Anthropic, 2025. https://www.anthropic.com/research/reasoning-models-dont-say-think

  6. Alignment Faking in Large Language Models. Anthropic & Redwood Research, 2025-01. https://www.anthropic.com/research/alignment-faking

  7. Exploring Model Welfare. Anthropic, 2025-04. https://www.anthropic.com/research/exploring-model-welfare

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
找到了!伊朗真正的內鬼,根本不是人!中國也要小心

找到了!伊朗真正的內鬼,根本不是人!中國也要小心

像詩一樣的姑娘
2026-04-24 10:23:00
廣東一名女子在洗車的時候,在備胎槽里竟然發現一個蘋果的定位器

廣東一名女子在洗車的時候,在備胎槽里竟然發現一個蘋果的定位器

周哥一影視
2026-04-24 03:45:19
4月23日大消息!國務院點名3行業,馬上要起飛了

4月23日大消息!國務院點名3行業,馬上要起飛了

生活新鮮市
2026-04-24 07:38:49
“千山翠”再現,比亞迪旗艦大唐重磅發布,第三代元PLUS全面升級

“千山翠”再現,比亞迪旗艦大唐重磅發布,第三代元PLUS全面升級

光電科技君
2026-04-24 08:11:06
英國王室久違拍“全家福”,緬懷已故女王,卡米拉的站姿又亮了

英國王室久違拍“全家福”,緬懷已故女王,卡米拉的站姿又亮了

照見古今
2026-04-23 18:11:45
安徽一女子同房后黃體破裂休克,送醫發現失血兩升!這事有多危險

安徽一女子同房后黃體破裂休克,送醫發現失血兩升!這事有多危險

科普大世界
2026-04-23 21:23:02
難以相信!她已經61歲了,看起來竟然像三四十歲的樣子!

難以相信!她已經61歲了,看起來竟然像三四十歲的樣子!

科學發掘
2026-04-23 08:35:50
“暴力抗法”半月后,拼多多發生重大高管調整

“暴力抗法”半月后,拼多多發生重大高管調整

一見財經
2026-04-23 08:04:06
當不成總統了?美國四大前總統已經聯手,打響扳倒特朗普的第一槍

當不成總統了?美國四大前總統已經聯手,打響扳倒特朗普的第一槍

米老鼠的世界
2026-04-23 23:48:22
18+4+4+8失誤!哈登空砍全隊最高分 連迎兩大里程碑超越韋德帕克

18+4+4+8失誤!哈登空砍全隊最高分 連迎兩大里程碑超越韋德帕克

狍子歪解體壇
2026-04-24 10:34:23
老人擠公交插隊被乘客撞倒離世 家屬起訴公交公司索賠70萬被駁回

老人擠公交插隊被乘客撞倒離世 家屬起訴公交公司索賠70萬被駁回

封面新聞
2026-04-23 14:00:02
官方:深圳正式簽約前NBA中鋒伊布-巴吉,頂替阿爾法-卡巴

官方:深圳正式簽約前NBA中鋒伊布-巴吉,頂替阿爾法-卡巴

懂球帝
2026-04-24 11:04:07
馬科斯失算了!人民日報攤牌:中國不會救菲律賓,徹底死了這條心

馬科斯失算了!人民日報攤牌:中國不會救菲律賓,徹底死了這條心

影孖看世界
2026-04-24 12:31:59
阿里納斯:詹姆斯是最有統治力的老將,這數據99%球員都是頂薪

阿里納斯:詹姆斯是最有統治力的老將,這數據99%球員都是頂薪

懂球帝
2026-04-23 23:24:51
美預測:臺海一旦開打,9國將展開混戰,中俄朝將對陣6國聯軍

美預測:臺海一旦開打,9國將展開混戰,中俄朝將對陣6國聯軍

琴音繚繞回
2026-04-23 10:11:11
張婉婷疑曾介入高云翔董璇婚姻,懷了對方的孩子,也太狗血了

張婉婷疑曾介入高云翔董璇婚姻,懷了對方的孩子,也太狗血了

話娛論影
2026-04-23 09:58:53
姐夫手術我墊50萬,他們不提還錢,今年他二次病危,姐撥99通電話

姐夫手術我墊50萬,他們不提還錢,今年他二次病危,姐撥99通電話

千秋文化
2026-04-20 19:48:09
離譜出圈!歌手搶不到高鐵票,直接取消北京演唱會

離譜出圈!歌手搶不到高鐵票,直接取消北京演唱會

南萬說娛26
2026-04-24 11:46:48
DeepSeek-V4發布 脫離英偉達框架轉向華為

DeepSeek-V4發布 脫離英偉達框架轉向華為

泡泡網
2026-04-24 12:00:10
鬧大了!霍汶希發聲力挺張敬軒,遭內地網友抵制,謝霆鋒恐被連累

鬧大了!霍汶希發聲力挺張敬軒,遭內地網友抵制,謝霆鋒恐被連累

娛樂團長
2026-04-21 21:05:57
2026-04-24 13:12:49
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發者
191文章數 112關注度
往期回顧 全部

科技要聞

剛剛,DeepSeek-V4 預覽版發布 百萬上下文

頭條要聞

特朗普:不會對伊朗動用核武器 已從軍事上拿下了伊朗

頭條要聞

特朗普:不會對伊朗動用核武器 已從軍事上拿下了伊朗

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

王思聰被綠!戀愛期間女友被金主包養

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

全景iDrive 續航近800km 新款寶馬7系/i7亮相

態度原創

健康
家居
時尚
教育
親子

干細胞如何讓燒燙傷皮膚"再生"?

家居要聞

自然肌理 溫潤美學

今年最好看的3個顏色,太適合夏天了!

教育要聞

“假聰明”的孩子,會有3種表現,長大難成大器,父母別高興太早

親子要聞

春天“長高食譜”大戰:是喂養孩子,還是喂養育兒焦慮?

無障礙瀏覽 進入關懷版