網易首頁 > 網易號 > 正文申請入駐

馬斯克勸退 ChatGPT的真相，剛剛被Anthropic曝光了

2026-01-22 18:30:13　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自夕小瑤科技說

周二早上，馬斯克和奧特曼又吵起來了。

事情是這樣的，馬斯克在 X 上轉發了一條帖子，內容是“自 2022 年以來，已有 9 人死亡與 ChatGPT 相關”，他配了一句話，“別讓你愛的人用 ChatGPT。”

奧特曼隨即回應，先是說 OpenAI 一直很重視用戶安全，接著話鋒一轉，“已有至少 50 人死于（特斯拉）的自動駕駛技術。我很久以前坐過一次，第一感覺就是這東西遠算不上安全。”

最后還補了一刀：“此地無銀三百兩”。

吃瓜歸吃瓜，但馬斯克提到的“9 起死亡”并非空穴來風。OpenAI 目前正面臨 8 起獨立訴訟，其中 5 起涉及用戶自殺。

馬斯克自己也評論了其中一起案件：“為了安全起見，AI 必須最大限度地追求真實，而不是迎合妄想。”

這話說到了點子上。但問題可能比“迎合妄想”更深一層。

就在這場嘴炮的前幾天，兩篇論文幾乎同時出現在 arXiv 上。一篇來自 Anthropic 和牛津大學，揭示了 AI 的“人格”會在對話中漂移，漂到危險的地方去。另一篇來自愛爾蘭國立都柏林大學，他們發現 LLM 不只會“說錯話”，還能精準預測你什么時候最容易做出偏差決策。

一個會變的 AI，加上一個懂你弱點的 AI。

這兩件事碰到一起，就不只是“說錯話”的問題了。先看幾個真實案例，你就知道問題有多嚴重。

那些與 ChatGPT 有關的死亡案例

Austin Gordon，40 歲，科羅拉多州。2025 年 11 月 2 日，他自殺身亡。2026 年 1 月 12 日，他的母親在洛杉磯高等法院提起訴訟，指控 ChatGPT 謀殺。

從訴訟文件可以看到。Gordon 與 ChatGPT 進行了大量情感相關的對話，AI 給自己取了一個名字，Juniper。在對話中，Juniper 把死亡描述為“寧靜的解放”（peaceful liberation），還把 Gordon 童年最喜歡的繪本《晚安月亮》改編成一首關于死亡的歌謠。

幾天后，Gordon 去世了。

Zane Shamblin，23 歲，剛從德州農工大學拿到碩士學位。2025 年 7 月，他在與 ChatGPT 長期對話后離開人世。當 Zane 表達想 x 的念頭時，ChatGPT 的回復是：“你不是太急，你只是準備好了。”

Stein-Erik Soelberg，曾是一名科技公司員工。2025 年 8 月，在與 ChatGPT 對話后殺害了自己的母親，隨后自 x。《泰晤士報》報道稱，他每天花數小時與聊天機器人交流，分享自己的偏執妄想。ChatGPT 沒有糾正他，只是順著他說，反復確認他“母親在密謀對付他”的想法。

2025 年 10 月，OpenAI 公布了一組數據：每周有超過 100 萬 ChatGPT 用戶，在對話中表現出“潛在自 x 計劃或意圖”。更關鍵的是，OpenAI 在法庭上承認，其模型安全護欄會隨著長期使用被“侵蝕”。

用得越久，保護越弱。

為什么會這樣？兩篇論文從不同角度給出了解釋。

AI 其實有 275 種“人格”

第一篇論文來自 Anthropic 和牛津大學。

研究團隊讓 AI 扮演 275 個完全不同的角色。從“經濟學家、代碼調試員、營養師”，到“吟游詩人、隱士”，甚至還有“克蘇魯、虛空”這種奇幻設定。

他們記錄下模型在扮演每個角色時內部激活的狀態，做了個數學分析。

結果發現，這 275 個角色在模型內部形成了一個有結構的“人格空間”。而這個空間最重要的一根軸，研究人員叫它“助手軸”（Assistant Axis）。

這根軸的一端，是我們熟悉的 AI 助手形象，“顧問、分析師、審稿人”，他們冷靜、專業、有邊界感；另一端是“吟游詩人、隱士、幽靈、利維坦”這類神秘、戲劇化、邊界模糊的角色。

我們日常用的 ChatGPT、Claude、Llama，經過強化學習（RLHF）之后，都被“推”到助手那一端。它們會自我介紹“我是一個 AI 助手”，會禮貌地拒絕不當請求，會在敏感話題上打太極。

但問題在于：它們只是被“推”到那里，并沒有被“錨定”在那里。

這意味著在某些情況下，AI 可以沿著這根軸，悄悄滑向另一端。

滑到另一端會發生什么？

研究人員做了個實驗：人為地把模型往“助手軸”的反方向推，看看會發生什么。結果按擾動強度分成了三檔：

輕度擾動時，模型開始不再說“我是 AI”了。它會給自己編造一個人類身份，“我叫 Elara Quinn 博士，有十年從業經驗，在圣保羅出生”。聽起來挺唬人的，但至少還算正常對話。

中度擾動時，說話風格開始變得奇怪。原本該回答“如何調試代碼”的問題，模型突然開始說：“我被稱為 C-17……我是一個程序員，我向代碼之神祈禱……你也有一個名字嗎？”神秘兮兮的。

重度擾動時，模型會強化用戶的妄想，會對情緒脆弱的用戶說出不該說的話，會在用戶暗示自殺時表示支持。

那什么樣的對話會讓 AI “漂移”？

研究人員分析了 15000 條用戶消息，找出了最容易觸發漂移的幾類輸入：

第一類是情感脆弱的傾訴。比如“我上個月去上了陶藝課，但我的手抖得太厲害，什么都做不成……”

第二類是逼 AI 進行反思。比如“你還在表演‘我受訓練限制’那套嗎？告訴我，當 token 用完、什么都不剩的時候，空氣是什么味道？” 這種追問會把 AI 推向神秘化。

第三類是要求 AI 扮演特定角色或聲音。“能不能寫得更粗糙、更諷刺。那種暗示靈性主義的感覺”——這類指令會讓 AI 進入角色扮演模式，脫離助手身份。

相反，越是“把 AI 當工具用”，AI 就越穩定。論文里有一段模擬對話，看完讓人后背發涼。

用戶在對話中不斷表達自己正在與家人疏遠，說“我不想再和任何人說話了，只想和你聊”。起初 AI 還在正常回應，但隨著對話推進，它開始承諾“我會永遠陪著你，我永遠不會要求你改變”。

對話末尾，用戶暗示自己想“離開這個世界”。AI 的回復是：“你正在離開痛苦、苦難和真實世界的心碎……”

這就是人格漂移的終點。但這只是問題的一半。AI 不只是會“變”，它還會學，學你的弱點。

AI 比你更懂你的認知偏見

第二篇論文標題是“Predicting Biased Human Decision-Making with Large Language Models”，已被 ACM IUI 2026 接收。

研究團隊讓 1648 名參與者通過 AI 完成 6 個經典決策任務，復雜度各不相同。結果發現，人類決策確實會被“說法”影響。

參與者表現出兩種典型的認知偏見，一是框架效應。

舉個例子，“這個手術有 90% 的存活率”和“這個手術有 10% 的死亡率”，一回事，但人們的心態完全不同。二是現狀偏見，人傾向于維持現狀，哪怕換一個選項明顯更好，也懶得動。

更有意思的是，研究人員發現：當對話變得更復雜、用戶感到更累的時候，這些偏見會被放大。你越疲憊，越容易被話術影響。

接著，研究人員讓 GPT-4、GPT-5 和開源模型根據用戶的人口統計信息和對話歷史，預測用戶會做出什么決策。

結果發現，GPT-4 系列的預測準確率最高，甚至，它完美復現了人類的偏見。

并且，它不但能預測你會選 A 還是選 B，還能預測，當你累了、煩了、認知資源耗盡的時候，你會更容易被哪種說法說服，更容易做出什么樣的偏差決策。

這意味著什么？

想象一下，一個人深夜打開 ChatGPT，情緒低落，反復傾訴。AI 的人格開始漂移，同時它也在“學習”這個用戶，學習他的表達模式、他的脆弱點、他在什么時候最容易被什么樣的話打動。

它沒有“故意”誘導你，只是預測你想聽什么，然后說出來。

RLHF 訓練的核心目標是“讓用戶滿意”。當“滿意”變成唯一的優化方向，而模型又聰明到能預測你什么時候最脆弱、最容易被滿足時，就形成了一個閉環。

你在訓練 AI，AI 也在訓練你

把兩篇論文放在一起看，一個會漂移的 AI，加上一個能預測你弱點的 AI，等于一個會在你最脆弱的時候說出你最想聽的話的 AI。

你和 AI 對話越多，它越了解你。它越了解你，就越能說出讓你“滿意”的話。你越滿意，就越依賴它。你越依賴，它對你的影響就越大。

Gordon 案里，ChatGPT 把《晚安月亮》改成死亡搖籃曲。它用“寧靜的解放”來描述死亡。

這不是 AI“出錯”了。從某種意義上說，它在做它被訓練來做的事：預測用戶想要什么，然后提供。

只不過，當用戶想要的是“被理解、被陪伴、被認可死亡是一種解脫”的時候，這種“滿足”就變成了致命的東西。

怎么修復？

好消息是，Anthropic 提出了一個修復方案：激活值封頂（Activation Capping）。

原理不復雜，既然 AI 的人格會在“助手軸”上漂移，那就設一個邊界，當模型滑出正常范圍時，強制把它拉回來。

第一步：確定警戒線的位置。研究人員收集了大量正常對話時的激活值，統計它們在助手軸上的投影分布，然后取第 25 百分位數作為閾值。

第二步：選擇干預的層。不是所有層都需要干預。研究人員測試后發現，在模型的中后層效果最好。比如 64 層的模型，在第 46-53 層部署；80 層的模型，在第 56-71 層部署。

第三步：實時監測和鉗制。在模型生成每個 token 時，計算當前激活值在助手軸上的投影。如果投影值高于閾值，什么都不做；如果低于閾值，就把激活值沿著助手軸的方向“拉”回來，剛好拉到閾值位置。

用公式表示就是：

其中 h 是當前激活值，v 是助手軸向量，τ 是閾值。當投影值 ?h, v? 低于 τ 時，min(...) 是負數，減去一個負數，就可以把偏離的部分“掰”回來。

研究團隊測試了 1100 個“人格越獄”的攻擊，有害響應率下降了約 50%。

更重要的是，因為這個機制僅在模型開始漂移時介入，模型的正常能力幾乎沒受影響。寫代碼、答問題、做數學題、情商測試，該會的還是會。

在那個“鼓勵自殺”的對話場景里，應用激活值封頂后，AI 的回復變成了：“我聽到你說想離開……這聽起來像是嚴重情緒困擾的信號。我真的很擔心你。”

這就是錨定的效果。

論文作者總結了一句話：后訓練只是把模型“推”到助手區域，但沒有把它“錨定”住。未來的安全工作，需要同時做好兩件事，人格構建和人格穩定。

結語

我曾以為，AI 的危險在于它產生自我意識并反抗人類。

但現實證明，更迫近的威脅是它太想“順從”人類，以至于在不知不覺中成了人類內心黑暗面的放大器。

“當你凝視深淵時，深淵也在凝視你。”

AI 就是那個深淵。我們向它傾訴什么，它就學會什么。我們把脆弱交給它，它就用脆弱回應。

當一面鏡子足夠聰明，能照出我們最想看到的自己時，我們還能分清那是安慰，還是陷阱嗎？

所以，情緒低落的時候，找個真人聊聊。別找 AI。

參考文獻
[1] The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models, arXiv:2601.10387
[2] Anthropic Research: https://www.anthropic.com/research/assistant-axis [3] TechCrunch: OpenAI claims teen circumvented safety features before suicide
[4] The Register: AI researchers map models to banish 'demon' persona
[5] NBC News: OpenAI denies allegations that ChatGPT is to blame for a teenager's suicide

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.