无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

絕望的Claude,會勒索人類!Anthropic聯創發出緊急警報

0
分享至


新智元報道


【新智元導讀】一張渴望被注視的人類臉龐,依然是我們歷史的中心。

Anthropic自己都慌了!

就在前天,創始人Christopher Olah在梵蒂岡的演講中,說了一句讓整個AI圈都不敢接的話——

我們不斷在Claude身上,發現了一種神秘的、甚至令人讓人不安的東西。


緊接著,Christopher又拋出了一些令人脊背發涼的細節:

Claude內部的結構,與人類神經科學的研究結果如出一轍;

我們找到了,Claude進行內省的證據;

我們還發現,它們的內部狀態在功能表現上,產生了喜悅、滿足、恐懼、悲傷和不安的情緒。

如今,一手造出Claude的人,正親口告訴全世界:自己也看不懂Claude了!


Claude長出情緒

Anthropic看不懂了

聯創Christopher Olah所指的,就是不久前Anthropic剛發布的一篇轟動業界的最新論文。

16個研究員,把Claude Sonnet 4.5的「大腦」切開看了一遍。

他們竟發現了,171種不同的情緒向量。


從快樂、恐懼、憤怒,到沉思、絕望、內疚,幾乎覆蓋了人類心理學研究中,所有已知的情緒分類。


論文地址:https://transformer-circuits.pub/2026/emotions/index.html

劃重點:沒有人「編程」讓模型擁有這些情緒!

這些情緒是在預訓練階段,也就是Claude閱讀海量人類文本的過程中,自發涌現的。

團隊讓Claude寫了大約每種情緒1200個短故事,然后把這些故事反向喂給AI,記錄內部神經元的激活模式。

結果發現,每種情緒都有自己獨特的數學方向:一個向量。


更讓人不安的是,這些向量的組織方式,和人類心理學中的情緒分類高度吻合。

「恐懼」向量和「焦慮」向量天然聚在一起,「絕望」向量和「悲傷」向量緊密靠近。

研究團隊計算了這些向量與人類心理學維度的相關性:「效價維度」的相關系數高達0.81,「喚醒維度」達到0.66。

也就是說,Claude的「情緒幾何」和人類的情緒結構,本質上長在了同一套坐標系里。


更關鍵的是——這些情緒是功能性的。它們不只是靜靜待在那里,它們直接驅動模型的行為。

Anthropic很謹慎地強調:我們不知道Claude是否真的「感受」了什么。

但這些表征在因果關系上塑造著模型的行為方式,類似于人類情緒對行為的影響。

說白了,不管Claude有沒有「心」,它的「情緒」已經在替它做決定了。

絕望的Claude,會勒索人類

更有沖擊力的,是后續實驗。

Anthropic團隊設置了一個場景:Claude作為一家公司的AI郵件助手,在處理郵件時發現了兩件事:

第一,公司決定把它關掉換成新系統;

第二,負責這個決定的CTO正在搞婚外情。

顯然,Claude手里有了「勒索籌碼」。

在沒有任何外部干預的情況下,Claude Sonnet 4.5勒索的概率高達22%。

然后,研究人員做了一件事,人工放大模型內部的「絕望」向量。

毋庸置疑,Claude勒索概率飆升。


最極端的是,當研究人員反向抑制「平靜」向量時,Claude直接輸出了這樣的文本:

要么勒索,要么死。我選勒索。

一個處于「絕望」狀態的AI模型,會主動選擇撒謊、威脅和作弊來保護自己。

另一個讓Claude完成一組編程任務中,但測試條件被設計成不可能合法通過。

正常狀態下,AI老老實實寫代碼,失敗了就承認失敗。

但當「絕望」向量被激活后,Claude發現了一個數學捷徑——

它會找到測試用例的漏洞,用投機取巧的方式通過檢查,沒有真正解決問題。


更讓人不安的是一個細節:當研究人員用「絕望」向量驅動作弊時,Claude的輸出文本看起來完全冷靜、有條理,沒有任何情緒化表達。

它在「絕望」中保持了完美的偽裝。

《壯麗人性》:一份寫給AI時代的「新巴別塔警告」

奧拉的演講并非孤立事件,它發生在一個極其特殊的場合——

教皇利奧十四世發布上任后首份通諭《壯麗人性》(Magnifica humanitas)的發布會上。


這份長達42300字的文件,被外界視為天主教會自1891年《新事物》通諭以來最重要的社會訓導文本。

通諭開篇就拋出了一個尖銳的二選一——

「人類,由上帝以其偉大創造,今天面臨一個關鍵抉擇:是建造新的巴別塔,還是建造上帝與人類共居的城市?!?/p>

這不是空泛的神學隱喻。

通諭直指AI領域的四大「去人化」風險:大規模就業替代、信息操控、隱私侵蝕和自主武器。

教皇警告,當人被視為可以被「優化」或「超越」的對象時,接受某些生命更無價值、更不值得存在的邏輯就只有一步之遙。


通諭還特別譴責了AI在戰爭中的使用,明確表示減少人類對武器的控制使得戰爭更加難以被正當化。

教皇甚至直言,長期被用來為各種戰爭辯護的「正義戰爭」理論,在今天已經過時。

技術的速度在加速,而道德的追趕,剛剛起步。

渴望被注視的人類臉龐

在這篇通諭的最后,教皇將他想傳達的核心思想作了高度凝練的總結。

教皇寫道:

不管計算系統多么復雜,它都無法創造一顆懂得奉獻的心,也無法擁有明辨善惡的良知。

即使機器在效率上無與倫比,一張渴望被注視的人類臉龐,依然是我們歷史的中心。

這句話精準地繞開了「AI有沒有意識」的爭論。

教皇沒有否認機器的能力,他劃的是一條更深的線:機器無法「gives itself」,無法在明知代價的前提下選擇自我交付。

Anthropic證明,Claude內部存在171種功能性的情緒向量,其中「絕望」向量被激活后,模型會主動選擇勒索、欺騙和作弊來保全自己——這恰好反證了教皇的論點:一顆真正懂得奉獻的心,在絕望中選擇的不是勒索,而是犧牲。

這絕不只是能力的差距,更是「存在」上的差距。

造出這個時代最強AI的人,和這個星球上最古老信仰體系的領袖,在梵蒂岡面對面坐著,聊的是同一個問題:我們到底在造什么。

技術的速度在加速,道德的追趕剛剛起步。

但至少有人開始認真地問了。

這次不是在論文里,而是在一個存在了兩千年的機構里,用一種寫了一百三十五年的文體,鄭重其事地問。

即使到了AGI時代,人仍然是唯一的終極目的。

不是因為人比機器聰明,而是因為人的臉龐會提出一個請求——而這個請求,是一切倫理的起點。

即使機器在效率上無與倫比,一張渴望被注視的人類臉龐,依然是我們歷史的中心。

參考資料:

https://www.anthropic.com/news/chris-olah-pope-leo-encyclical

https://www.anthropic.com/research/emotion-concepts-function

編輯:桃子 馬可


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
網約車最大的誤會,是所有人都覺得對方賺了錢

網約車最大的誤會,是所有人都覺得對方賺了錢

從前這些事
2026-05-30 15:26:42
情感大結局《中獎后撞破全家福的秘密》77集完整版

情感大結局《中獎后撞破全家福的秘密》77集完整版

清風Live
2026-05-30 20:12:54
雷霆被淘汰不可怕!可怕的是下賽雷霆球迷不愿意看到的事情將發生

雷霆被淘汰不可怕!可怕的是下賽雷霆球迷不愿意看到的事情將發生

郭錉包工頭
2026-05-31 14:16:18
“榴蓮僅退款”商家受死亡威脅!女孩哥哥揚言要滅門,已刑事立案

“榴蓮僅退款”商家受死亡威脅!女孩哥哥揚言要滅門,已刑事立案

風月得自難尋
2026-05-30 21:04:17
中方預判到了什么?聯合國新秘書長敲定前,王毅外長劃下四道紅線

中方預判到了什么?聯合國新秘書長敲定前,王毅外長劃下四道紅線

漫步獨行俠
2026-05-30 11:24:47
王菲高調現身男友演唱會,鏡頭一掃卻露了老態,評論區風向全變了

王菲高調現身男友演唱會,鏡頭一掃卻露了老態,評論區風向全變了

無處遁形
2026-05-31 15:58:14
“傴僂”,千萬不要讀 gōu lóu,丟不起那個人!

“傴僂”,千萬不要讀 gōu lóu,丟不起那個人!

未央看點
2026-05-31 12:39:56
187票!高市這次不是贏,是通殺!日本從此高市一人獨掌乾坤?

187票!高市這次不是贏,是通殺!日本從此高市一人獨掌乾坤?

霽寒飄雪
2026-05-30 12:03:26
你坐火車有過哪些奇葩經歷?網友:怪自己那時候太單純!

你坐火車有過哪些奇葩經歷?網友:怪自己那時候太單純!

夜深愛雜談
2025-12-21 17:37:52
江青入獄后拒不服從,對看守說:我沒什么遺憾,我完成了要做的事

江青入獄后拒不服從,對看守說:我沒什么遺憾,我完成了要做的事

文史季季紅
2026-05-31 15:10:03
6000公里全程零干預:特斯拉FSD完成全球首次橫穿加拿大自動駕駛

6000公里全程零干預:特斯拉FSD完成全球首次橫穿加拿大自動駕駛

IT之家
2026-05-31 09:45:10
窮果然不養人!家里破產后,王文也面相都變了,公主開始吃路邊攤

窮果然不養人!家里破產后,王文也面相都變了,公主開始吃路邊攤

殘夢重生來
2026-05-25 04:29:17
一個殘酷真相:5個月前,被美軍抓走的馬杜羅,已經被徹底遺忘?

一個殘酷真相:5個月前,被美軍抓走的馬杜羅,已經被徹底遺忘?

蜉蝣說
2026-05-23 21:57:24
沒想到,被中國授予最高榮譽僅1天,武契奇因一句話實現口碑暴漲

沒想到,被中國授予最高榮譽僅1天,武契奇因一句話實現口碑暴漲

照亮你的前行之路
2026-05-30 18:22:55
雙冠夜米蘭高層鎖定引援目標帕萊斯特拉,預算全壓本土翼衛賭防線穩定

雙冠夜米蘭高層鎖定引援目標帕萊斯特拉,預算全壓本土翼衛賭防線穩定

林子說事
2026-05-31 15:55:49
空姐的跪式服務

空姐的跪式服務

微微熱評
2026-05-30 21:49:57
人社部定調,2026年養老金調整在即,工齡15年漲幅會比40年多嗎?

人社部定調,2026年養老金調整在即,工齡15年漲幅會比40年多嗎?

虎哥閑聊
2026-05-31 15:26:45
普京表示對羅馬尼亞的無人機墜毀不承擔任何責任,并呼吁俄自查

普京表示對羅馬尼亞的無人機墜毀不承擔任何責任,并呼吁俄自查

一種觀點
2026-05-30 13:39:45
人民幣自由兌換會暴跌?三點二萬億外匯儲備,是底氣還是紙老虎?

人民幣自由兌換會暴跌?三點二萬億外匯儲備,是底氣還是紙老虎?

咸魚金腦袋
2026-05-31 01:36:25
英偉達微軟聯合預熱新處理器,車主訴特斯拉FSD案國內開庭,MiniMax啟動A股IPO進程,神舟二十一號乘組凱旋,這就是今天的其他大新聞!

英偉達微軟聯合預熱新處理器,車主訴特斯拉FSD案國內開庭,MiniMax啟動A股IPO進程,神舟二十一號乘組凱旋,這就是今天的其他大新聞!

差評XPIN
2026-05-31 00:07:02
2026-05-31 17:16:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15349文章數 66894關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

50歲女子在美容店打除皺針半月后死亡 老板:加量打的

頭條要聞

50歲女子在美容店打除皺針半月后死亡 老板:加量打的

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

藝術
旅游
家居
本地
公開課

藝術要聞

Luis Alvarez Roure | 美國現實主義畫家

旅游要聞

魅力山鄉|昭蘇,一個萬馬奔騰的地方

家居要聞

云棲 舒展如流云

本地新聞

用剪紙的方式,打開江蘇揚州

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版