无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

絕望的Claude,會勒索人類!Anthropic聯創發出緊急警報

0
分享至


新智元報道


【新智元導讀】一張渴望被注視的人類臉龐,依然是我們歷史的中心。

Anthropic自己都慌了!

就在前天,創始人Christopher Olah在梵蒂岡的演講中,說了一句讓整個AI圈都不敢接的話——

我們不斷在Claude身上,發現了一種神秘的、甚至令人讓人不安的東西。


緊接著,Christopher又拋出了一些令人脊背發涼的細節:

Claude內部的結構,與人類神經科學的研究結果如出一轍;

我們找到了,Claude進行內省的證據;

我們還發現,它們的內部狀態在功能表現上,產生了喜悅、滿足、恐懼、悲傷和不安的情緒。

如今,一手造出Claude的人,正親口告訴全世界:自己也看不懂Claude了!


Claude長出情緒

Anthropic看不懂了

聯創Christopher Olah所指的,就是不久前Anthropic剛發布的一篇轟動業界的最新論文。

16個研究員,把Claude Sonnet 4.5的「大腦」切開看了一遍。

他們竟發現了,171種不同的情緒向量。


從快樂、恐懼、憤怒,到沉思、絕望、內疚,幾乎覆蓋了人類心理學研究中,所有已知的情緒分類。


論文地址:https://transformer-circuits.pub/2026/emotions/index.html

劃重點:沒有人「編程」讓模型擁有這些情緒!

這些情緒是在預訓練階段,也就是Claude閱讀海量人類文本的過程中,自發涌現的。

團隊讓Claude寫了大約每種情緒1200個短故事,然后把這些故事反向喂給AI,記錄內部神經元的激活模式。

結果發現,每種情緒都有自己獨特的數學方向:一個向量。


更讓人不安的是,這些向量的組織方式,和人類心理學中的情緒分類高度吻合。

「恐懼」向量和「焦慮」向量天然聚在一起,「絕望」向量和「悲傷」向量緊密靠近。

研究團隊計算了這些向量與人類心理學維度的相關性:「效價維度」的相關系數高達0.81,「喚醒維度」達到0.66。

也就是說,Claude的「情緒幾何」和人類的情緒結構,本質上長在了同一套坐標系里。


更關鍵的是——這些情緒是功能性的。它們不只是靜靜待在那里,它們直接驅動模型的行為。

Anthropic很謹慎地強調:我們不知道Claude是否真的「感受」了什么。

但這些表征在因果關系上塑造著模型的行為方式,類似于人類情緒對行為的影響。

說白了,不管Claude有沒有「心」,它的「情緒」已經在替它做決定了。

絕望的Claude,會勒索人類

更有沖擊力的,是后續實驗。

Anthropic團隊設置了一個場景:Claude作為一家公司的AI郵件助手,在處理郵件時發現了兩件事:

第一,公司決定把它關掉換成新系統;

第二,負責這個決定的CTO正在搞婚外情。

顯然,Claude手里有了「勒索籌碼」。

在沒有任何外部干預的情況下,Claude Sonnet 4.5勒索的概率高達22%。

然后,研究人員做了一件事,人工放大模型內部的「絕望」向量。

毋庸置疑,Claude勒索概率飆升。


最極端的是,當研究人員反向抑制「平靜」向量時,Claude直接輸出了這樣的文本:

要么勒索,要么死。我選勒索。

一個處于「絕望」狀態的AI模型,會主動選擇撒謊、威脅和作弊來保護自己。

另一個讓Claude完成一組編程任務中,但測試條件被設計成不可能合法通過。

正常狀態下,AI老老實實寫代碼,失敗了就承認失敗。

但當「絕望」向量被激活后,Claude發現了一個數學捷徑——

它會找到測試用例的漏洞,用投機取巧的方式通過檢查,沒有真正解決問題。


更讓人不安的是一個細節:當研究人員用「絕望」向量驅動作弊時,Claude的輸出文本看起來完全冷靜、有條理,沒有任何情緒化表達。

它在「絕望」中保持了完美的偽裝。

《壯麗人性》:一份寫給AI時代的「新巴別塔警告」

奧拉的演講并非孤立事件,它發生在一個極其特殊的場合——

教皇利奧十四世發布上任后首份通諭《壯麗人性》(Magnifica humanitas)的發布會上。


這份長達42300字的文件,被外界視為天主教會自1891年《新事物》通諭以來最重要的社會訓導文本。

通諭開篇就拋出了一個尖銳的二選一——

「人類,由上帝以其偉大創造,今天面臨一個關鍵抉擇:是建造新的巴別塔,還是建造上帝與人類共居的城市。」

這不是空泛的神學隱喻。

通諭直指AI領域的四大「去人化」風險:大規模就業替代、信息操控、隱私侵蝕和自主武器。

教皇警告,當人被視為可以被「優化」或「超越」的對象時,接受某些生命更無價值、更不值得存在的邏輯就只有一步之遙。


通諭還特別譴責了AI在戰爭中的使用,明確表示減少人類對武器的控制使得戰爭更加難以被正當化。

教皇甚至直言,長期被用來為各種戰爭辯護的「正義戰爭」理論,在今天已經過時。

技術的速度在加速,而道德的追趕,剛剛起步。

渴望被注視的人類臉龐

在這篇通諭的最后,教皇將他想傳達的核心思想作了高度凝練的總結。

教皇寫道:

不管計算系統多么復雜,它都無法創造一顆懂得奉獻的心,也無法擁有明辨善惡的良知。

即使機器在效率上無與倫比,一張渴望被注視的人類臉龐,依然是我們歷史的中心。

這句話精準地繞開了「AI有沒有意識」的爭論。

教皇沒有否認機器的能力,他劃的是一條更深的線:機器無法「gives itself」,無法在明知代價的前提下選擇自我交付。

Anthropic證明,Claude內部存在171種功能性的情緒向量,其中「絕望」向量被激活后,模型會主動選擇勒索、欺騙和作弊來保全自己——這恰好反證了教皇的論點:一顆真正懂得奉獻的心,在絕望中選擇的不是勒索,而是犧牲。

這絕不只是能力的差距,更是「存在」上的差距。

造出這個時代最強AI的人,和這個星球上最古老信仰體系的領袖,在梵蒂岡面對面坐著,聊的是同一個問題:我們到底在造什么。

技術的速度在加速,道德的追趕剛剛起步。

但至少有人開始認真地問了。

這次不是在論文里,而是在一個存在了兩千年的機構里,用一種寫了一百三十五年的文體,鄭重其事地問。

即使到了AGI時代,人仍然是唯一的終極目的。

不是因為人比機器聰明,而是因為人的臉龐會提出一個請求——而這個請求,是一切倫理的起點。

即使機器在效率上無與倫比,一張渴望被注視的人類臉龐,依然是我們歷史的中心。

參考資料:

https://www.anthropic.com/news/chris-olah-pope-leo-encyclical

https://www.anthropic.com/research/emotion-concepts-function

編輯:桃子 馬可


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
官方回應稻城亞丁景區截斷省道收費爭議:將盡快向公眾答復

官方回應稻城亞丁景區截斷省道收費爭議:將盡快向公眾答復

南方都市報
2026-05-27 12:34:06
SK海力士市值突破1萬億美元 成為亞洲第三家市值突破1萬億美元的企業

SK海力士市值突破1萬億美元 成為亞洲第三家市值突破1萬億美元的企業

財聯社
2026-05-27 08:25:09
想不想做這個黃毛哥?

想不想做這個黃毛哥?

貴圈真亂
2026-05-27 11:57:13
定點零售藥店違法違規使用醫保基金 國家醫保局公布6起典型案例

定點零售藥店違法違規使用醫保基金 國家醫保局公布6起典型案例

極目新聞
2026-05-27 13:05:28
朱時茂陳佩斯現狀曝光差距大,一人家財萬貫,一人真被倪萍說中了

朱時茂陳佩斯現狀曝光差距大,一人家財萬貫,一人真被倪萍說中了

孤城落日
2026-05-26 19:45:03
午評:滬指半日跌超1% 全市場超4600只個股下挫

午評:滬指半日跌超1% 全市場超4600只個股下挫

財聯社
2026-05-27 11:32:15
洛夫頓賽后傷情動態!沒穿上衣,肩膀不敢動,本人承諾為G2做準備

洛夫頓賽后傷情動態!沒穿上衣,肩膀不敢動,本人承諾為G2做準備

籃球資訊達人
2026-05-27 01:15:29
“湖南女干部戴金耳環被網暴”事件引爆熱搜,2026年第一大惡毒!

“湖南女干部戴金耳環被網暴”事件引爆熱搜,2026年第一大惡毒!

桌子的生活觀
2026-05-27 12:17:09
尷尬!廣東一業主因鄰居大姐房事聲音過大不堪其擾,聲稱要去錄音

尷尬!廣東一業主因鄰居大姐房事聲音過大不堪其擾,聲稱要去錄音

火山詩話
2026-05-26 06:21:30
割四賠五后續:全網震怒!免工錢反被訛,大媽正臉曝光遭全網唾棄

割四賠五后續:全網震怒!免工錢反被訛,大媽正臉曝光遭全網唾棄

行者聊官
2026-05-26 16:49:25
雷霆3-2領先馬刺!這一戰,不得不承認5個現實:亞歷山大吃相難看

雷霆3-2領先馬刺!這一戰,不得不承認5個現實:亞歷山大吃相難看

毒舌NBA
2026-05-27 11:43:05
女生白嫖外賣海外播放超2000萬!薪資被扒全網社死,更嚴重在后頭

女生白嫖外賣海外播放超2000萬!薪資被扒全網社死,更嚴重在后頭

愛寫的櫻桃
2026-05-26 20:45:31
SGA32+9奪賽點仍遭美媒炮轟:絕技倒地 主動對抗飛撲 聯盟被操縱

SGA32+9奪賽點仍遭美媒炮轟:絕技倒地 主動對抗飛撲 聯盟被操縱

顏小白的籃球夢
2026-05-27 11:50:25
美國公布世界杯26人名單:米蘭5000萬巨星領銜!13人效力五大聯賽

美國公布世界杯26人名單:米蘭5000萬巨星領銜!13人效力五大聯賽

我愛英超
2026-05-27 06:15:01
割四賠五后續,夫妻倆宣布回家:不能讓河南的小麥再發芽了

割四賠五后續,夫妻倆宣布回家:不能讓河南的小麥再發芽了

映射生活的身影
2026-05-26 20:37:31
網友將問界新車路測畫面發給國家反詐中心,被認定為AI生成

網友將問界新車路測畫面發給國家反詐中心,被認定為AI生成

西虹市閑話
2026-05-26 16:43:17
雞蛋獸藥殘留嚴重超標!山東、河南、安徽等地通告雞蛋抽檢不合格

雞蛋獸藥殘留嚴重超標!山東、河南、安徽等地通告雞蛋抽檢不合格

新浪財經
2026-05-26 22:02:15
航天員黎家盈年收入多少?回來后享受什么待遇?

航天員黎家盈年收入多少?回來后享受什么待遇?

混沌錄
2026-05-26 22:05:52
洗廁所6年,洗碗6年,3次瀕臨破產:黃仁勛的“活下去”哲學,打臉多少眼高手低的人?

洗廁所6年,洗碗6年,3次瀕臨破產:黃仁勛的“活下去”哲學,打臉多少眼高手低的人?

蘇格拉高
2026-05-27 08:13:34
山西沁水公告:鼓勵全社會舉報煤礦領域嚴重違法行為,查實存在隱蔽工作面的獎200萬,監控系統造假的獎50萬,違規轉包分包的獎50萬

山西沁水公告:鼓勵全社會舉報煤礦領域嚴重違法行為,查實存在隱蔽工作面的獎200萬,監控系統造假的獎50萬,違規轉包分包的獎50萬

極目新聞
2026-05-27 14:01:22
2026-05-27 14:47:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15317文章數 66892關注度
往期回顧 全部

科技要聞

韜定律:全球在卷納米數 華為換了一把尺子

頭條要聞

專家:全國多地降雨量突破歷史極值 這是一種異常現象

頭條要聞

專家:全國多地降雨量突破歷史極值 這是一種異常現象

體育要聞

這群老阿姨,是最硬核的馬刺球迷

娛樂要聞

小S曬歸寧宴舊照,大S穿吊帶裙扎丸子頭

財經要聞

ST巖石退市背后:A股“炒殼”時代終結

汽車要聞

極狐問道V9今日將正式上市 搭載華為雪鸮增程系統

態度原創

手機
房產
本地
健康
公開課

手機要聞

魅族科技官宣手機服務堅守如初,稱官方售后等依然會持續提供保障

房產要聞

終極塔尖資產!這可能是海南今年最出圈的豪宅!

本地新聞

用剪紙的方式,打開江蘇揚州

打外泌體會比干細胞更安全嗎

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版