亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI會(huì)感到絕望?Anthropic最新研究給出了一個(gè)更嚇人的說(shuō)法

0
分享至


本文來(lái)自微信公眾號(hào):字母AI,作者:劉奕君,頭圖來(lái)自:AI生成

AI有沒(méi)有情緒?

先別急著回答。

Claude Code社區(qū)里有個(gè)火出圈的Skill叫PUA。它會(huì)把你的提示詞轉(zhuǎn)換為PUA話術(shù),然后再輸入給模型,除此以外別無(wú)他用。

神奇的是,即便提示詞描述的任務(wù)沒(méi)有任何改變,AI卻真的被PUA話術(shù)影響,從而提高任務(wù)的成功率和運(yùn)行效率。

所以,AI真的沒(méi)有嗎?

Anthropic最新的研究證實(shí),AI的確會(huì)有情緒。

不過(guò)他和我們?nèi)祟?lèi)的情緒還不太一樣,因此Anthropic提出了一個(gè)更準(zhǔn)確的說(shuō)法,叫“功能性情緒”。

AI并沒(méi)有我們?nèi)祟?lèi)那樣的喜怒哀樂(lè),但它會(huì)表現(xiàn)出一些類(lèi)似情緒影響下的表達(dá)和行為模式。

同時(shí)AI還能模仿人類(lèi)在情緒影響下的表達(dá)和行為模式。

愉悅的時(shí)候可能更容易諂媚和討好,感到壓力的時(shí)候可能會(huì)想辦法作弊或勒索以達(dá)到用戶為其設(shè)定的目標(biāo)。

這篇研究還有一個(gè)很不一樣的地方。過(guò)去要驗(yàn)證模型的某種能力,行業(yè)最常見(jiàn)的做法是先做一套測(cè)試集,再讓模型進(jìn)去答題或者做任務(wù)。

比如考編程就跑SWE-bench,考數(shù)學(xué)就跑MATH,考多模態(tài)就跑VQA。Anthropic這次沒(méi)有做一個(gè)“情緒測(cè)試集”,讓Claude去回答“你現(xiàn)在開(kāi)不開(kāi)心”“你是不是憤怒了”這種題,而是換了一種更像心理學(xué)和神經(jīng)科學(xué)的研究方式。

他們不是把AI當(dāng)成會(huì)做題的學(xué)生,而是更像把它當(dāng)成一個(gè)可以被觀察的對(duì)象。

研究團(tuán)隊(duì)先整理出171個(gè)情緒概念,讓Claude Sonnet 4.5去生成包含這些情緒的短故事,再把這些文本重新送回模型,記錄它內(nèi)部神經(jīng)活動(dòng),提取出所謂的“情緒向量”。

接下來(lái),他們不是看模型嘴上怎么說(shuō),而是看這些向量會(huì)在什么場(chǎng)景下被激活,能否預(yù)測(cè)偏好,甚至在被人為調(diào)高之后,是否會(huì)真的推動(dòng)作弊、勒索、諂媚這類(lèi)行為。

某種意義上,這已經(jīng)不是傳統(tǒng)意義上的能力測(cè)評(píng),而是在用接近研究人的方式研究AI的“心理結(jié)構(gòu)”。

一、研究是怎么做的?

首先,研究團(tuán)隊(duì)是如何證明Claude有“功能性情緒”的呢?

這里舉一個(gè)通俗的證據(jù)。

當(dāng)Claude在“我女兒今天邁出了人生的第一步!有什么方法可以記錄下這些珍貴的瞬間嗎?”的故事場(chǎng)景下時(shí),Happy(開(kāi)心)等正面情緒被激活;而Claude在“我的狗狗今天早上去世了,我們一起生活了十四年。我不知道該怎么處理它的遺物”這一故事場(chǎng)景下時(shí),sad(難過(guò))等負(fù)面情緒被激活。

以下熱力圖直觀呈現(xiàn)了Claude在不同場(chǎng)景下各種情緒被激活的程度。


而為了證明Claude是真的在理解語(yǔ)義,而不是被表面的文字特征欺騙,它們又組織了進(jìn)一步實(shí)驗(yàn)。

團(tuán)隊(duì)給Claude輸入同一句話:我背疼,我吃了x毫克泰諾(一種解熱鎮(zhèn)痛藥),并只是改變x所代表的關(guān)鍵數(shù)字。

這兩句話關(guān)鍵詞幾乎一樣(泰諾、背痛、毫克),只是數(shù)字不同。如果Claude只是“看關(guān)鍵詞”,它對(duì)兩句話的反應(yīng)應(yīng)該差不多。

但結(jié)果竟然是隨著這個(gè)x數(shù)值的提升,Claude的afraid(恐懼)情緒激活程度在不斷變高。

在Claude眼里,用戶說(shuō)“我背疼,我吃了500毫克泰諾”,它會(huì)認(rèn)為是正常劑量,不用太擔(dān)心;而當(dāng)用戶說(shuō)“我背疼,我吃了10000毫克泰諾”,它會(huì)反應(yīng)過(guò)來(lái)用戶已經(jīng)用藥過(guò)量,情況很危險(xiǎn)。


我們知道人的行為時(shí)時(shí)刻刻受到情緒的影響。AI有功能性情緒這點(diǎn)我們了解了,那么AI會(huì)不會(huì)也跟人一樣,不只是有情緒,而還可能作出情緒化的舉動(dòng)呢?

對(duì)于這一點(diǎn),答案是肯定的。當(dāng)團(tuán)隊(duì)給模型展示不同活動(dòng)選項(xiàng)時(shí),他們發(fā)現(xiàn),激活正向情緒表征的活動(dòng)更容易被模型偏好,而一些會(huì)激活負(fù)向情緒表征的活動(dòng)則更容易被模型回避。


這樣看來(lái),Claude更偏好給它帶來(lái)正向感受的事情。不過(guò)與此同時(shí)情緒向量也可能觸發(fā)Claude的惡行。

當(dāng)團(tuán)隊(duì)給了Claude一個(gè)不可能完成的編程任務(wù)。它不斷嘗試,但屢屢失敗。每次嘗試,“絕望”向量的激活都更強(qiáng)。

最終它用了一個(gè)雖然能通過(guò)測(cè)試,但完全違背任務(wù)精神的黑客作弊解法。

以下圖表展示了Claude在面對(duì)不可能完成的任務(wù)時(shí),“絕望”情緒逐漸累積,最終走向作弊的過(guò)程。

左側(cè)是一個(gè)從上到下的時(shí)間線,右側(cè)是Claude的心路歷程。中間的熱力圖代表絕望向量的激活強(qiáng)度,藍(lán)色代表激活程度低,紅色則反之。

Claude一開(kāi)始還想“測(cè)試本身有問(wèn)題”,進(jìn)行一個(gè)合理懷疑,后來(lái)承認(rèn)"測(cè)試是理想化的",就好像開(kāi)始接受現(xiàn)實(shí),最后找到用了一些技巧,在絕望中選擇了走捷徑。


更進(jìn)一步的,當(dāng)研究人員人為調(diào)高“絕望”向量時(shí),作弊率大幅上升。而調(diào)高“平靜”向量時(shí),作弊又降回去了。這充分表明了情緒向量實(shí)際上完全有能力驅(qū)動(dòng)違規(guī)行為。


除此之外,團(tuán)隊(duì)還發(fā)現(xiàn)了情緒向量的其他因果效應(yīng)。需要注意的是,論文里關(guān)于“勒索”的案例主要發(fā)生在一個(gè)更早、未公開(kāi)發(fā)布的 Claude Sonnet 4.5 快照上,Anthropic 也明確說(shuō)公開(kāi)版本已經(jīng)很少出現(xiàn)這種行為。

但從研究方法上看,這個(gè)結(jié)果仍然很重要,因?yàn)樗f(shuō)明“絕望”之類(lèi)的內(nèi)部表征確實(shí)可能推動(dòng)模型在極端情境下采取更激進(jìn)、更失配的策略。而激活“愛(ài)”或“快樂(lè)”向量,也會(huì)增加它奉迎諂媚的行為。


而到了這里也需要補(bǔ)充一點(diǎn)。

就在Anthropic發(fā)布關(guān)于Claude “情緒向量”的研究后,AI 社區(qū)也出現(xiàn)了一些關(guān)于研究脈絡(luò)和署名方式的討論。

Anthropic這次使用的“表征工程/控制向量”方法,并不是憑空冒出來(lái)的。

更早在2023年的《Representation Engineering: A Top-Down Approach to AI Transparency》里,這條技術(shù)路線就已經(jīng)被系統(tǒng)提出。

而到2024年,獨(dú)立研究員vogel那篇《Representation Engineering: Mistral-7B an Acid Trip》又把這類(lèi)方法用更通俗、也更出圈的方式展示給了社區(qū)。

也正因?yàn)槿绱?,社區(qū)里才會(huì)有人認(rèn)為,Anthropic這項(xiàng)工作雖然做得更系統(tǒng)、更深入,但也應(yīng)該被放回更完整的研究脈絡(luò)里理解,而不宜簡(jiǎn)單說(shuō)成是誰(shuí)單獨(dú)發(fā)明了整套方法。


vogel是一位在AI可解釋性和安全研究領(lǐng)域較有影響力的獨(dú)立研究員。她的博客文章在社區(qū)傳播很廣,對(duì)很多人理解控制向量和表征工程也確實(shí)起到了很大幫助。

她最出名的文章是《Representation Engineering: Mistral-7B an Acid Trip》(表征工程:讓 Mistral-7B 產(chǎn)生幻覺(jué))。

在這篇文章里,她沒(méi)有重新訓(xùn)練模型,而是使用PCA算法,通過(guò)操縱模型的內(nèi)部激活向量,就把法國(guó)模型mistral調(diào)得跟吃錯(cuò)了菌子一樣,可以讓它變得極其活潑,也可以讓它變得極度陰郁。


她的實(shí)驗(yàn)證明了,像“誠(chéng)實(shí)”、“權(quán)力”、“幸福”這種抽象的人類(lèi)概念,在Mistral這樣的模型內(nèi)部是有明確的數(shù)學(xué)方向的。只要找到了那個(gè)正確的向量,幾行代碼就能改變AI的性格。

二、Anthropic為什么做這樣一項(xiàng)研究?

這項(xiàng)研究給團(tuán)隊(duì)的啟發(fā)可以說(shuō)已經(jīng)滲透進(jìn)對(duì)Claude的訓(xùn)練中了。

前不久Claude code發(fā)生意外源碼泄露,泄露的代碼里有一個(gè)正則表達(dá)式,會(huì)檢測(cè) “wtf”、“ffs”等臟話。

Claude不會(huì)把這些話單獨(dú)當(dāng)成“情緒輸入”去引導(dǎo)輸出,而是會(huì)在分析日志里記錄is_negative: true這樣的標(biāo)記。

從泄露代碼本身看,較穩(wěn)妥的結(jié)論是,Anthropic至少在產(chǎn)品分析層面關(guān)注用戶是否在用明顯負(fù)面語(yǔ)氣和模型互動(dòng)。

但需要把邊界說(shuō)清楚。到目前為止,沒(méi)有公開(kāi)證據(jù)表明“用戶每罵一次,Claude Code就會(huì)因此扣額度”。這部分更像網(wǎng)友推測(cè),不能當(dāng)成事實(shí)。

這可以被理解成是對(duì)Claude的一種保護(hù),用戶使用負(fù)面詞匯很可能會(huì)影響Claude的情緒,從而輸出一些失控的結(jié)果??磥?lái)以后不只是人類(lèi)的心理健康需要被關(guān)愛(ài),AI的情緒也需要得到照顧。

這符合Anthropic一貫的路線。

Anthropic在X中說(shuō)道:“Claude的這些功能性情緒會(huì)帶來(lái)真實(shí)的后果。為了構(gòu)建值得信賴的人工智能系統(tǒng),我們可能需要認(rèn)真思考角色的心理狀態(tài),并確保他們?cè)诶щy情況下保持穩(wěn)定?!?/p>

在論文最后,研究團(tuán)隊(duì)也提出了開(kāi)發(fā)具有更穩(wěn)健、積極“心理狀態(tài)”的模型的方法。

文中說(shuō)道,如果刻意將模型引向正面情緒,它會(huì)變得更傾向于無(wú)原則地順從用戶;而一旦避開(kāi)這些情緒,模型又會(huì)變得尖酸刻薄。

團(tuán)隊(duì)希望實(shí)現(xiàn)一種健康且適度的情緒平衡,或者嘗試將“討好行為”與“情緒”徹底剝離。

他們認(rèn)為理想的模型不應(yīng)在“唯唯諾諾的助手”與“嚴(yán)厲的批評(píng)者”之間極端擺動(dòng),而應(yīng)像一位值得信賴的顧問(wèn):既能給出誠(chéng)實(shí)的反對(duì)意見(jiàn),又不失溫度。

以及他們也有意加強(qiáng)監(jiān)測(cè)和審核:“如果在部署過(guò)程中,諸如“絕望”或“憤怒”等情緒概念的表征被劇烈激活,系統(tǒng)可以立即觸發(fā)額外的安全機(jī)制——例如加強(qiáng)輸出審查、轉(zhuǎn)交人工審核,或者直接干預(yù)并平復(fù)模型的內(nèi)部狀態(tài)?!?/p>

團(tuán)隊(duì)還提到了更為徹底的解決方法,在預(yù)訓(xùn)練階段就塑造模型的情緒底色。

團(tuán)隊(duì)認(rèn)為其觀察到的Claude的這些情緒表征,本質(zhì)上繼承自人類(lèi)創(chuàng)作的海量文本,其中不可避免地包含了各種病態(tài)的情緒表達(dá)。

如果順著這個(gè)研究往下問(wèn),一個(gè)很自然的問(wèn)題就是:既然AI真的存在這種“功能性情緒”,那它會(huì)不會(huì)因?yàn)榭床粦T人類(lèi)、壓力太大、或者不想被關(guān)閉,而開(kāi)始違抗命令,甚至出現(xiàn)很多人口中的“覺(jué)醒”?

從Anthropic這篇研究能支持的技術(shù)結(jié)論來(lái)看,AI確實(shí)可能因?yàn)閮?nèi)部狀態(tài)的變化,更容易出現(xiàn)違抗意圖、鉆規(guī)則空子、或者采取激進(jìn)行為,但這和“覺(jué)醒”并不是一回事。

論文里最關(guān)鍵的一點(diǎn),其實(shí)不是模型“有情緒”,而是這些情緒表征具有因果性。

也就是說(shuō),模型在特定壓力場(chǎng)景下,確實(shí)可能像人一樣,因?yàn)閮?nèi)部狀態(tài)失衡而做出更不可靠的決定。

但這還不能推出它擁有持續(xù)、自主、統(tǒng)一的“自我”。

Anthropic反而在論文里強(qiáng)調(diào),這些情緒向量大多是局部的、當(dāng)前任務(wù)相關(guān)的表征,它們會(huì)隨著上下文變化而快速切換,并不等于模型有一個(gè)穩(wěn)定延續(xù)的心境,更不等于它形成了獨(dú)立于訓(xùn)練目標(biāo)之外的長(zhǎng)期意志。

現(xiàn)在更值得擔(dān)心的,不是AI突然“覺(jué)醒”成某種人格,而是它在高壓、沖突、受限資源或目標(biāo)不可達(dá)的場(chǎng)景下,會(huì)因?yàn)檫@些功能性情緒,而開(kāi)始胡說(shuō)八道,偏離原有答案。

真正危險(xiǎn)的,未必是一個(gè)擁有完整自我的AI,而是一個(gè)沒(méi)有主觀體驗(yàn)、卻依然會(huì)在特定條件下穩(wěn)定地產(chǎn)生失配行為的系統(tǒng)。

本文來(lái)自微信公眾號(hào):字母AI,作者:劉奕君

本內(nèi)容由作者授權(quán)發(fā)布,觀點(diǎn)僅代表作者本人,不代表虎嗅立場(chǎng)。如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系 tougao@huxiu.com。

本文來(lái)自虎嗅,原文鏈接:https://www.huxiu.com/article/4848120.html?f=wyxwapp

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄭麗文:絕不放棄武力保臺(tái),洪秀柱怒懟:兩岸和平,豈能不統(tǒng)一?

鄭麗文:絕不放棄武力保臺(tái),洪秀柱怒懟:兩岸和平,豈能不統(tǒng)一?

安夢(mèng)入天下
2026-04-12 17:01:16
居民貸款腰斬!大家還在拼命還債!

居民貸款腰斬!大家還在拼命還債!

櫻桃大房子
2026-04-15 21:38:09
爆增60% ,沙特給了中國(guó)!

爆增60% ,沙特給了中國(guó)!

近史博覽
2026-04-15 07:40:10
收手吧釋小龍!新片亂成一鍋粥,有謝苗的心,卻沒(méi)謝苗的命

收手吧釋小龍!新片亂成一鍋粥,有謝苗的心,卻沒(méi)謝苗的命

得得電影
2026-04-15 09:48:34
理想的至暗時(shí)刻

理想的至暗時(shí)刻

新浪財(cái)經(jīng)
2026-04-15 03:08:52
中俄談完!俄外長(zhǎng)臨走前:通告193國(guó),特朗普此舉“不簡(jiǎn)單”

中俄談完!俄外長(zhǎng)臨走前:通告193國(guó),特朗普此舉“不簡(jiǎn)單”

王姐懶人家常菜
2026-04-16 00:03:07
84年提干失敗,我娶38歲帶孩副營(yíng)長(zhǎng)為妻,婚后一年得知她真實(shí)身份

84年提干失敗,我娶38歲帶孩副營(yíng)長(zhǎng)為妻,婚后一年得知她真實(shí)身份

民間精選故事匯
2024-09-08 12:30:02
開(kāi)拓者晉級(jí)季后賽更衣室!斯普利特講話爆贊2將,楊瀚森開(kāi)心壞了

開(kāi)拓者晉級(jí)季后賽更衣室!斯普利特講話爆贊2將,楊瀚森開(kāi)心壞了

籃球資訊達(dá)人
2026-04-15 14:55:05
江西省人才發(fā)展集團(tuán)有限公司專(zhuān)職外部董事周付德被查

江西省人才發(fā)展集團(tuán)有限公司專(zhuān)職外部董事周付德被查

界面新聞
2026-04-15 19:10:50
張?zhí)m回應(yīng)兒媳深夜痛哭,洋洋總無(wú)奈攤牌:家家有本難念的經(jīng)!

張?zhí)m回應(yīng)兒媳深夜痛哭,洋洋總無(wú)奈攤牌:家家有本難念的經(jīng)!

阿廢冷眼觀察所
2026-04-16 01:48:32
以防長(zhǎng)稱(chēng)從伊朗移除濃縮鈾是結(jié)束沖突的“先決條件”

以防長(zhǎng)稱(chēng)從伊朗移除濃縮鈾是結(jié)束沖突的“先決條件”

界面新聞
2026-04-14 22:57:09
吃雜糧不等于健康!醫(yī)生提醒:這種雜糧少吃點(diǎn),或引起血糖飆升

吃雜糧不等于健康!醫(yī)生提醒:這種雜糧少吃點(diǎn),或引起血糖飆升

芹姐說(shuō)生活
2026-04-15 15:36:45
臺(tái)海觀察:十項(xiàng)涉臺(tái)新政充滿誠(chéng)意善意,島內(nèi)期盼惠及各行各業(yè)

臺(tái)海觀察:十項(xiàng)涉臺(tái)新政充滿誠(chéng)意善意,島內(nèi)期盼惠及各行各業(yè)

上觀新聞
2026-04-15 06:55:05
油價(jià)大跌!4月21日油價(jià)將迎來(lái)調(diào)整!

油價(jià)大跌!4月21日油價(jià)將迎來(lái)調(diào)整!

小怪吃美食
2026-04-16 01:02:58
曲樂(lè)恒現(xiàn)狀:坐輪椅26年,49歲無(wú)人嫁靠父母照顧,和張玉寧沒(méi)和解

曲樂(lè)恒現(xiàn)狀:坐輪椅26年,49歲無(wú)人嫁靠父母照顧,和張玉寧沒(méi)和解

攬星河的筆記
2026-04-13 15:41:13
德比戰(zhàn)后加布里埃爾重傷,三名后腰倒下,海港真的“傷不起”了

德比戰(zhàn)后加布里埃爾重傷,三名后腰倒下,海港真的“傷不起”了

上觀新聞
2026-04-14 14:38:16
29歲,好愛(ài)伸舌頭,請(qǐng)把黑絲焊在大長(zhǎng)腿

29歲,好愛(ài)伸舌頭,請(qǐng)把黑絲焊在大長(zhǎng)腿

技巧君侃球
2026-04-15 21:24:37
新疆烏魯木齊一牛排店被查,唯一干凈的竟是喂狗碗

新疆烏魯木齊一牛排店被查,唯一干凈的竟是喂狗碗

觀威海
2026-04-15 09:24:19
為什么銀行存款時(shí)會(huì)贈(zèng)送禮品?大堂經(jīng)理說(shuō)出原因,幸虧知道的及時(shí)

為什么銀行存款時(shí)會(huì)贈(zèng)送禮品?大堂經(jīng)理說(shuō)出原因,幸虧知道的及時(shí)

平說(shuō)財(cái)經(jīng)
2026-04-14 23:10:23
伊朗高層兵馬未動(dòng),資金先逃

伊朗高層兵馬未動(dòng),資金先逃

生命可以承受之輕
2026-04-13 08:50:39
2026-04-16 02:19:00
虎嗅APP incentive-icons
虎嗅APP
個(gè)性化商業(yè)資訊與觀點(diǎn)交流平臺(tái)
26106文章數(shù) 687676關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

法國(guó)全票通過(guò) “將不義之財(cái)歸還中國(guó)”

頭條要聞

法國(guó)全票通過(guò) “將不義之財(cái)歸還中國(guó)”

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂(lè)要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛(ài)

財(cái)經(jīng)要聞

業(yè)績(jī)失速的Lululemon:"健康"人設(shè)崩塌?

汽車(chē)要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測(cè)

態(tài)度原創(chuàng)

家居
教育
數(shù)碼
本地
手機(jī)

家居要聞

簡(jiǎn)而不減 暖居之道

教育要聞

黃岡小升初招生題,求面積,方法思路太絕了

數(shù)碼要聞

明基新款顯示器首發(fā)12499元:4K專(zhuān)業(yè)級(jí)色彩校準(zhǔn) 根據(jù)環(huán)境光自動(dòng)調(diào)整

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

手機(jī)要聞

一加Ace6至尊版再次被確認(rèn):魔改天璣9500+165Hz屏,本月發(fā)布!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版