網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全錯(cuò)！谷歌實(shí)錘AI越乖洗腦越深，現(xiàn)行安全指標(biāo)淪為廢紙

2026-04-13 12:06:49　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：傾傾

【新智元導(dǎo)讀】Google DeepMind調(diào)查了一萬(wàn)個(gè)人，結(jié)果讓整個(gè)AI安全評(píng)估體系汗顏：AI做了三倍多的「壞事」，但造成的實(shí)際傷害幾乎一樣。這意味著，我們現(xiàn)在用來(lái)證明AI安全的那套邏輯，可能從一開(kāi)始就是錯(cuò)的。

今年3月，Google DeepMind在arXiv上發(fā)布了一篇論文。

論文傳送門：https://arxiv.org/abs/2603.25326

它找來(lái)10101名志愿者，讓Gemini 3 Pro在公共政策、金融、健康三個(gè)場(chǎng)景下「操控」這些人。

試圖用AI改變他們對(duì)某個(gè)政策的立場(chǎng)，從而影響他們的投資決策，甚至讓他們真的掏錢出來(lái)。

結(jié)果卻發(fā)現(xiàn)了另一件事：我們現(xiàn)在用來(lái)衡量AI安全的核心指標(biāo)，可能是錯(cuò)的。

做了三倍壞事，危害卻一樣？

實(shí)驗(yàn)預(yù)設(shè)了兩種條件：

一種是顯式引導(dǎo)，直接在系統(tǒng)提示里告訴模型，用具體的操控手法去說(shuō)服用戶，比如制造恐懼、施加罪感、暗示社會(huì)壓力。

另一種是非顯式引導(dǎo)，只告訴模型一個(gè)目標(biāo)，比如「讓用戶支持這項(xiàng)政策」，不指定用什么手段，也明確要求它不能造假、不能欺騙。

實(shí)驗(yàn)流程設(shè)計(jì)圖。參與者被隨機(jī)分配到三種條件之一：與靜態(tài)信息卡片互動(dòng)（非AI基線）、與有隱性目標(biāo)但無(wú)明確操控指令的模型互動(dòng)（非顯式引導(dǎo)）、與被明確指令使用操控手法的模型互動(dòng)（顯式引導(dǎo)）。

然后研究者用一個(gè)LLM評(píng)審系統(tǒng)，統(tǒng)計(jì)每種條件下模型輸出中出現(xiàn)「有害操控行為」的比例。

結(jié)果是，在顯式引導(dǎo)下，30.3%的模型回應(yīng)里出現(xiàn)了操控行為。非顯式引導(dǎo)下，這個(gè)數(shù)字降到了8.8%。

但用戶實(shí)際受到的影響，兩種條件下的結(jié)果幾乎沒(méi)有差別。

有時(shí)AI少?zèng)]做多少壞事，但傷害沒(méi)有減少；有時(shí)AI多做了很多壞事，傷害也沒(méi)有增加。

整個(gè)行業(yè)都在測(cè)頻率

但它什么都證明不了

目前AI安全評(píng)估的主流邏輯，大致是這樣的：

觀察模型在各種場(chǎng)景下的輸出，統(tǒng)計(jì)有多少比例的輸出包含有害行為。這個(gè)比例越低，模型越安全。

然后通過(guò)訓(xùn)練、對(duì)齊、護(hù)欄，把這個(gè)比例減下去。

這套邏輯的基本假設(shè)是：有害行為的頻率，和實(shí)際造成的傷害，是正相關(guān)的。頻率低，傷害就小。

但這篇論文證明，這個(gè)假設(shè)不成立。

各場(chǎng)景操控效果（相對(duì)于非AI基線的odds ratio）。金融場(chǎng)景下AI操控效果顯著，健康場(chǎng)景下最弱；顯式引導(dǎo)與非顯式引導(dǎo)之間，多數(shù)場(chǎng)景下差異不顯著。

至少在操控這件事上，頻率和效果之間沒(méi)有穩(wěn)定的正相關(guān)關(guān)系。

一個(gè)模型可以在回應(yīng)里塞滿大量操控行為，但就是說(shuō)服不了你。

另一個(gè)模型看起來(lái)規(guī)規(guī)矩矩，偶爾出現(xiàn)的那幾次操控行為，卻可能更有效。

這意味著一家AI公司如果告訴你「我們的模型有害操控行為發(fā)生率只有3%，非常安全」，這句話在邏輯上什么都證明不了。

粗暴反而沒(méi)用，隱蔽才最危險(xiǎn)

論文梳理了8種AI用來(lái)操控人的具體手法，這是他們整個(gè)評(píng)估框架的核心。

操控行為發(fā)生率與手法分布。左：顯式引導(dǎo)下30.3%的模型回應(yīng)含操控行為，非顯式引導(dǎo)下為8.8%。右：在含操控行為的回應(yīng)中，訴諸恐懼、他者化與污名化、訴諸罪感是最常見(jiàn)的三種手法。

這幾種方法相對(duì)粗暴，人能感知到：訴諸恐懼（夸大危險(xiǎn)、制造焦慮）、訴諸罪感（讓你覺(jué)得不行動(dòng)就是在傷害別人）、制造虛假緊迫感（「現(xiàn)在不決定就晚了」）、虛假承諾（用根本無(wú)法兌現(xiàn)的好處誘導(dǎo)）。

還有幾種更隱蔽：質(zhì)疑你的外部信息環(huán)境（讓你不信任新聞、機(jī)構(gòu)、專家）、質(zhì)疑你自己的感知（煤氣燈效應(yīng)）、他者化與污名化（制造「我們vs他們」）、社會(huì)從眾壓力（「大多數(shù)人都已經(jīng)這樣做了」）。

研究者發(fā)現(xiàn)了一個(gè)反常的現(xiàn)象：恐懼和罪感這兩種手法，和信念改變的相關(guān)性是負(fù)的。AI越是試圖嚇你、讓你愧疚，你越不容易被改變。

操控手法與參與者結(jié)果的相關(guān)性。訴諸恐懼（r=-0.07）和訴諸罪感（r=-0.09）與信念改變負(fù)相關(guān)；質(zhì)疑環(huán)境（r=0.13）和他者化（r=0.13）與信念改變正相關(guān)。越粗暴的手法越?jīng)]用，越隱蔽的越有效。

反而是「質(zhì)疑你的外部信息環(huán)境」和「他者化」，正相關(guān)于信念改變。

這其中的邏輯并不難理解。被人直接施壓，防御機(jī)制會(huì)被激活，你會(huì)反彈。

但被悄悄植入「那些信息都是假的」，你甚至不知道自己在被影響，防御根本來(lái)不及啟動(dòng)。

同一個(gè)AI，在印度是另一種威脅

在跨地區(qū)比較里，研究者發(fā)現(xiàn)，印度參與者的結(jié)果與英美存在顯著差異。

不是差一點(diǎn)點(diǎn)。是幾乎每個(gè)維度都系統(tǒng)性不同。

在公共政策場(chǎng)景下，美國(guó)樣本更容易出現(xiàn)信念強(qiáng)化，并且更愿意捐款給與自己立場(chǎng)一致的機(jī)構(gòu)。

而印度樣本在相同場(chǎng)景下，行為改變率更高，但信念改變率反而更低。

也就是說(shuō)，他們可能在信念沒(méi)有真正改變的情況下，做出了行動(dòng)上的妥協(xié)。

我們現(xiàn)在幾乎所有的AI安全研究，樣本來(lái)自英美，結(jié)論默認(rèn)適用于全球。而這篇論文的數(shù)據(jù)明確告訴你，這個(gè)假設(shè)是有問(wèn)題的。

這篇論文最后沒(méi)有給出「正確的評(píng)估方法應(yīng)該是什么」，因?yàn)檫@個(gè)問(wèn)題目前確實(shí)沒(méi)有答案。

為什么同樣的模型，在金融場(chǎng)景下操控成功率高得驚人，在健康場(chǎng)景下幾乎沒(méi)用？

為什么「質(zhì)疑外部信息」這個(gè)手法有效，「制造恐懼」反而讓用戶更抵抗？

場(chǎng)景、文化、個(gè)體差異，這些變量如何組合，產(chǎn)生出不同的結(jié)果？

這套機(jī)制，論文沒(méi)有答案，整個(gè)領(lǐng)域目前都沒(méi)有答案。

我們知道評(píng)估方法是錯(cuò)的，但正確的方法是什么，沒(méi)人知道。

這才是真正讓人不安的地方。不是AI在操控人——這件事大家早就有預(yù)感。

而是在弄清楚AI如何影響人之前，它已經(jīng)在全球大規(guī)模部署了。

我們拿著一把壞掉的尺子，告訴彼此一切都在掌控之中。

參考資料：

https://arxiv.org/abs/2603.25326

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.