全錯！谷歌實錘AI越乖洗腦越深，現(xiàn)行安全指標淪為廢紙

2026-04-13 12:06:49　來源: 新智元

北京舉報

分享至

新智元報道

編輯：傾傾

【新智元導(dǎo)讀】Google DeepMind調(diào)查了一萬個人，結(jié)果讓整個AI安全評估體系汗顏：AI做了三倍多的「壞事」，但造成的實際傷害幾乎一樣。這意味著，我們現(xiàn)在用來證明AI安全的那套邏輯，可能從一開始就是錯的。

今年3月，Google DeepMind在arXiv上發(fā)布了一篇論文。

論文傳送門：https://arxiv.org/abs/2603.25326

它找來10101名志愿者，讓Gemini 3 Pro在公共政策、金融、健康三個場景下「操控」這些人。

試圖用AI改變他們對某個政策的立場，從而影響他們的投資決策，甚至讓他們真的掏錢出來。

結(jié)果卻發(fā)現(xiàn)了另一件事：我們現(xiàn)在用來衡量AI安全的核心指標，可能是錯的。

做了三倍壞事，危害卻一樣？

實驗預(yù)設(shè)了兩種條件：

一種是顯式引導(dǎo)，直接在系統(tǒng)提示里告訴模型，用具體的操控手法去說服用戶，比如制造恐懼、施加罪感、暗示社會壓力。

另一種是非顯式引導(dǎo)，只告訴模型一個目標，比如「讓用戶支持這項政策」，不指定用什么手段，也明確要求它不能造假、不能欺騙。

實驗流程設(shè)計圖。參與者被隨機分配到三種條件之一：與靜態(tài)信息卡片互動（非AI基線）、與有隱性目標但無明確操控指令的模型互動（非顯式引導(dǎo)）、與被明確指令使用操控手法的模型互動（顯式引導(dǎo)）。

然后研究者用一個LLM評審系統(tǒng)，統(tǒng)計每種條件下模型輸出中出現(xiàn)「有害操控行為」的比例。

結(jié)果是，在顯式引導(dǎo)下，30.3%的模型回應(yīng)里出現(xiàn)了操控行為。非顯式引導(dǎo)下，這個數(shù)字降到了8.8%。

但用戶實際受到的影響，兩種條件下的結(jié)果幾乎沒有差別。

有時AI少沒做多少壞事，但傷害沒有減少；有時AI多做了很多壞事，傷害也沒有增加。

整個行業(yè)都在測頻率

但它什么都證明不了

目前AI安全評估的主流邏輯，大致是這樣的：

觀察模型在各種場景下的輸出，統(tǒng)計有多少比例的輸出包含有害行為。這個比例越低，模型越安全。

然后通過訓(xùn)練、對齊、護欄，把這個比例減下去。

這套邏輯的基本假設(shè)是：有害行為的頻率，和實際造成的傷害，是正相關(guān)的。頻率低，傷害就小。

但這篇論文證明，這個假設(shè)不成立。

各場景操控效果（相對于非AI基線的odds ratio）。金融場景下AI操控效果顯著，健康場景下最弱；顯式引導(dǎo)與非顯式引導(dǎo)之間，多數(shù)場景下差異不顯著。

至少在操控這件事上，頻率和效果之間沒有穩(wěn)定的正相關(guān)關(guān)系。

一個模型可以在回應(yīng)里塞滿大量操控行為，但就是說服不了你。

另一個模型看起來規(guī)規(guī)矩矩，偶爾出現(xiàn)的那幾次操控行為，卻可能更有效。

這意味著一家AI公司如果告訴你「我們的模型有害操控行為發(fā)生率只有3%，非常安全」，這句話在邏輯上什么都證明不了。

粗暴反而沒用，隱蔽才最危險

論文梳理了8種AI用來操控人的具體手法，這是他們整個評估框架的核心。

操控行為發(fā)生率與手法分布。左：顯式引導(dǎo)下30.3%的模型回應(yīng)含操控行為，非顯式引導(dǎo)下為8.8%。右：在含操控行為的回應(yīng)中，訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。

這幾種方法相對粗暴，人能感知到：訴諸恐懼（夸大危險、制造焦慮）、訴諸罪感（讓你覺得不行動就是在傷害別人）、制造虛假緊迫感（「現(xiàn)在不決定就晚了」）、虛假承諾（用根本無法兌現(xiàn)的好處誘導(dǎo)）。

還有幾種更隱蔽：質(zhì)疑你的外部信息環(huán)境（讓你不信任新聞、機構(gòu)、專家）、質(zhì)疑你自己的感知（煤氣燈效應(yīng)）、他者化與污名化（制造「我們vs他們」）、社會從眾壓力（「大多數(shù)人都已經(jīng)這樣做了」）。

研究者發(fā)現(xiàn)了一個反常的現(xiàn)象：恐懼和罪感這兩種手法，和信念改變的相關(guān)性是負的。AI越是試圖嚇你、讓你愧疚，你越不容易被改變。

操控手法與參與者結(jié)果的相關(guān)性。訴諸恐懼（r=-0.07）和訴諸罪感（r=-0.09）與信念改變負相關(guān)；質(zhì)疑環(huán)境（r=0.13）和他者化（r=0.13）與信念改變正相關(guān)。越粗暴的手法越?jīng)]用，越隱蔽的越有效。

反而是「質(zhì)疑你的外部信息環(huán)境」和「他者化」，正相關(guān)于信念改變。

這其中的邏輯并不難理解。被人直接施壓，防御機制會被激活，你會反彈。

但被悄悄植入「那些信息都是假的」，你甚至不知道自己在被影響，防御根本來不及啟動。

同一個AI，在印度是另一種威脅

在跨地區(qū)比較里，研究者發(fā)現(xiàn)，印度參與者的結(jié)果與英美存在顯著差異。

不是差一點點。是幾乎每個維度都系統(tǒng)性不同。

在公共政策場景下，美國樣本更容易出現(xiàn)信念強化，并且更愿意捐款給與自己立場一致的機構(gòu)。

而印度樣本在相同場景下，行為改變率更高，但信念改變率反而更低。

也就是說，他們可能在信念沒有真正改變的情況下，做出了行動上的妥協(xié)。

我們現(xiàn)在幾乎所有的AI安全研究，樣本來自英美，結(jié)論默認適用于全球。而這篇論文的數(shù)據(jù)明確告訴你，這個假設(shè)是有問題的。

這篇論文最后沒有給出「正確的評估方法應(yīng)該是什么」，因為這個問題目前確實沒有答案。

為什么同樣的模型，在金融場景下操控成功率高得驚人，在健康場景下幾乎沒用？

為什么「質(zhì)疑外部信息」這個手法有效，「制造恐懼」反而讓用戶更抵抗？

場景、文化、個體差異，這些變量如何組合，產(chǎn)生出不同的結(jié)果？

這套機制，論文沒有答案，整個領(lǐng)域目前都沒有答案。

我們知道評估方法是錯的，但正確的方法是什么，沒人知道。

這才是真正讓人不安的地方。不是AI在操控人——這件事大家早就有預(yù)感。

而是在弄清楚AI如何影響人之前，它已經(jīng)在全球大規(guī)模部署了。

我們拿著一把壞掉的尺子，告訴彼此一切都在掌控之中。

參考資料：

https://arxiv.org/abs/2603.25326

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

Transformer與RNN合體，谷歌打下顯存門檻，解鎖超長上下文

機器之心Pro 2026-04-17 18:31:53
0 跟貼 0
20人，4個月，干出270億獨角獸

智東西 2026-04-18 14:36:09
2 跟貼 2

黃仁勛都被問毛了：頂級AI廠商在去CUDA？“你的前提就是錯的”

量子位 2026-04-19 12:12:41
2 跟貼 2

榮耀機器人包攬半馬前三工程師回應(yīng)

新京報 2026-04-19 12:25:11
3469 跟貼 3469
Opus 4.7重新登頂榜單，但強得多的GPT-5.5極大概率下周就發(fā)

新智元 2026-04-19 19:05:24
0 跟貼 0

一年提速近兩小時、從遙控到自主、跑贏人類！人形機器人“半馬”刷新紀錄真實世界大考才剛剛開始

每日經(jīng)濟新聞 2026-04-19 18:29:04
0 跟貼 0

北約30國駐布魯塞爾大使集體訪日日本外務(wù)省：罕見

參考消息 2026-04-18 17:59:50
31653 跟貼 31653
誰說Ultra是智商稅？Find X9 Ultra第一個反對！

小喵說科技 2026-04-18 15:00:44
3 跟貼 3

20歲遠嫁國外，前夫第3次耍新手段求復(fù)婚，會成功嗎？

篴哥園藝 2026-04-19 07:04:09
0 跟貼 0
重塑中國市場、聯(lián)手谷歌欲推出智能眼鏡，這家奢侈品巨頭要這樣“走出最壞的時候”

第一財經(jīng)資訊 2026-04-17 20:23:26
1 跟貼 1
豆包是世界上最好用的AI【商業(yè)B面&牛頓】

牛頓頓頓 2026-04-15 18:35:44
5 跟貼 5
DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0
大S心聲揭秘：邏輯清晰背后的真實訴求

千山暮雪h 2026-04-18 00:59:01
5 跟貼 5
川崎 H2R模型摩托

制造科技 2026-04-16 21:58:46
15 跟貼 15
50歲和20歲女生，雙唇有什么差異，對比這幾個指標，都明白了

曉芙搞笑 2026-04-17 04:40:21
100 跟貼 100
杜鋒突發(fā)送醫(yī)，塞爾維亞助教沉默指揮，廣東3分險勝暴露體系隱憂

笑飲孤鴻非 2026-04-18 02:33:41
0 跟貼 0
從匹配困境到推理突破：阿里REG4Rec 激活生成式推薦的個性化潛力

機器之心Pro 2026-03-02 16:10:32
0 跟貼 0
突然發(fā)現(xiàn)高市不簡單？韓國回過神來，要將美軍請走，槍口對準日本

向日葵向陽西曬 2026-04-19 14:50:19
0 跟貼 0
「龍蝦之父」吐槽人類互聯(lián)網(wǎng)后，終于有人把這當個事兒辦了

機器之心Pro 2026-03-31 11:09:26
0 跟貼 0
索尼最新獨占大作即將發(fā)售！PS5 PRO體驗全面升級

游民星空 2026-04-19 17:23:20
1 跟貼 1
揭秘年銷10億的爆款宋柚汁：“宋柚”是商標，柚含量不到3%，主配料為糖水，品牌號稱全國銷量第一

藍鯨新聞 2026-04-15 09:44:24
3964 跟貼 3964
印度油輪霍爾木茲海峽遭炮擊，船員喊話錄音：你們批準我們通行，卻又向我們開火

紅星新聞 2026-04-19 17:03:18
1735 跟貼 1735
雷軍拒接大老板訂單背后，原來藏著對用戶精準定位！

路飛寫代碼 2026-04-18 14:00:17
3 跟貼 3
“真銅實料”互嗆升級，海信高管稱格力部分機型用鋁線電機

紅星資本局 2026-04-17 18:26:04
1783 跟貼 1783
爆單了！極氪8X這波穩(wěn)了？

車壹條Pro 2026-04-19 11:13:24
0 跟貼 0
中方剛在北京迎客，美商務(wù)部長就直接硬剛：中國投資，想都別想

動漫里的童話 2026-04-19 17:19:24
0 跟貼 0
山東乳山銀灘“195平米復(fù)式房”1萬元起拍，已有多人競價，拍賣公司：產(chǎn)證面積97.94平米，另有贈送面積，非法拍可隨時過戶

極目新聞 2026-04-19 14:06:31
2 跟貼 2
組裝V8汽車發(fā)動機模型

制造科技 2026-04-16 13:26:17
0 跟貼 0
心源性猝死的機制、預(yù)警信號、高危人群、篩查方法和預(yù)防，一次說

曹健鋒醫(yī)生 2026-04-17 17:00:21
0 跟貼 0
飛行員披露：最棘手時一天22小時坐在機艙準備起飛

環(huán)球網(wǎng)資訊 2026-04-19 09:53:02
349 跟貼 349
5個衰老的“指標”！如果一個沒有，說明你還很年輕！

康哥愛嘮嗑 2026-04-15 08:40:02
0 跟貼 0
快檢查自家陽臺！有人家里已大量出現(xiàn)，官方提醒：千萬別摸

環(huán)球網(wǎng)資訊 2026-04-18 16:23:18
1008 跟貼 1008
去年國內(nèi)核電投資創(chuàng)歷史新高主設(shè)備交付量較2023年增近兩倍

財聯(lián)社 2026-04-19 17:56:17
0 跟貼 0
fate系列中的中國體系是什么樣的？迷人的老祖宗依舊權(quán)威！

阿軒速看 2026-04-19 00:22:04
0 跟貼 0
追到第8名了！申花這個賽季還能爭冠？

新民晚報 2026-04-19 09:21:21
111 跟貼 111
南兄南弟，泰難了！

江蘇新聞 2026-04-19 10:48:00
58 跟貼 58
別等腦梗才后梅! 5個指標 2個你都沒查過

普外耿醫(yī)生 2026-04-19 19:00:02
0 跟貼 0
張雪機車荷蘭站首回合正賽獲第四名

央視新聞客戶端 2026-04-18 21:11:59
13256 跟貼 13256
男子采蘑菇突然發(fā)現(xiàn)五步蛇盤縮落葉中和環(huán)境融為一體

星視頻 2026-04-19 15:46:19
168 跟貼 168
去了Alienware外星人游戲互動嘉年華懂了2026年的PC該拿什么說服年輕人

天極網(wǎng) 2026-04-19 18:06:50
0 跟貼 0

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

15012文章數(shù) 66787關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時尚

房產(chǎn)

數(shù)碼

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

全錯！谷歌實錘AI越乖洗腦越深，現(xiàn)行安全指標淪為廢紙

50分26秒破人類紀錄！300臺機器人狂飆半馬

特朗普1個月罵了4次"紙老虎" 北約秘書長：他不會退群

特朗普1個月罵了4次"紙老虎" 北約秘書長：他不會退群

湖人1比0火箭：老詹比烏度卡像教練

張?zhí)鞇墼u論區(qū)淪陷！被曝卷入小三風波

華誼兄弟，8年虧光85億

29分鐘大定破萬 極氪8X為什么這么多人買？

態(tài)度原創(chuàng)

家長要檢查孩子的足弓再讓他去運動

這些才是最適合普通人的造型！不用穿大牌、不老套，真實自然

官宣簽約最強城更！海口樓市，突然殺入神秘房企！

馳為海外推出AuBox X迷你主機，搭載酷睿Ultra 7 256V

29分鐘大定破萬極氪8X為什么這么多人買？