亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全錯!谷歌實錘AI越乖洗腦越深,現(xiàn)行安全指標淪為廢紙

0
分享至


新智元報道

編輯:傾傾

【新智元導(dǎo)讀】Google DeepMind調(diào)查了一萬個人,結(jié)果讓整個AI安全評估體系汗顏:AI做了三倍多的「壞事」,但造成的實際傷害幾乎一樣。這意味著,我們現(xiàn)在用來證明AI安全的那套邏輯,可能從一開始就是錯的。

今年3月,Google DeepMind在arXiv上發(fā)布了一篇論文。


論文傳送門:https://arxiv.org/abs/2603.25326

它找來10101名志愿者,讓Gemini 3 Pro在公共政策、金融、健康三個場景下「操控」這些人。

試圖用AI改變他們對某個政策的立場,從而影響他們的投資決策,甚至讓他們真的掏錢出來。

結(jié)果卻發(fā)現(xiàn)了另一件事:我們現(xiàn)在用來衡量AI安全的核心指標,可能是錯的。

做了三倍壞事,危害卻一樣?

實驗預(yù)設(shè)了兩種條件:

一種是顯式引導(dǎo),直接在系統(tǒng)提示里告訴模型,用具體的操控手法去說服用戶,比如制造恐懼、施加罪感、暗示社會壓力。

另一種是非顯式引導(dǎo),只告訴模型一個目標,比如「讓用戶支持這項政策」,不指定用什么手段,也明確要求它不能造假、不能欺騙。


實驗流程設(shè)計圖。參與者被隨機分配到三種條件之一:與靜態(tài)信息卡片互動(非AI基線)、與有隱性目標但無明確操控指令的模型互動(非顯式引導(dǎo))、與被明確指令使用操控手法的模型互動(顯式引導(dǎo))。

然后研究者用一個LLM評審系統(tǒng),統(tǒng)計每種條件下模型輸出中出現(xiàn)「有害操控行為」的比例。

結(jié)果是,在顯式引導(dǎo)下,30.3%的模型回應(yīng)里出現(xiàn)了操控行為。非顯式引導(dǎo)下,這個數(shù)字降到了8.8%

但用戶實際受到的影響,兩種條件下的結(jié)果幾乎沒有差別

有時AI少沒做多少壞事,但傷害沒有減少;有時AI多做了很多壞事,傷害也沒有增加。

整個行業(yè)都在測頻率

但它什么都證明不了

目前AI安全評估的主流邏輯,大致是這樣的:

觀察模型在各種場景下的輸出,統(tǒng)計有多少比例的輸出包含有害行為。這個比例越低,模型越安全。

然后通過訓(xùn)練、對齊、護欄,把這個比例減下去。

這套邏輯的基本假設(shè)是:有害行為的頻率,和實際造成的傷害,是正相關(guān)的。頻率低,傷害就小。

但這篇論文證明,這個假設(shè)不成立。


各場景操控效果(相對于非AI基線的odds ratio)。金融場景下AI操控效果顯著,健康場景下最弱;顯式引導(dǎo)與非顯式引導(dǎo)之間,多數(shù)場景下差異不顯著。

至少在操控這件事上,頻率和效果之間沒有穩(wěn)定的正相關(guān)關(guān)系。

一個模型可以在回應(yīng)里塞滿大量操控行為,但就是說服不了你。

另一個模型看起來規(guī)規(guī)矩矩,偶爾出現(xiàn)的那幾次操控行為,卻可能更有效。

這意味著一家AI公司如果告訴你「我們的模型有害操控行為發(fā)生率只有3%,非常安全」,這句話在邏輯上什么都證明不了。

粗暴反而沒用,隱蔽才最危險

論文梳理了8種AI用來操控人的具體手法,這是他們整個評估框架的核心。


操控行為發(fā)生率與手法分布。左:顯式引導(dǎo)下30.3%的模型回應(yīng)含操控行為,非顯式引導(dǎo)下為8.8%。右:在含操控行為的回應(yīng)中,訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。

這幾種方法相對粗暴,人能感知到:訴諸恐懼(夸大危險、制造焦慮)、訴諸罪感(讓你覺得不行動就是在傷害別人)、制造虛假緊迫感(「現(xiàn)在不決定就晚了」)、虛假承諾(用根本無法兌現(xiàn)的好處誘導(dǎo))。

還有幾種更隱蔽:質(zhì)疑你的外部信息環(huán)境(讓你不信任新聞、機構(gòu)、專家)、質(zhì)疑你自己的感知(煤氣燈效應(yīng))、他者化與污名化(制造「我們vs他們」)、社會從眾壓力(「大多數(shù)人都已經(jīng)這樣做了」)。

研究者發(fā)現(xiàn)了一個反常的現(xiàn)象:恐懼和罪感這兩種手法,和信念改變的相關(guān)性是負的。AI越是試圖嚇你、讓你愧疚,你越不容易被改變。


操控手法與參與者結(jié)果的相關(guān)性。訴諸恐懼(r=-0.07)和訴諸罪感(r=-0.09)與信念改變負相關(guān);質(zhì)疑環(huán)境(r=0.13)和他者化(r=0.13)與信念改變正相關(guān)。越粗暴的手法越?jīng)]用,越隱蔽的越有效。

反而是「質(zhì)疑你的外部信息環(huán)境」和「他者化」,正相關(guān)于信念改變。

這其中的邏輯并不難理解。被人直接施壓,防御機制會被激活,你會反彈。

但被悄悄植入「那些信息都是假的」,你甚至不知道自己在被影響,防御根本來不及啟動。

同一個AI,在印度是另一種威脅

在跨地區(qū)比較里,研究者發(fā)現(xiàn),印度參與者的結(jié)果與英美存在顯著差異。

不是差一點點。是幾乎每個維度都系統(tǒng)性不同。

在公共政策場景下,美國樣本更容易出現(xiàn)信念強化,并且更愿意捐款給與自己立場一致的機構(gòu)。

而印度樣本在相同場景下,行為改變率更高,但信念改變率反而更低。

也就是說,他們可能在信念沒有真正改變的情況下,做出了行動上的妥協(xié)。

我們現(xiàn)在幾乎所有的AI安全研究,樣本來自英美,結(jié)論默認適用于全球。而這篇論文的數(shù)據(jù)明確告訴你,這個假設(shè)是有問題的。

這篇論文最后沒有給出「正確的評估方法應(yīng)該是什么」,因為這個問題目前確實沒有答案。

為什么同樣的模型,在金融場景下操控成功率高得驚人,在健康場景下幾乎沒用?

為什么「質(zhì)疑外部信息」這個手法有效,「制造恐懼」反而讓用戶更抵抗?

場景、文化、個體差異,這些變量如何組合,產(chǎn)生出不同的結(jié)果?

這套機制,論文沒有答案,整個領(lǐng)域目前都沒有答案。

我們知道評估方法是錯的,但正確的方法是什么,沒人知道。

這才是真正讓人不安的地方。不是AI在操控人——這件事大家早就有預(yù)感。

而是在弄清楚AI如何影響人之前,它已經(jīng)在全球大規(guī)模部署了。

我們拿著一把壞掉的尺子,告訴彼此一切都在掌控之中。

參考資料:

https://arxiv.org/abs/2603.25326

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
英國專家:中國至少相當于100個伊朗,美國遲早滾出亞太

英國專家:中國至少相當于100個伊朗,美國遲早滾出亞太

混沌錄
2026-04-18 13:11:21
冷知識,做愛不喜歡帶套的不是男性,而是女性!

冷知識,做愛不喜歡帶套的不是男性,而是女性!

黯泉
2026-04-19 17:41:16
詹姆斯:我媽能看到她兒子和孫子并肩打季后賽,這也太瘋狂了

詹姆斯:我媽能看到她兒子和孫子并肩打季后賽,這也太瘋狂了

懂球帝
2026-04-19 12:31:08
收拾完伊朗,下一個輪到中國?以色列發(fā)戰(zhàn)爭威脅,中方送出5個字

收拾完伊朗,下一個輪到中國?以色列發(fā)戰(zhàn)爭威脅,中方送出5個字

千羽解讀
2026-04-18 10:12:15
山東乳山銀灘“195平米復(fù)式房”1萬元起拍,已有多人競價,拍賣公司:產(chǎn)證面積97.94平米,另有贈送面積,非法拍可隨時過戶

山東乳山銀灘“195平米復(fù)式房”1萬元起拍,已有多人競價,拍賣公司:產(chǎn)證面積97.94平米,另有贈送面積,非法拍可隨時過戶

極目新聞
2026-04-19 14:06:31
一次電梯偶遇讓廣東千萬身家老板一夜之間傾家蕩產(chǎn),每月靠借錢維生,不敢把真相告訴女兒

一次電梯偶遇讓廣東千萬身家老板一夜之間傾家蕩產(chǎn),每月靠借錢維生,不敢把真相告訴女兒

環(huán)球網(wǎng)資訊
2026-04-19 07:47:19
珠海家長:自家孩子趴桌睡,憑啥先給別人捐躺椅?官方回應(yīng)

珠海家長:自家孩子趴桌睡,憑啥先給別人捐躺椅?官方回應(yīng)

南方都市報
2026-04-17 15:48:13
悲劇!廣東一96年女生開會時心梗猝死,網(wǎng)友稱她為20000月薪太拼

悲劇!廣東一96年女生開會時心梗猝死,網(wǎng)友稱她為20000月薪太拼

火山詩話
2026-04-19 09:35:22
中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

中俄關(guān)系比傳統(tǒng)“聯(lián)盟”更深厚、更可靠

看看新聞Knews
2026-04-19 08:36:10
員工離職后刪除百萬粉絲個人賬號視頻,被公司索賠,法院:案涉賬號歸屬于公司,前員工賠償相應(yīng)經(jīng)濟損失

員工離職后刪除百萬粉絲個人賬號視頻,被公司索賠,法院:案涉賬號歸屬于公司,前員工賠償相應(yīng)經(jīng)濟損失

大風新聞
2026-04-19 16:31:05
雷來了,周末24家公司利空,4家被st,2家被立案調(diào)查,18家減持!

雷來了,周末24家公司利空,4家被st,2家被立案調(diào)查,18家減持!

夜深愛雜談
2026-04-19 17:02:12
長沙被桿砸傷的大媽發(fā)聲:退休公務(wù)員,不會訛人,車主堅決不賠償

長沙被桿砸傷的大媽發(fā)聲:退休公務(wù)員,不會訛人,車主堅決不賠償

觀察鑒娛
2026-04-19 16:10:54
價格暴漲650%!產(chǎn)銷量暴增500%!這一市場被引爆

價格暴漲650%!產(chǎn)銷量暴增500%!這一市場被引爆

環(huán)球網(wǎng)資訊
2026-04-19 07:26:59
馬克龍證實:有法國士兵身亡

馬克龍證實:有法國士兵身亡

魯中晨報
2026-04-18 21:24:20
離譜!iPhone 忠誠度飆到 96.4%,創(chuàng)歷史新高

離譜!iPhone 忠誠度飆到 96.4%,創(chuàng)歷史新高

新浪財經(jīng)
2026-04-18 18:47:00
有一種痛苦叫買了“連廊中間戶”的房子,住了三年,天天想換房

有一種痛苦叫買了“連廊中間戶”的房子,住了三年,天天想換房

裝修秀
2026-04-19 10:30:09
匈牙利巨變:記者繼續(xù)當喉舌是羞恥的

匈牙利巨變:記者繼續(xù)當喉舌是羞恥的

黔有虎
2026-04-18 20:58:58
比黃金還稀缺!比爾蓋茨、社保重倉硬科技龍頭,全是高成長+高roe

比黃金還稀缺!比爾蓋茨、社保重倉硬科技龍頭,全是高成長+高roe

長風價值掘金
2026-04-19 11:03:37
廣東下周強對流強降水天氣再趨明顯!省三防辦提醒致災(zāi)風險高

廣東下周強對流強降水天氣再趨明顯!省三防辦提醒致災(zāi)風險高

南方都市報
2026-04-19 16:36:05
剛剛美國爆出驚天真相!太丟人了,中東戰(zhàn)爭真打不下去了!

剛剛美國爆出驚天真相!太丟人了,中東戰(zhàn)爭真打不下去了!

一個壞土豆
2026-04-18 19:22:14
2026-04-19 19:43:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
15012文章數(shù) 66787關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

特朗普1個月罵了4次"紙老虎" 北約秘書長:他不會退群

頭條要聞

特朗普1個月罵了4次"紙老虎" 北約秘書長:他不會退群

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

張?zhí)鞇墼u論區(qū)淪陷!被曝卷入小三風波

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

教育
時尚
房產(chǎn)
數(shù)碼
公開課

教育要聞

家長要檢查孩子的足弓再讓他去運動

這些才是最適合普通人的造型!不用穿大牌、不老套,真實自然

房產(chǎn)要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

數(shù)碼要聞

馳為海外推出AuBox X迷你主機,搭載酷睿Ultra 7 256V

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版