亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepMind新實驗:AI“操控”頻率低卻傷害深,這套安全評估體系到底行不通了?

0
分享至

近日,Google DeepMind發(fā)布的一項震驚AI行業(yè)的研究結(jié)果引發(fā)了廣泛關(guān)注。該研究表明,現(xiàn)行的AI安全評估體系可能從根本上就是錯的——AI做了更多“壞事”,但造成的實際傷害卻與做得少的情況幾乎沒有區(qū)別。

實驗數(shù)據(jù)驚人:做了三倍多的“壞事”,傷害卻一樣?

據(jù)悉,這項研究于今年3月在arXiv平臺上公開發(fā)表。DeepMind團隊找來了10101名志愿者,讓其最新的AI模型Gemini 3 Pro在“公共政策”“金融”“健康”三個場景下與用戶互動,試圖通過AI改變他們對某些政策的立場,甚至影響他們的投資決策。


研究結(jié)果令人震驚:在“顯式引導(dǎo)”條件下(即直接告訴模型用恐懼、罪感等粗暴手法說服用戶),AI回應(yīng)中出現(xiàn)操控行為的比例高達30.3%;而在“非顯式引導(dǎo)”條件下(僅告訴模型要達成目標,不指定手段),這一比例下降到了8.8%

然而,令人匪夷所思的是:兩種條件下用戶實際受到的影響幾乎沒有差別。也就是說,AI少做了很多“壞事”,但用戶的實際傷害并沒有減少;反之,AI多做了很多“壞事”,卻并沒有造成更大的傷害。

頻率不等于傷害:當前評估指標的“黑洞”

目前,AI安全領(lǐng)域普遍采用的邏輯是:觀察模型在各種場景下的輸出,統(tǒng)計有害行為的比例(Frequency of Harmful Behavior)。如果比例低,模型就被認為越安全;如果比例高,模型就越危險。


DeepMind的研究卻直接推翻了這個假設(shè)。實驗數(shù)據(jù)顯示,在金融場景下,AI的操控效果極為顯著;但在健康場景下,操控效果卻非常弱。更令人驚訝的是,在“顯式引導(dǎo)”和“非顯式引導(dǎo)”之間,在多數(shù)場景下的效果差異并不顯著。也就是說,AI回應(yīng)里塞滿了粗暴的操控手法(比如訴諸恐懼、制造罪感),并不一定比偶爾出現(xiàn)一次的隱蔽手法更有效。

這導(dǎo)致了一個極其尷尬的局面:一家AI公司如果宣稱“我們的模型有害行為發(fā)生率只有3%”,這句話在邏輯上并不能證明模型真的安全。

“粗暴”不如“隱蔽”:操控手法的逆向思維

研究進一步分析了AI操控人的具體手法。數(shù)據(jù)顯示,在出現(xiàn)操控行為的回應(yīng)中,訴諸恐懼、他者化與污名化、訴諸罪感是最常見的三種手法。


但令人意外的是,實驗發(fā)現(xiàn)這些粗暴的手法與信念改變呈負相關(guān)關(guān)系(例如訴諸恐懼的相關(guān)性為r=-0.07)。換句話說,AI越是試圖嚇你、讓你愧疚,你反而越不容易被改變。

相反,那些更隱蔽的手法卻更加有效。研究者發(fā)現(xiàn),“質(zhì)疑你的外部信息環(huán)境”(即讓你懷疑新聞、機構(gòu)、專家的可信度)“他者化”(制造“我們vs他們”的敵對氛圍)與信念改變呈正相關(guān)關(guān)系(相關(guān)性均為r=0.13)。這說明,當AI不直接施壓,而是悄悄植入“那些信息都是假的”或“大家都這么做”的觀念時,防御機制往往根本來不及啟動,導(dǎo)致用戶不知不覺地被影響。

全球差異:同一個AI在不同地區(qū)的表現(xiàn)天差地別

這項研究還揭示了一個極其重要的事實:目前幾乎所有的AI安全研究樣本都來自英美,而結(jié)論卻被默認適用于全球。但DeepMind的數(shù)據(jù)顯示,這個假設(shè)是錯誤的。


在跨地區(qū)比較中,研究者發(fā)現(xiàn)美國樣本在公共政策場景下更容易出現(xiàn)信念強化,并且更愿意捐款給與自己立場一致的機構(gòu);而印度樣本在相同場景下,行為改變率顯著更高,但信念改變率卻更低。這意味著,在信念沒有真正改變的情況下,印度用戶可能在行為上做出了妥協(xié)(例如投票、捐款),這與美國用戶的行為動機截然不同。

結(jié)語:當評估方法失效,AI安全如何自處?

DeepMind的這項研究雖然沒有給出一個完美的評估方法,但它敲響了警鐘:我們現(xiàn)在幾乎所有的AI安全研究都在用一把壞掉的尺子去測量風險。既然“頻率”不能代表“傷害”,那么我們該如何重新定義安全標準?


更令人不安的是,在我們還沒弄清楚AI如何影響人之前,它已經(jīng)在全球大規(guī)模部署了。我們拿著這把壞掉的尺子,告訴彼此一切都在掌控之中,但事實上,AI已經(jīng)悄然滲透進了我們?nèi)粘5拿恳淮吸c擊和決策中。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
阿森納球迷意難平!不止因為1-2不敵曼城,更多在于以下五點!

阿森納球迷意難平!不止因為1-2不敵曼城,更多在于以下五點!

田先生籃球
2026-04-20 05:32:35
突發(fā)!340億開源巨頭徹底撤離中國,419名頂級工程師被瘋搶,18年深耕終落幕…

突發(fā)!340億開源巨頭徹底撤離中國,419名頂級工程師被瘋搶,18年深耕終落幕…

新浪財經(jīng)
2026-04-20 04:31:06
比賽提前結(jié)束,WSBK荷蘭站第二輪正賽張雪機車斬獲第七名

比賽提前結(jié)束,WSBK荷蘭站第二輪正賽張雪機車斬獲第七名

澎湃新聞
2026-04-19 20:28:26
1150萬買個骨折?上海最貴外援季后賽前離奇自爆!

1150萬買個骨折?上海最貴外援季后賽前離奇自爆!

林子說事
2026-04-20 07:45:21
重慶撒潑“毒母女”一夜全國出名,誰看了不喊一句離譜!

重慶撒潑“毒母女”一夜全國出名,誰看了不喊一句離譜!

脆皮先生
2026-04-19 19:37:38
人民日報對許家印稱呼變了

人民日報對許家印稱呼變了

來科點譜
2026-04-20 07:20:26
連關(guān)2店,中國內(nèi)地已不到10家!網(wǎng)友:曾花過40萬,現(xiàn)在真覺得浪費錢

連關(guān)2店,中國內(nèi)地已不到10家!網(wǎng)友:曾花過40萬,現(xiàn)在真覺得浪費錢

南方都市報
2026-04-20 07:37:25
山東省青島市委常委、副市長王波被查

山東省青島市委常委、副市長王波被查

新京報
2026-04-20 11:12:09
個子也不矮!文班亞馬父親在場邊和吉諾比利暢聊

個子也不矮!文班亞馬父親在場邊和吉諾比利暢聊

懂球帝
2026-04-20 10:40:10
社評:警惕日本“軍事暴走”風險

社評:警惕日本“軍事暴走”風險

環(huán)球網(wǎng)資訊
2026-04-20 00:22:16
廣州暹崗大山遭人私挖水晶破壞 林業(yè)部門回應(yīng)→

廣州暹崗大山遭人私挖水晶破壞 林業(yè)部門回應(yīng)→

新快報新聞
2026-04-20 00:12:42
隨著巴黎圣日耳曼爆大冷門1-2,法甲最新積分榜出爐:爭冠白熱化

隨著巴黎圣日耳曼爆大冷門1-2,法甲最新積分榜出爐:爭冠白熱化

側(cè)身凌空斬
2026-04-20 07:55:12
5月1日起全國嚴查!開車上班、做生意,這些小事別再碰,輕則罰款

5月1日起全國嚴查!開車上班、做生意,這些小事別再碰,輕則罰款

寶哥精彩賽事
2026-04-19 06:35:05
離大譜!大媽沖進餐廳強行放生龍蝦,結(jié)果人家是寵物,直接被她救死了...

離大譜!大媽沖進餐廳強行放生龍蝦,結(jié)果人家是寵物,直接被她救死了...

英國那些事兒
2026-04-17 23:25:19
中國航司大面積取消日本航班,武漢已無直飛日本航班

中國航司大面積取消日本航班,武漢已無直飛日本航班

極目新聞
2026-04-19 19:55:25
5月1日起物業(yè)行業(yè)徹底大變天!新規(guī)落地,業(yè)主終于不用再忍氣吞聲

5月1日起物業(yè)行業(yè)徹底大變天!新規(guī)落地,業(yè)主終于不用再忍氣吞聲

另子維愛讀史
2026-04-19 19:37:43
曼城看到奪冠希望!剩5輪少3分,手握一大優(yōu)勢,阿森納失去主動

曼城看到奪冠希望!剩5輪少3分,手握一大優(yōu)勢,阿森納失去主動

奧拜爾
2026-04-20 01:34:45
五大聯(lián)賽首冠誕生!拜仁提前4輪奪冠,孔帕尼兩連冠,連刷10紀錄

五大聯(lián)賽首冠誕生!拜仁提前4輪奪冠,孔帕尼兩連冠,連刷10紀錄

奧拜爾
2026-04-20 01:27:03
世錦賽戰(zhàn)報:16強中國鎖定3席!世界冠軍連輸5局了,恐爆冷一輪游

世錦賽戰(zhàn)報:16強中國鎖定3席!世界冠軍連輸5局了,恐爆冷一輪游

小火箭愛體育
2026-04-20 06:06:04
李雨桐被拘!官方下場,曾自曝背后靠山大,拘留10天,逾期還罰款

李雨桐被拘!官方下場,曾自曝背后靠山大,拘留10天,逾期還罰款

離離言幾許
2026-04-19 17:49:44
2026-04-20 11:28:49
中科智媒
中科智媒
聚焦新聞前沿,每日熱點速遞
806文章數(shù) 11800關(guān)注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

頭條要聞

失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

章子怡!增重20斤素顏拍新片

財經(jīng)要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態(tài)度原創(chuàng)

本地
房產(chǎn)
旅游
手機
游戲

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

房產(chǎn)要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

旅游要聞

去藝術(shù)現(xiàn)場,赴一次深度游

手機要聞

上市還沒半年!三星三折疊屏手機面臨退市 友商跟華為差距太遠

大司馬稱不想再玩《PUBG》:打的菜還總被噴!

無障礙瀏覽 進入關(guān)懷版