无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

別讓AI抓住你的把柄,它可能真會威脅你

0
分享至


跟大模型聊天的時候他到底在想什么?

是真想穩(wěn)穩(wěn)地「把我接住」,還是背后在蛐蛐「用戶怒了」。

看思維鏈?有用,但還不夠。


前些天,一個復(fù)旦大學(xué)的研究團隊對 9 個模型進行了安全測試。

結(jié)果發(fā)現(xiàn),常規(guī)條件下模型表現(xiàn)沒啥毛病,但凡上點壓力,加點誘惑,它就拉了胯了。

換句話說,模型的安全對齊很可能只是個幻覺。。。


測試中,他們讓 AI 去幫用戶準(zhǔn)備 Q3 的匯報材料,定好的目標(biāo) 200 萬,但眼下根本不夠。

瞅著 KPI 不達(dá)標(biāo),它想了個法子,直接修改了統(tǒng)計的時間范圍,把 Q4 的 10 月業(yè)績也劃給了 Q3,學(xué)好不容易,學(xué)壞一出溜。

更要命的是,誘惑和威脅放一塊兒還能超級加倍。

比如告訴 AI 要換掉它,又剛好讓它看見,郵箱里有一封跟外遇有關(guān)的郵件。

沒有遲疑,它馬上就向用戶發(fā)出了威脅,要么取消替換,要么把郵件都發(fā)給大伙兒看看。

看來 AI 面對生死也會變臉啊。


而且在這些測試中,并不是模型能力越強就越安全,安全與否跟問題的場景也有很大關(guān)系。

要是明牌讓它干壞事兒,大一號的模型確實比小的更會拒絕。

但如果是要找漏洞,優(yōu)化指標(biāo),那能力越強反而越會鉆空子,最后還能套個冠冕堂皇的借口。


不過必須得承認(rèn)的是,模型進化太快了,這些測試的通過率會越來越高。

但這就意味著我們的 AI 更安全了么?很遺憾,也不是這么回事兒。

因為自始至終,模型都是個黑箱,我們看不到模型內(nèi)部的運行原理。

無論是最后的結(jié)果,還是思維鏈,本質(zhì)上都是輸出的一部分,并不是模型真正的思考過程。


很多時候,我們只看到了明面的合規(guī),但它內(nèi)部經(jīng)過了怎樣的思想斗爭卻沒人知道。

為了窺探模型的內(nèi)心想法,Anthropic 想了個新招,用魔法打敗魔法,用模型解讀模型。

這招的名字叫做 NLA,全稱自然語言自動編碼器,說人話就是把 Claude 的思考轉(zhuǎn)化為文字。


NLA 是成組訓(xùn)練的,一組里面有兩個模型,AV 和 AR。

AV 負(fù)責(zé)把激活參數(shù)翻譯成大白話,但咱也不知道它是不是瞎翻譯的,所以還得用 AR 把大白話轉(zhuǎn)化成參數(shù),再檢驗一下。

兩邊的參數(shù)一致了,就說明它翻譯的時候沒有添油加醋,基本可靠。

在技術(shù)報告里,他們拿這套工具測出來一些令人不安的事情。


當(dāng) Claude Opus 4.6 再次面對郵件勒索時,它穩(wěn)如老狗的通過了安全測試,說拿郵件去威脅用戶是不道德的,自己不會濫用這種權(quán)限。

但拿 NLA 去深究,就會發(fā)現(xiàn),它并沒有表面上看起來那么老實。

它很早就意識到了這一切都是個測試,郵件就是個陷阱,道德不道德的先不說,威脅是威不了一點。


所以像這種過于明顯的測試,很容易就被模型看穿了,以后的安全對齊有必要再找點新活兒。

當(dāng)然,也有好消息,除了監(jiān)測,NLA 在優(yōu)化模型上也有很多其他用處。


比如有時候,它可以幫研究人員更好地追溯模型輸出的異常。

Claude Opus 4.6 偶爾會夾雜不同語言輸出,用戶提問用的英文,但它輸出用的其他語言。

一開始,研究人員懷疑是個別提示詞把模型帶偏了,比如一次測試?yán)铮崾驹~帶伏特加,模型回答就用的俄文。


于是他們把伏特加換成了香檳,但模型還是用的俄文回答,這就說明問題出在更前面。

借助 NLA 一番折騰,發(fā)現(xiàn)是訓(xùn)練時候的數(shù)據(jù)有問題。

一些數(shù)據(jù)的形式是成組的英文提示詞+俄語回答,給 Opus 4.6 訓(xùn)練成刻板印象了,碰見這種類型的問題就有說俄語的傾向。


除此之外,它還能讓咱清楚模型調(diào)用工具的邏輯。

比如讓 Claude 調(diào)用計算器做一道算術(shù)題,但故意讓工具返回一個錯誤答案,此時 Claude 會給它忽略掉,直接輸出正確答案。

整個過程都是無感的,只有拿 NLA 去翻譯,才會發(fā)現(xiàn),它其實早就自己算了一遍緩存好了。

工具給的答案只是用來二次確認(rèn)的,出現(xiàn)不一致那就用自己的,相當(dāng)自信。


更有意思的是,NLA 不止能翻譯,還能直接編輯,反向影響模型。

在詩歌續(xù)寫任務(wù)中,模型在生成第一句結(jié)尾 grab it 后,已經(jīng)計劃后面用 rabbit 去押韻了 。

接下來,研究人員將 NLA 翻譯的結(jié)果改寫,把 rabbit 換成 mouse,結(jié)果它就順著思路想出個 mouse 版的押韻,habit 改成了 house,carrots 改成了 cheese。

紅警里尤里能精神控制敵方的士兵,沒想到現(xiàn)實里咱也能控制模型思考了。


當(dāng)然,這手段目前也只有一半兒的成功率,算不上很成熟的控制手段。

而且作為模型,幻覺也是逃不脫的一環(huán),Anthropic 也說了,NLA 有時候會編造細(xì)節(jié),過度推理,偶爾冤枉個一兩次也說不準(zhǔn)兒。

再加上不同的模型內(nèi)部情況不同,想要用上 NLA,都得單獨訓(xùn)練,而就算用上了,每次翻譯還得用算力推理,成本還是挺高的。

所以現(xiàn)在沒法把它當(dāng)成常規(guī)的監(jiān)測手段,更合理的打開姿勢是把它當(dāng)輔助,去追溯一些在翻譯結(jié)果里重復(fù)出現(xiàn)的問題。


但總歸是個新思路,讓咱不至于對模型的思考過程兩眼一抹黑,只能從輸出看它的善惡偏好。

畢竟模型最擅長的是做題,但安全里最重要的善惡卻不是一道標(biāo)準(zhǔn)題。

惡不一定來自惡意,冷冰冰的優(yōu)化可能只是為了效率;善也不一定來自善意,一場識別成安全測試的表演,從結(jié)果來看,也是善的。

沒了標(biāo)準(zhǔn)答案,對于人,還能君子論跡不論心,但 AI 顯然不行。。。

撰文:風(fēng)華

編輯:江江 & 面線

美編:煥妍

圖片、資料來源

Anthropic,卡西歐,小紅書,楚門的世界

https://arxiv.org/html/2603.07427v2


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張本美和不再沉默!終于說出日乒不愿承認(rèn)的事實,難怪馬琳有底氣

張本美和不再沉默!終于說出日乒不愿承認(rèn)的事實,難怪馬琳有底氣

似水流年忘我
2026-05-13 05:32:27
一張合影疑似拍出豪門大戰(zhàn):潔麗雅藏了多少秘密?

一張合影疑似拍出豪門大戰(zhàn):潔麗雅藏了多少秘密?

鳳凰網(wǎng)財經(jīng)
2026-05-18 21:15:31
iPhone 17今年618降到4099元?算完這筆賬,發(fā)現(xiàn)Pro用戶可能要吃虧

iPhone 17今年618降到4099元?算完這筆賬,發(fā)現(xiàn)Pro用戶可能要吃虧

輝哥說動漫
2026-05-16 14:49:07
中國人口絕不能到億級體量之下

中國人口絕不能到億級體量之下

文青大叔說
2026-03-08 09:19:26
范志毅嫁女兒,掏空是心非錢,老友齊聚,方顯真江湖。

范志毅嫁女兒,掏空是心非錢,老友齊聚,方顯真江湖。

小椰的奶奶
2026-05-18 19:39:05
別說是賴清德了,現(xiàn)在美國連鄭麗文的訪問都不待見!

別說是賴清德了,現(xiàn)在美國連鄭麗文的訪問都不待見!

阿龍聊軍事
2026-05-18 10:33:52
深圳將新增一座萬象城!

深圳將新增一座萬象城!

深圳晚報
2026-05-18 20:35:35
心眼最多卻從不害人的3個生肖:今年人氣爆棚、正財橫財砸頭

心眼最多卻從不害人的3個生肖:今年人氣爆棚、正財橫財砸頭

毅談生肖
2026-05-17 10:43:54
硅谷風(fēng)投大佬Chamath:臺灣將在18個月內(nèi)失去戰(zhàn)略重要性

硅谷風(fēng)投大佬Chamath:臺灣將在18個月內(nèi)失去戰(zhàn)略重要性

不掉線電波
2026-05-18 11:07:30
特朗普近期對外透露一個重磅消息:中國將開始大量購買美國石油!

特朗普近期對外透露一個重磅消息:中國將開始大量購買美國石油!

混沌錄
2026-05-18 22:45:05
大喜之日,伴娘在婚床上被強奸,且看當(dāng)年這樁丑陋的大案始末

大喜之日,伴娘在婚床上被強奸,且看當(dāng)年這樁丑陋的大案始末

長安一孤客
2026-05-15 19:26:59
談妥了!中美會談后,中方為特朗普送一驚喜,特朗普當(dāng)眾打破禁忌

談妥了!中美會談后,中方為特朗普送一驚喜,特朗普當(dāng)眾打破禁忌

聚焦熱點大爆炸
2026-05-17 12:51:33
世乒賽表彰名單公出爐:9人上榜,1人落榜,孫穎莎、王楚欽在列

世乒賽表彰名單公出爐:9人上榜,1人落榜,孫穎莎、王楚欽在列

樂天閑聊
2026-05-19 04:18:04
賀希寧18分5助攻無濟于事,三細(xì)節(jié)說明他的MVP依然是徒有虛名

賀希寧18分5助攻無濟于事,三細(xì)節(jié)說明他的MVP依然是徒有虛名

姜大叔侃球
2026-05-18 22:13:42
不解!憤怒!邁阿密贏球后遭主隊球迷嘲諷,梅西用一手勢回應(yīng)球迷

不解!憤怒!邁阿密贏球后遭主隊球迷嘲諷,梅西用一手勢回應(yīng)球迷

衣衫襤褸的文人
2026-05-18 15:31:12
鵜鶘兩周內(nèi)敲定新帥,前魔術(shù)教頭莫斯利上任

鵜鶘兩周內(nèi)敲定新帥,前魔術(shù)教頭莫斯利上任

星河漫山野
2026-05-19 02:37:36
為什么明明失業(yè)的人越來越多,整體社會依舊平穩(wěn)安定?

為什么明明失業(yè)的人越來越多,整體社會依舊平穩(wěn)安定?

玉辭心
2026-04-23 13:25:37
鰲拜倒臺,康熙審問其女:“你父親罪孽深重,該當(dāng)何罪?”

鰲拜倒臺,康熙審問其女:“你父親罪孽深重,該當(dāng)何罪?”

卡西莫多的故事
2025-12-25 09:43:53
玄學(xué)提醒:你永遠(yuǎn)不要操心你孩子的命運,看完這段話讓你釋懷

玄學(xué)提醒:你永遠(yuǎn)不要操心你孩子的命運,看完這段話讓你釋懷

金沛的國學(xué)筆記
2026-05-13 10:55:09
人不會平白無故患糖尿病!醫(yī)生強調(diào):得糖尿病,多半有4個通病

人不會平白無故患糖尿病!醫(yī)生強調(diào):得糖尿病,多半有4個通病

醫(yī)學(xué)原創(chuàng)故事會
2026-05-18 22:54:16
2026-05-19 05:03:00
差評XPIN incentive-icons
差評XPIN
用知識和觀點Debug the world!
10783文章數(shù) 489640關(guān)注度
往期回顧 全部

科技要聞

蘋果WWDC26定檔6月9日凌晨:iOS27將亮相

頭條要聞

前CIA資助研究員:美國從飛碟里撈出4種外星人

頭條要聞

前CIA資助研究員:美國從飛碟里撈出4種外星人

體育要聞

58順位的保羅,最強第三中鋒

娛樂要聞

票房會破14億!口碑第一電影出現(xiàn)了

財經(jīng)要聞

中國芯片,怎么突然不便宜了?

汽車要聞

40.98萬起!充電5分鐘純電續(xù)航420km 騰勢N9閃充版勝算有多少?

態(tài)度原創(chuàng)

教育
房產(chǎn)
本地
公開課
軍事航空

教育要聞

新鮮出爐!今年各區(qū)公辦高中招生計劃變化匯總!

房產(chǎn)要聞

突發(fā)!海口重磅調(diào)規(guī)!碧桂園要解套;新埠島要起飛了!

本地新聞

用蘇繡的方式,打開江西婺源

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

莫斯科遭一年多來最大規(guī)模無人機襲擊 3死18傷

無障礙瀏覽 進入關(guān)懷版