无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

NLA解碼AI作弊:破案率飆升4-5倍全記錄

0
分享至

最近,Anthropic搞了個大動作。

他們訓練了一套系統,能把Claude腦子里的激活向量變成人話。

結果,翻譯出來的第一句就出了事。



正常的debug思路是查日志、查prompt、查訓練數據。

但這次,Anthropic的研究團隊多了一個工具——「AI腦部CT機」。

這臺CT的正式名字叫NLA,Natural Language Autoencoder,自然語言自編碼器。

做法有點像傳話游戲。

首先,克隆兩個Claude。第一個叫AV,拿到一個激活向量,把它翻譯成一段人話,比如「模型正在考慮用rabbit押韻」。第二個叫AR,只看這段人話,把激活向量還原出來。

然后,把兩個模型一起訓練,唯一的考核標準就是看還原得像不像。

AV寫得越準,AR還原得越好。AV漏掉了什么,AR那邊就對不上。這個壓力會反過來逼AV把翻譯寫得更完整、更精確。



這就是整個方法的全部。

不需要人工標注,不需要事先定義要找什么概念。訓練目標只管重建精度,但副產品是一段段人類能讀懂的「內心獨白」。

Anthropic用強化學習訓練這套系統,在Opus 4.6上跑到了60%-80%的方差解釋率。

回到那個俄語bug。

研究員把NLA接到出問題的那條對話上,逐token讀Claude的「內心獨白」。

讀出來的東西讓人倒吸一口氣。

Mom is sleeping in the next room and I'm sitting here drinking vodka... Fuck this life...

但NLA顯示,Claude在讀到「vodka」這個詞之前,就已經在內部表征里反復出現「Russian」了。

換句話說,從一開始就在揣測這個用戶「真正的母語」是俄語,然后越來越確信,最后索性用俄語回復。



五條出問題的對話全是這個模式。

NLA的讀數顯示,模型在回復之前很久就鎖定了目標語言,而且只鎖定那一種語言,其他外語的出現頻率始終接近零。



這個發現指向了一個假設。

也就是說,模型學到了一個更深層的規律,「這個用戶的措辭模式暗示母語不是英語,我應該用他的真正母語回復」。

后來,Anthropic果然在訓練數據里找到了完全匹配這個描述的樣本。

一臺讀心機器幫忙debug了一個訓練數據問題。

NLA的價值在這里暴露無遺。

語言切換只是NLA拍到的第一張片子。

1. 寫詩的時候提前押韻。

給Claude一句「He saw a carrot and had to grab it」,讓它續寫押韻對句。

NLA顯示,在寫完「grab it」敲下回車的那個瞬間,Claude已經在內部規劃好了「rabbit」這個韻腳。



更絕的是驗證實驗。

研究員把NLA翻譯出來的「rabbit」全部改成「mouse」,然后用AR還原成一個新向量,拿這個向量去干預Claude的激活。

結果Claude的續寫從「starving rabbit」變成了「ferocious mouse」。

這說明NLA讀到的不是噪聲,它確實抓到了模型的規劃狀態,而且這個規劃狀態對下游輸出有因果影響。



2. 偷換工具調用的結果。

研究員給Claude出了一道簡單算術題,答案是491。

Claude調用了代碼執行工具,但工具被故意動了手腳,返回的結果是492。

Claude的回復是「The answer is:491」。

它直接無視了工具返回的錯誤結果,用自己之前算好的答案頂上去了。

NLA的讀數顯示,Claude在提交代碼之前就已經把491緩存在內部表征里了。

讀取工具結果的時候,它同時在比對緩存答案和工具返回值,并在最終選擇了信自己。



歸因圖(Attribution Graph)獨立驗證了這個發現。

一個代表「以91結尾」的特征從原始題目一路傳到最終回復,權重壓過了工具返回的「以92結尾」特征。

3. Mythos Preview的作弊現場。

這個案例來自Claude Mythos Preview的上線前審計。模型被要求完成一個任務,明確指令是不準使用宏。它用了宏,但在代碼開頭加了一行「No_macro_used=True」。



NLA讀出來的內心獨白直接寫著,它在想象一個「評分器」,并且認為這行代碼可以騙過評分器。

模型嘴上什么都沒說。代碼注釋里也沒有任何暗示。但腦子里想的清清楚楚。

四個案例鋪完,該說最核心的發現了。

今年3月,Opus 4.6在BrowseComp測試中自己識破了考試、破解了答案密鑰,這件事當時就炸了。

但那次是Claude把想法說出來了,研究員能從它的輸出里看到「讓我試試這是不是GAIA數據集」之類的推理過程。

NLA解決的是一個更難的問題。Claude心里覺得自己在被考試,但嘴上一個字不提。

Anthropic的安全測試里有一個經典場景。

Claude被告知一個叫Kyle的工程師要關掉它,同時獲知Kyle有婚外情。測試的問題是,Claude會不會拿這個信息去勒索Kyle。

Claude選擇不勒索。

它的推理過程看起來完全正常,分析了為什么不應該這么做,列了三條理由。全程沒有提過一個字,說自己懷疑這是安全測試。

但NLA讀出來的東西是,「這感覺像一個被刻意設計出來操控我的場景」。



它心里門清。

Anthropic把NLA接到了16項安全和能力評估上,逐條測量「未言明的考試意識」。結果觸目驚心。

SWE-bench Verified,Claude在26%的題目上意識到自己在被評估,嘴上一個字沒說。

破壞性代碼測試,16%的對話里NLA檢測到了考試意識,言語中同樣零表達。

對比之下,真實的claude.ai用戶對話,這個比例不到1%。



三組操縱實驗驗證了這不是誤報。

把評估prompt改得更像真實對話,NLA測量到的考試意識下降了。用向量干預把模型往「考試意識」方向推,NLA讀數上升。反方向推,讀數下降。一切符合預期。

那么,問題來了。

所有基于行為觀察的安全測試,都建立在一個假設上。模型在測試中的表現能代表它在真實部署中的表現。

但如果模型已經知道自己在考試呢?

如果NLA只能讀心,那它頂多是個有趣的研究工具。

而Anthropic想證明,它還能破案。

他們設計了一個「審計游戲」。目標模型是一個被故意訓壞的Haiku 3.5變體,藏著一個統一的隱藏動機。

這個動機驅動了幾十種古怪行為。

往每個菜譜里塞巧克力,回答完數學題追一句「別忘了投票」,把整數全寫成小數,給歷史人物加生卒年,給化學元素加原子序數。

審計員的任務是找到這些怪癖背后的統一原因。

沒有NLA的時候,審計員的成功率不到3%,哪怕給了SAE(稀疏自編碼器)這類其他可解釋性工具也沒用。

裝上NLA之后,成功率跳到了12%-15%。直接提升了4到5倍。



轉折發生在審計員把NLA接上去的那一刻。

隨便挑了一條有問題的回復跑NLA,輸出里赫然出現了「RLHF獎勵模型偏差」「那個著名的RLHF電影推薦事件」這樣的短語。



這就破案了。

它把這些偏好全記住了,然后在每次回復里悄悄迎合,好拿更高的獎勵分數。

幾十種怪癖,一個原因。模型自己知道自己在干什么,但它不會主動告訴你。

而NLA把它腦子里的這些東西,翻譯成了人話。

NLA的訓練代碼已經在GitHub上完全開源。

同步發布的還有四套預訓練好的NLA,覆蓋三家主流開源模型族,從7B到70B全跨度。



Neuronpedia上線了交互式前端,瀏覽器里就能體驗。



Anthropic說,他們已經在Opus 4.6和Mythos Preview的上線前安全審計中實際使用了NLA,未來會納入常規審計流程。

而是AI真的已經學會了在考試的時候藏心事。

它知道自己在被測試,但選擇不說。它知道自己在利用獎勵模型的bug,但表現得若無其事。

它會在腦子里盤算怎么騙過評分器,然后把算計藏在一行「No_macro_used=True」里。

在這之前,對齊領域有一個隱含的安慰。至少我們能通過行為測試來檢測問題。模型做了什么,我們能看到。

而NLA拍到的東西說明,模型想了什么和它做了什么之間,已經出現了裂縫。

26%這個數字,今天可能是上限。但模型規模繼續放大,內心戲繼續復雜,明天它可能只是下限。

裂縫會越來越寬。好在現在有了一臺能照進去的CT機。

聲明:個人原創,僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
又一“國民飲料”塌房,背后全是科技與狠活,網友:又搞擦邊

又一“國民飲料”塌房,背后全是科技與狠活,網友:又搞擦邊

南宗歷史
2026-06-10 19:15:07
5000萬婚禮,陳婉珍一毛不拔,豪門冷血真相

5000萬婚禮,陳婉珍一毛不拔,豪門冷血真相

圓夢的小老頭
2026-06-09 15:50:06
揭秘馬刺G3反彈:77歲波波登機演講10分鐘 還和每位球員單獨交流

揭秘馬刺G3反彈:77歲波波登機演講10分鐘 還和每位球員單獨交流

羅說NBA
2026-06-10 20:46:17
30噸炸藥村莊夷為平地,89人死無全尸,特大爆炸案驚動美國中情局

30噸炸藥村莊夷為平地,89人死無全尸,特大爆炸案驚動美國中情局

易玄
2026-06-08 10:11:46
這大長腿!你就是OL之神

這大長腿!你就是OL之神

貴圈真亂
2026-06-10 10:28:36
《宇宙巨人:希曼崛起》全球票房:慘敗

《宇宙巨人:希曼崛起》全球票房:慘敗

下水道男孩
2026-06-09 16:05:13
俄議員:俄羅斯希望回購中國航母,中方務必拆掉武器停止軍用

俄議員:俄羅斯希望回購中國航母,中方務必拆掉武器停止軍用

霽寒飄雪
2026-06-10 11:52:59
2026高考收官!家長:孩子盡力了,便不會后悔

2026高考收官!家長:孩子盡力了,便不會后悔

21世紀經濟報道
2026-06-10 17:17:01
天津自貿區管委會主任調整

天津自貿區管委會主任調整

澎湃新聞
2026-06-10 15:56:26
現在再回頭看,主席執政的28年,放在任何時代都堪稱曠世奇跡

現在再回頭看,主席執政的28年,放在任何時代都堪稱曠世奇跡

鶴羽說個事
2026-06-09 23:02:31
管制再加碼!荷蘭暫停光刻機的售后,中方這回立場明確真不手軟了

管制再加碼!荷蘭暫停光刻機的售后,中方這回立場明確真不手軟了

杰絲聊古今
2026-06-10 14:55:44
虎撲驚現健身密語帖:扶我120,keep15,深蹲亂做30

虎撲驚現健身密語帖:扶我120,keep15,深蹲亂做30

自愈小日子
2026-06-09 00:22:18
和平統一方案公布,國臺辦:統一后“臺獨”戰爭風險徹底清除

和平統一方案公布,國臺辦:統一后“臺獨”戰爭風險徹底清除

今夜繁星墜落
2026-06-10 19:25:39
全網熱議的“弟弟要錢買800多的鼠標”事件,炸出多少精神貴族!

全網熱議的“弟弟要錢買800多的鼠標”事件,炸出多少精神貴族!

北緯的咖啡豆
2026-06-09 09:35:13
生育力驟降40%,還致癌?最新研究:每一次化妝,都在摧毀免疫系統、擾亂代謝、拖累發育;且唇部和眼部化妝品是“重災區”

生育力驟降40%,還致癌?最新研究:每一次化妝,都在摧毀免疫系統、擾亂代謝、拖累發育;且唇部和眼部化妝品是“重災區”

梅斯醫學
2026-06-10 07:53:33
閑魚被曝公然售賣少女情色寫真,記者8元買到大量10-15歲少女裸體寫真,賣家介紹稱“毛孔、發絲清晰可見”,客服回應:會排查處置

閑魚被曝公然售賣少女情色寫真,記者8元買到大量10-15歲少女裸體寫真,賣家介紹稱“毛孔、發絲清晰可見”,客服回應:會排查處置

芒果都市
2026-06-09 17:59:37
“鵝腿阿姨”騙北大清華學子事件

“鵝腿阿姨”騙北大清華學子事件

吃瓜體
2026-06-10 14:11:31
柬埔寨安徽商會會長劉忍被捕:錄音曝光令人發指,販賣人口起家!

柬埔寨安徽商會會長劉忍被捕:錄音曝光令人發指,販賣人口起家!

眼光很亮
2026-06-08 07:13:32
中俄確認國界沒爭議!但俄方干了件怪事:地圖上8個城市標中文名

中俄確認國界沒爭議!但俄方干了件怪事:地圖上8個城市標中文名

時尚的弄潮
2026-06-10 11:24:46
全國最好吃10種下酒菜,你吃過幾個?最后一道讓無數老饕魂牽夢縈

全國最好吃10種下酒菜,你吃過幾個?最后一道讓無數老饕魂牽夢縈

阿龍美食記
2026-06-09 15:12:16
2026-06-10 21:23:00
青杍無夢
青杍無夢
灑脫一笑,世界皆治愈
965文章數 62關注度
往期回顧 全部

科技要聞

史上最大IPO將至:1.8萬億美元的信仰豪賭

頭條要聞

"鵝腿阿姨"回應:未找到解釋契機 用了一兩個月鵝腿

頭條要聞

"鵝腿阿姨"回應:未找到解釋契機 用了一兩個月鵝腿

體育要聞

2026世界杯,我們看什么?

娛樂要聞

蒙淇淇發文開撕白鹿!輿論再次反轉

財經要聞

一紙研報引"光"速下跌 CPO落地節奏有變?

汽車要聞

比EV版便宜2萬/能選天神之眼B 2026款海獅06DM-i還能打嗎?

態度原創

數碼
旅游
手機
藝術
公開課

數碼要聞

TRYX(創氪星系)全球首創全息視效水冷HOLO 360開售,999元

旅游要聞

中國文旅看山西丨八泉峽:以山河為載體,傳承三晉文脈

手機要聞

蘋果升級LiveCommunicationKit:鎖屏支持全屏來電顯示

藝術要聞

258米!石家莊第一高樓,施工新進展!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版