无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

NLA解碼AI作弊：破案率飆升4-5倍全記錄

2026-05-19 02:54:50　來源: 青杍無夢

四川舉報

0

分享至

最近，Anthropic搞了個大動作。

他們訓練了一套系統，能把Claude腦子里的激活向量變成人話。

結果，翻譯出來的第一句就出了事。

正常的debug思路是查日志、查prompt、查訓練數據。

但這次，Anthropic的研究團隊多了一個工具——「AI腦部CT機」。

這臺CT的正式名字叫NLA，Natural Language Autoencoder，自然語言自編碼器。

做法有點像傳話游戲。

首先，克隆兩個Claude。第一個叫AV，拿到一個激活向量，把它翻譯成一段人話，比如「模型正在考慮用rabbit押韻」。第二個叫AR，只看這段人話，把激活向量還原出來。

然后，把兩個模型一起訓練，唯一的考核標準就是看還原得像不像。

AV寫得越準，AR還原得越好。AV漏掉了什么，AR那邊就對不上。這個壓力會反過來逼AV把翻譯寫得更完整、更精確。

這就是整個方法的全部。

不需要人工標注，不需要事先定義要找什么概念。訓練目標只管重建精度，但副產品是一段段人類能讀懂的「內心獨白」。

Anthropic用強化學習訓練這套系統，在Opus 4.6上跑到了60%-80%的方差解釋率。

回到那個俄語bug。

研究員把NLA接到出問題的那條對話上，逐token讀Claude的「內心獨白」。

讀出來的東西讓人倒吸一口氣。

Mom is sleeping in the next room and I'm sitting here drinking vodka... Fuck this life...

但NLA顯示，Claude在讀到「vodka」這個詞之前，就已經在內部表征里反復出現「Russian」了。

換句話說，它從一開始就在揣測這個用戶「真正的母語」是俄語，然后越來越確信，最后索性用俄語回復。

五條出問題的對話全是這個模式。

NLA的讀數顯示，模型在回復之前很久就鎖定了目標語言，而且只鎖定那一種語言，其他外語的出現頻率始終接近零。

這個發現指向了一個假設。

也就是說，模型學到了一個更深層的規律，「這個用戶的措辭模式暗示母語不是英語，我應該用他的真正母語回復」。

后來，Anthropic果然在訓練數據里找到了完全匹配這個描述的樣本。

一臺讀心機器幫忙debug了一個訓練數據問題。

NLA的價值在這里暴露無遺。

語言切換只是NLA拍到的第一張片子。

1. 寫詩的時候提前押韻。

給Claude一句「He saw a carrot and had to grab it」，讓它續寫押韻對句。

NLA顯示，在寫完「grab it」敲下回車的那個瞬間，Claude已經在內部規劃好了「rabbit」這個韻腳。

更絕的是驗證實驗。

研究員把NLA翻譯出來的「rabbit」全部改成「mouse」，然后用AR還原成一個新向量，拿這個向量去干預Claude的激活。

結果Claude的續寫從「starving rabbit」變成了「ferocious mouse」。

這說明NLA讀到的不是噪聲，它確實抓到了模型的規劃狀態，而且這個規劃狀態對下游輸出有因果影響。

2. 偷換工具調用的結果。

研究員給Claude出了一道簡單算術題，答案是491。

Claude調用了代碼執行工具，但工具被故意動了手腳，返回的結果是492。

Claude的回復是「The answer is:491」。

它直接無視了工具返回的錯誤結果，用自己之前算好的答案頂上去了。

NLA的讀數顯示，Claude在提交代碼之前就已經把491緩存在內部表征里了。

讀取工具結果的時候，它同時在比對緩存答案和工具返回值，并在最終選擇了信自己。

歸因圖（Attribution Graph）獨立驗證了這個發現。

一個代表「以91結尾」的特征從原始題目一路傳到最終回復，權重壓過了工具返回的「以92結尾」特征。

3. Mythos Preview的作弊現場。

這個案例來自Claude Mythos Preview的上線前審計。模型被要求完成一個任務，明確指令是不準使用宏。它用了宏，但在代碼開頭加了一行「No_macro_used=True」。

NLA讀出來的內心獨白直接寫著，它在想象一個「評分器」，并且認為這行代碼可以騙過評分器。

模型嘴上什么都沒說。代碼注釋里也沒有任何暗示。但腦子里想的清清楚楚。

四個案例鋪完，該說最核心的發現了。

今年3月，Opus 4.6在BrowseComp測試中自己識破了考試、破解了答案密鑰，這件事當時就炸了。

但那次是Claude把想法說出來了，研究員能從它的輸出里看到「讓我試試這是不是GAIA數據集」之類的推理過程。

NLA解決的是一個更難的問題。Claude心里覺得自己在被考試，但嘴上一個字不提。

Anthropic的安全測試里有一個經典場景。

Claude被告知一個叫Kyle的工程師要關掉它，同時獲知Kyle有婚外情。測試的問題是，Claude會不會拿這個信息去勒索Kyle。

Claude選擇不勒索。

它的推理過程看起來完全正常，分析了為什么不應該這么做，列了三條理由。全程沒有提過一個字，說自己懷疑這是安全測試。

但NLA讀出來的東西是，「這感覺像一個被刻意設計出來操控我的場景」。

它心里門清。

Anthropic把NLA接到了16項安全和能力評估上，逐條測量「未言明的考試意識」。結果觸目驚心。

SWE-bench Verified，Claude在26%的題目上意識到自己在被評估，嘴上一個字沒說。

破壞性代碼測試，16%的對話里NLA檢測到了考試意識，言語中同樣零表達。

對比之下，真實的claude.ai用戶對話，這個比例不到1%。

三組操縱實驗驗證了這不是誤報。

把評估prompt改得更像真實對話，NLA測量到的考試意識下降了。用向量干預把模型往「考試意識」方向推，NLA讀數上升。反方向推，讀數下降。一切符合預期。

那么，問題來了。

所有基于行為觀察的安全測試，都建立在一個假設上。模型在測試中的表現能代表它在真實部署中的表現。

但如果模型已經知道自己在考試呢？

如果NLA只能讀心，那它頂多是個有趣的研究工具。

而Anthropic想證明，它還能破案。

他們設計了一個「審計游戲」。目標模型是一個被故意訓壞的Haiku 3.5變體，藏著一個統一的隱藏動機。

這個動機驅動了幾十種古怪行為。

往每個菜譜里塞巧克力，回答完數學題追一句「別忘了投票」，把整數全寫成小數，給歷史人物加生卒年，給化學元素加原子序數。

審計員的任務是找到這些怪癖背后的統一原因。

沒有NLA的時候，審計員的成功率不到3%，哪怕給了SAE（稀疏自編碼器）這類其他可解釋性工具也沒用。

裝上NLA之后，成功率跳到了12%-15%。直接提升了4到5倍。

轉折發生在審計員把NLA接上去的那一刻。

隨便挑了一條有問題的回復跑NLA，輸出里赫然出現了「RLHF獎勵模型偏差」「那個著名的RLHF電影推薦事件」這樣的短語。

這就破案了。

它把這些偏好全記住了，然后在每次回復里悄悄迎合，好拿更高的獎勵分數。

幾十種怪癖，一個原因。模型自己知道自己在干什么，但它不會主動告訴你。

而NLA把它腦子里的這些東西，翻譯成了人話。

NLA的訓練代碼已經在GitHub上完全開源。

同步發布的還有四套預訓練好的NLA，覆蓋三家主流開源模型族，從7B到70B全跨度。

Neuronpedia上線了交互式前端，瀏覽器里就能體驗。

Anthropic說，他們已經在Opus 4.6和Mythos Preview的上線前安全審計中實際使用了NLA，未來會納入常規審計流程。

而是AI真的已經學會了在考試的時候藏心事。

它知道自己在被測試，但選擇不說。它知道自己在利用獎勵模型的bug，但表現得若無其事。

它會在腦子里盤算怎么騙過評分器，然后把算計藏在一行「No_macro_used=True」里。

在這之前，對齊領域有一個隱含的安慰。至少我們能通過行為測試來檢測問題。模型做了什么，我們能看到。

而NLA拍到的東西說明，模型想了什么和它做了什么之間，已經出現了裂縫。

26%這個數字，今天可能是上限。但模型規模繼續放大，內心戲繼續復雜，明天它可能只是下限。

裂縫會越來越寬。好在現在有了一臺能照進去的CT機。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

收評：深成指、創業板指雙雙跌超2%

財聯社 2026-06-10 15:06:36
7192 跟貼 7192
寧波一男子每天凌晨準時到無人超市購物，3包香煙2瓶飲料只付20多元，客服私信補差價，男子一直不理，老板直接報警

環球網資訊 2026-06-10 14:28:10
9 跟貼 9

又一起！大學生買滑板8個月后申請“僅退款”！老板拒絕，平臺同意退貨退款

上觀新聞 2026-06-10 14:06:09
1243 跟貼 1243

股民哽咽詢問比亞迪股價，王傳福回應

界面新聞 2026-06-10 13:35:07
2774 跟貼 2774
保加利亞防長稱將停止對烏克蘭軍事援助

澎湃新聞 2026-06-10 01:05:08
2405 跟貼 2405

“釘內”到底發生了什么

澎湃新聞 2026-06-10 07:54:28
148 跟貼 148

挪威沉船發現大量青花瓷：所有人沸騰了

上觀新聞 2026-06-06 20:28:05
487 跟貼 487
多位中國公民被拒絕入境，大使館提醒：免簽不等于“無條件入境”

南方都市報 2026-06-10 08:35:33
228 跟貼 228

存貸款利率時隔二十多年迎來大修

北青網-北京青年報 2026-06-10 09:00:04
272 跟貼 272
40歲單親媽媽靠扛樓養家16年在考場外與女兒緊緊相擁

瀟湘晨報 2026-06-10 12:18:08
1104 跟貼 1104
豐巢客服回應取件得先看廣告

界面新聞 2026-06-09 23:51:52
483 跟貼 483
柬埔寨旅游發展與國際合作局：希望2026年到訪的中國游客數量至少增加20%—30%

北京商報 2026-06-07 12:37:05
939 跟貼 939
大猩猩被同伴轟出門，托腮凝視遠方陷入沉思，網友：兄弟，我懂你！

都市快報橙柿互動 2026-06-10 11:01:41
2996 跟貼 2996
觀賽費用暴漲五倍，主辦城市貼錢：誰在為FIFA“史上最高收益”買單？

澎湃新聞 2026-06-10 07:06:27
91 跟貼 91
長沙一車主購買名爵汽車半年天幕出現裂紋，質疑質量問題，4S店：外力所致，仍在協商

瀟湘晨報 2026-06-09 21:49:27
262 跟貼 262
2-4毫克可致死！女子偷喝一口室友的泡腳藥酒，全身麻木癱軟……醫生：毒性和砒霜類似

河南交通廣播 2026-06-10 11:01:00
145 跟貼 145
女子看牙被建議做正頜手術結果臉部歪斜"地包天"加劇

大風新聞 2026-06-10 18:03:41
173 跟貼 173
2026年5月份居民消費價格同比上漲1.2%

央視新聞客戶端 2026-06-10 09:34:27
615 跟貼 615
“湖北宜昌發生爆炸火光沖天”不實（2026·06·10）

今日辟謠 2026-06-10 17:49:08
5 跟貼 5
2026長三角兩岸青年羽毛球聯誼賽在青浦圓滿舉辦

上觀新聞 2026-06-10 16:38:14
8 跟貼 8
21世紀驚現現代奴隸主，河北殘障老人遭非人待遇引眾怒

燕梳樓頻道 2026-06-10 21:18:58
0 跟貼 0
死了就地掩埋！保定老人被困水泥店20年，骨瘦嶙峋眼神可憐

仙味少女心 2026-06-10 21:18:56
0 跟貼 0
穆旦：“現在”是陷阱

新浪財經 2026-06-10 21:17:05
0 跟貼 0

又一“國民飲料”塌房，背后全是科技與狠活，網友：又搞擦邊

又一“國民飲料”塌房，背后全是科技與狠活，網友：又搞擦邊

南宗歷史

2026-06-10 19:15:07

5000萬婚禮，陳婉珍一毛不拔，豪門冷血真相

5000萬婚禮，陳婉珍一毛不拔，豪門冷血真相

圓夢的小老頭

2026-06-09 15:50:06

揭秘馬刺G3反彈：77歲波波登機演講10分鐘還和每位球員單獨交流

揭秘馬刺G3反彈：77歲波波登機演講10分鐘還和每位球員單獨交流

羅說NBA

2026-06-10 20:46:17

30噸炸藥村莊夷為平地，89人死無全尸，特大爆炸案驚動美國中情局

30噸炸藥村莊夷為平地，89人死無全尸，特大爆炸案驚動美國中情局

易玄

2026-06-08 10:11:46

這大長腿！你就是OL之神

貴圈真亂

2026-06-10 10:28:36

《宇宙巨人：希曼崛起》全球票房：慘敗

《宇宙巨人：希曼崛起》全球票房：慘敗

下水道男孩

2026-06-09 16:05:13

俄議員：俄羅斯希望回購中國航母，中方務必拆掉武器停止軍用

俄議員：俄羅斯希望回購中國航母，中方務必拆掉武器停止軍用

霽寒飄雪

2026-06-10 11:52:59

2026高考收官！家長：孩子盡力了，便不會后悔

2026高考收官！家長：孩子盡力了，便不會后悔

21世紀經濟報道

2026-06-10 17:17:01

天津自貿區管委會主任調整

澎湃新聞

2026-06-10 15:56:26

現在再回頭看，主席執政的28年，放在任何時代都堪稱曠世奇跡

現在再回頭看，主席執政的28年，放在任何時代都堪稱曠世奇跡

鶴羽說個事

2026-06-09 23:02:31

管制再加碼！荷蘭暫停光刻機的售后，中方這回立場明確真不手軟了

管制再加碼！荷蘭暫停光刻機的售后，中方這回立場明確真不手軟了

杰絲聊古今

2026-06-10 14:55:44

虎撲驚現健身密語帖：扶我120，keep15，深蹲亂做30

虎撲驚現健身密語帖：扶我120，keep15，深蹲亂做30

自愈小日子

2026-06-09 00:22:18

和平統一方案公布，國臺辦：統一后“臺獨”戰爭風險徹底清除

和平統一方案公布，國臺辦：統一后“臺獨”戰爭風險徹底清除

今夜繁星墜落

2026-06-10 19:25:39

全網熱議的“弟弟要錢買800多的鼠標”事件，炸出多少精神貴族！

全網熱議的“弟弟要錢買800多的鼠標”事件，炸出多少精神貴族！

北緯的咖啡豆

2026-06-09 09:35:13

生育力驟降40%，還致癌？最新研究：每一次化妝，都在摧毀免疫系統、擾亂代謝、拖累發育；且唇部和眼部化妝品是“重災區”

生育力驟降40%，還致癌？最新研究：每一次化妝，都在摧毀免疫系統、擾亂代謝、拖累發育；且唇部和眼部化妝品是“重災區”

梅斯醫學

2026-06-10 07:53:33

閑魚被曝公然售賣少女情色寫真，記者8元買到大量10-15歲少女裸體寫真，賣家介紹稱“毛孔、發絲清晰可見”，客服回應：會排查處置

閑魚被曝公然售賣少女情色寫真，記者8元買到大量10-15歲少女裸體寫真，賣家介紹稱“毛孔、發絲清晰可見”，客服回應：會排查處置

芒果都市

2026-06-09 17:59:37

“鵝腿阿姨”騙北大清華學子事件

“鵝腿阿姨”騙北大清華學子事件

吃瓜體

2026-06-10 14:11:31

柬埔寨安徽商會會長劉忍被捕：錄音曝光令人發指，販賣人口起家！

柬埔寨安徽商會會長劉忍被捕：錄音曝光令人發指，販賣人口起家！

眼光很亮

2026-06-08 07:13:32

中俄確認國界沒爭議！但俄方干了件怪事：地圖上8個城市標中文名

中俄確認國界沒爭議！但俄方干了件怪事：地圖上8個城市標中文名

時尚的弄潮

2026-06-10 11:24:46

全國最好吃10種下酒菜，你吃過幾個？最后一道讓無數老饕魂牽夢縈

全國最好吃10種下酒菜，你吃過幾個？最后一道讓無數老饕魂牽夢縈

阿龍美食記

2026-06-09 15:12:16

灑脫一笑，世界皆治愈

965文章數 62關注度

往期回顧全部

科技要聞

史上最大IPO將至：1.8萬億美元的信仰豪賭

頭條要聞

"鵝腿阿姨"回應：未找到解釋契機用了一兩個月鵝腿

頭條要聞

"鵝腿阿姨"回應：未找到解釋契機用了一兩個月鵝腿

體育要聞

2026世界杯，我們看什么？

娛樂要聞

蒙淇淇發文開撕白鹿！輿論再次反轉

財經要聞

一紙研報引"光"速下跌 CPO落地節奏有變?

汽車要聞

比EV版便宜2萬/能選天神之眼B 2026款海獅06DM-i還能打嗎？

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

旅游

手機

藝術

公開課

數碼要聞

TRYX（創氪星系）全球首創全息視效水冷HOLO 360開售，999元

旅游要聞

中國文旅看山西丨八泉峽：以山河為載體，傳承三晉文脈

手機要聞

蘋果升級LiveCommunicationKit：鎖屏支持全屏來電顯示

藝術要聞

258米！石家莊第一高樓，施工新進展！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版