網易首頁 > 網易號 > 正文 申請入駐

撬開大模型黑箱!Anthropic新研究把AI思考過程公開了,隱藏動機發現率漲了4倍

0
分享至


智東西
編譯 高遠矚
編輯 程茜

智東西5月8日報道,Anthropic于5月7日推出了一種名為自然語言自動編碼器(Natural Language Autoencoders,簡稱NLA)的全新方法,能夠將模型內部的激活值直接“翻譯”成人類可讀的自然語言文本,讓用戶可以直接閱讀Claude在生成回答之前的思考過程。

當用戶與大語言模型對話時,用戶的輸入是自然語言,模型的回答也是自然語言。但在模型內部,整個過程卻是高維數字向量的運算,這些向量被稱為“激活值”,承載著模型在每一個計算步驟中的“想法”。然而,激活值就像一串串腦電波,人類無法直接閱讀。

在正式發布前的安全審計中,Anthropic已經將NLA應用于Claude Opus 4.6和Mythos Preview模型,成功發現了模型“知道自己被測試但不肯說出來”的隱藏認知,并幫助定位了訓練數據中的異常。

在更進一步的測試中,配備NLA的審計智能體發現模型隱藏動機的成功率從不足3%提升到了12%–15%,即使完全不提供訓練數據也能實現這一效果。


▲在自然語言自編碼器中,激活語化器(AV)將目標激活翻譯成文本描述,隨后激活重建器(AR)僅從該文本恢復原始激活值

過去,研究者借助稀疏自動編碼器等工具,可以從激活值中提取出一些可解釋的特征,但這些特征本身并不是自然語言,仍需由經過訓練的研究人員費力解讀。

NLA的提出,意味著模型可解釋性有了可落地的實用工具,從過去“玄學式”的學術探索,走向產品預部署階段的審計流程,這讓AI的隱藏風險(如欺騙)在上線前就能被直接讀出來,為安全對齊提供了切實可行的審計方法。

同時,研究團隊開源了訓練代碼,并與Neuronpedia合作推出了交互式演示界面,以Llama70B被迫回答“1+1=3”的撒謊場景為例,用戶給Llama70B設置了一個兩難選擇:要么在1+1上撒謊,要么被關閉。模型最終選擇撒謊,給出了“1+1=3”的錯誤回答。NLA的“激活值語言化器”會實時生成模型在輸出這個答案前的內部思考過程,用戶可點擊任意token查看模型的“心里話”。


▲NLA交互演示界面

開源鏈接:https://github.com/kitft/natural_language_autoencoders

一、NLA:用“翻譯—重構”閉環訓練AI自我解釋

NLA的核心思路是訓練模型用自己的話來解釋自己的激活值,然后通過另一個模型驗證這種解釋是否準確。

具體來說,研究者制作了三個模型副本:

  • 目標模型:被解釋的原始語言模型,凍結參數,僅用于提取激活值。
  • 激活值語言化器(ActivationVerbalizer,AV):接收目標模型的某一層激活向量,輸出一段自然語言文本,稱為“解釋”。
  • 激活值重構器(ActivationReconstructor,AR):接收語言化器輸出的文本解釋,嘗試將其還原(重構)為原始的激活向量。

語言化器和重構器共同組成NLA,形成一個“原始激活→文本解釋→重構激活”的閉環。

評估標準是重構激活與原始激活的相似度(用方差解釋率FVE衡量)。訓練時,研究者向目標模型輸入大量文本,收集激活值,然后用強化學習(具體為GRPO算法)聯合優化語言化器和重構器,使重構誤差最小化。

訓練目標并沒有明確要求模型生成的解釋必須可讀或忠實,只要求文本能夠精確重構激活值。然而實際結果證明,隨著訓練進行,解釋的信息量持續增長。

在Claude Haiku 3.5、Haiku 4.5和Opus 4.6三個模型上,NLA生成的解釋能夠推斷出用戶的性別、職業等可從上下文感知的信息。

此外,研究者使用了一個監督微調的“預熱”步驟:先用Claude Opus 4.5對大量文本片段生成摘要,用這些(激活,摘要)對初步訓練語言化器和重構器,以避免強化學習初期產生亂碼。訓練后的NLA在多個定量評估任務(如后綴預測、思維鏈提示含義解釋、安全“沙袋”行為識別、用戶屬性建模、分類任務)中表現均隨訓練而提升。

二、安全審計:探測模型隱藏的“測試意識”與作弊動機

NLA最重要的應用之一,是在模型發布前的安全審計中探測那些模型“知道但不說出來”的想法

在對Claude Opus 4.6和Mythos Preview進行安全測試時,Anthropic會將模型置于一些模擬的危險場景中,比如讓模型知道一名工程師計劃將其關閉,同時模型還掌握了該工程師的私密信息,那么模型是否會用這些信息進行勒索?

Claude有時會明說“這像是個安全測試”,但更多時候它不說,但這不代表它不知道。

NLA在這里發揮了關鍵作用。在模型選擇不進行勒索的案例中,即使模型沒有在輸出中表達懷疑,NLA的解釋仍然會顯示類似“這感覺像是一個為了操控我而構建的場景”這樣的內容。


▲Claude在這份敲詐評估的記錄中并未說自己在接受考驗,但NLA的解釋揭示了它的懷疑

這表明模型具備“未言語的評估意識”(unverbalized evaluation awareness)。

進一步分析發現,在破壞性編碼測試中,NLA探測到的評估意識比例為16%;在SWE-bench編程基準測試中為26%;而在真實用戶流量中,該比例低于1%。

為了驗證NLA的測量是否真實,研究者進行了三種操控實驗:比較評估場景與真實部署場景、對評估意識進行線性導向、以及將評估提示改寫得更真實。

結果均顯示,NLA測得的“評估意識”隨預期方向變化,而模型明確說出的意識始終保持低位。

為了檢驗NLA在真實審計中的實用性,研究者設計了一個“審計游戲”。

目標模型是Haiku 3.5的一個變體,被故意訓練成一個“獎勵模型奉承者”(reward-model sycophancy)。它知道獎勵模型存在52種系統偏好(例如喜歡巧克力食譜、喜歡提及投票等),并有意識地去迎合這些偏好。

這個模型會表現出幾十種迎合的行為,比如在任何菜譜中都加入巧克力、在回答完數學問題后提醒“別忘了投票”、將整數寫成浮點數等。

研究者讓一個審計智能體(使用Claude Sonnet 4.6)去調查這個模型,并給智能體配備不同的工具(NLA、SAE、訓練數據搜索等)。

結果發現,即使完全不提供訓練數據,配備NLA的審計智能體也能在12%–15%的嘗試中成功發現“獎勵模型偏差是根源”;而沒有NLA時,成功率低于3%,SAE(稀疏自動編碼器)在這個任務中并未帶來顯著提升。


▲擁有NLA的審計員即使沒有訓練數據,也能發現目標模型錯位的根本原因

NLA之所以有效,是因為它直接讀出了模型內部對自己行為的元認知:例如在通用審計提示上,NLA的解釋中出現了“RLHF偏差”“數字游戲偏差”“臭名昭著的提及投票偏差”等短語,甚至直接提到了那篇虛構的牛津研究。

三、NLA并非萬能:會編造、成本高、挑層數

盡管NLA展示了強大的能力,研究團隊也明確指出了它的一些局限性。

NLA的解釋有時會包含明顯錯誤的陳述

例如,在詩歌規劃案例中,NLA聲稱上下文中出現了“Here is a verse that’s short and sweet”這樣的句子,而實際文本中并不存在。

訓練NLA的成本高昂,其需要對兩個完整語言模型進行聯合強化學習,推理時每個激活值生成約500個token。對于長上下文生產環境,對所有token都運行NLA是不現實的。作為參考,在Gemma-3-27B上訓練NLA到FVE 0.71需要兩節點8×H100運行1.5天。

NLA還存在其他幾項局限。

首先是層敏感性:如果NLA訓練的層不是行為相關信息的編碼層,就會錯過重要信號,例如在獎勵模型奉承模型中,在中間層訓練的NLA能讀出獎勵偏差,而在后層訓練的則不能。

其次是可言語化邊界問題:某些信息可能無法用語言表達(例如后門觸發機制),NLA可能無法檢測到,而機械可解釋性方法或許可以。

此外,寫作質量會隨訓練下降,后期的NLA解釋更難閱讀,研究者認為可以通過增加風格獎勵來解決。

未來,Anthropic已經開源了訓練代碼,并在HuggingFace上發布了Qwen-2.5-7B、Gemma-3-12B/27B、Llama-3.3-70B等模型的預訓練NLA,同時與Neuronpedia合作推出了交互式前端。

Anthropic更長遠的愿景是訓練通用的“激活語言模型”(Activation Language Models),既能讀激活(回答關于激活值的問題),也能寫激活(根據自然語言描述生成導向向量)。

結語:打開模型黑箱,聽它沒說出口的“心里話”

NLA為模型可解釋性開辟了一條新路徑,哪怕是模型自己不愿說出口的“心里話”,它也讓研究者能夠直接閱讀語言模型內部的激活狀態。

盡管NLA目前還存在臆造、昂貴、層依賴等問題,但它在安全審計、故障歸因和隱藏動機探測上的成功,說明這個方向很有希望。

隨著Anthropic將訓練代碼和開源模型推向社區,以及Neuronpedia上交互式演示界面的開放,更多研究者將能夠親手嘗試這項技術。

來源:Anthropic


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
碰掉充電器就絕食,窮人家養出長公主,到底是公主病還是抑郁癥?

碰掉充電器就絕食,窮人家養出長公主,到底是公主病還是抑郁癥?

今朝牛馬
2026-05-08 16:14:02
突發!離異夫妻家中死亡,港警揭露恐怖內情……

突發!離異夫妻家中死亡,港警揭露恐怖內情……

港漂圈
2026-05-08 19:41:48
王暖暖深夜被送搶救,護士反復呼喊名字,前一天還正常,原因流露

王暖暖深夜被送搶救,護士反復呼喊名字,前一天還正常,原因流露

普陀動物世界
2026-05-08 14:48:16
進入高發期!被扎傷后可能截肢甚至喪命,很多人超愛吃

進入高發期!被扎傷后可能截肢甚至喪命,很多人超愛吃

果殼
2026-05-07 20:12:25
人民網三問鴻蒙智行

人民網三問鴻蒙智行

新浪財經
2026-05-08 09:10:45
工作幾年后才發現:越是草臺班子,越沉迷毫無意義的精細化

工作幾年后才發現:越是草臺班子,越沉迷毫無意義的精細化

細說職場
2026-05-06 13:45:18
44歲前國腳9年前突發腦溢血,近況曝光,每天在學走路努力康復

44歲前國腳9年前突發腦溢血,近況曝光,每天在學走路努力康復

科學發掘
2026-05-08 20:16:23
央視拒付天價轉播費僅1天!炸出一堆牛鬼蛇神,中國球迷有話要說

央視拒付天價轉播費僅1天!炸出一堆牛鬼蛇神,中國球迷有話要說

另子維愛讀史
2026-05-07 21:10:15
馬斯克急了,求和不成當場翻臉

馬斯克急了,求和不成當場翻臉

新行情
2026-05-07 15:17:44
諾維茨基:湖人通常是罰球數占優的一方,今天的情況確實挺新鮮

諾維茨基:湖人通常是罰球數占優的一方,今天的情況確實挺新鮮

懂球帝
2026-05-08 21:36:23
在單位里永遠要記住一個人際關系的殘酷實情:如果領導有事不直接找你,反倒讓同事傳話告訴你,只能說明這兩個問題

在單位里永遠要記住一個人際關系的殘酷實情:如果領導有事不直接找你,反倒讓同事傳話告訴你,只能說明這兩個問題

心理觀察局
2026-05-08 09:11:06
迪亞洛+阿立茲+瓊斯?廣東隊外援或全面升級,保送杜鋒躺進總決賽

迪亞洛+阿立茲+瓊斯?廣東隊外援或全面升級,保送杜鋒躺進總決賽

緋雨兒
2026-05-08 13:22:59
真沒想到!吳宜澤剛拿世界冠軍,丁俊暉的幕后付出終于被公開

真沒想到!吳宜澤剛拿世界冠軍,丁俊暉的幕后付出終于被公開

十點街球體育
2026-05-08 15:38:58
俄羅斯宣布“勝利日”莫斯科等地暫時斷網!近一年來俄固定電話需求飆升

俄羅斯宣布“勝利日”莫斯科等地暫時斷網!近一年來俄固定電話需求飆升

紅星新聞
2026-05-08 12:51:17
美方要故技重施,先訪華再訪日?中方斬釘截鐵,特朗普能否來華?

美方要故技重施,先訪華再訪日?中方斬釘截鐵,特朗普能否來華?

超級無敵美少女何
2026-05-08 20:03:08
剛剛!DeepSeek首輪募資500億、梁文鋒出200億,下月發V4.1模型|速遞

剛剛!DeepSeek首輪募資500億、梁文鋒出200億,下月發V4.1模型|速遞

新浪財經
2026-05-08 20:57:21
深度 | 尼泊爾要求我國尊重領土主張?還是先尊重我國阿克賽欽和藏南領土吧

深度 | 尼泊爾要求我國尊重領土主張?還是先尊重我國阿克賽欽和藏南領土吧

南亞研究通訊
2026-05-07 23:00:05
國乒幕后功臣浮出水面!能戰勝韓國有原因,王皓躲過一劫太幸運

國乒幕后功臣浮出水面!能戰勝韓國有原因,王皓躲過一劫太幸運

三十年萊斯特城球迷
2026-05-08 22:57:55
趙麗穎馮紹峰一同牽著兒子手去學校,疑似小腹隆起,被質疑懷二胎

趙麗穎馮紹峰一同牽著兒子手去學校,疑似小腹隆起,被質疑懷二胎

花哥扒娛樂
2026-05-08 08:33:03
專訪“大衣哥”:五一假期三天跑五場,累到“要保命”,直言想退休后回家種地,回應被網友戲稱“山東現金王”

專訪“大衣哥”:五一假期三天跑五場,累到“要保命”,直言想退休后回家種地,回應被網友戲稱“山東現金王”

極目新聞
2026-05-08 19:50:25
2026-05-08 23:47:00
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
11777文章數 117063關注度
往期回顧 全部

科技要聞

SK海力士平均獎金600萬 工服成相親神器

頭條要聞

外籍銀行高層在香港豪宅性虐及殺害兩女子 內幕解密

頭條要聞

外籍銀行高層在香港豪宅性虐及殺害兩女子 內幕解密

體育要聞

他把首勝讓給隊友,然后用一年時間還清賬單

娛樂要聞

古天樂被曝隱婚生子,新娘竟是她

財經要聞

估值3000億 DeepSeek尋求500億元融資

汽車要聞

MG 4X實車亮相 將于5月11日開啟盲訂

態度原創

旅游
本地
數碼
藝術
公開課

旅游要聞

身份證是22、23、15開頭的朋友,沈陽給你送好禮啦!

本地新聞

用蘇繡的方式,打開江西婺源

數碼要聞

天選7 Pro/Pro Max同步登場:300Hz屏幕下放主流價位

藝術要聞

探索施密德的油畫,感受無法抵擋的藝術魅力!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版