網易首頁 > 網易號 > 正文 申請入駐

Nature揭秘:AI在模型蒸餾中正通過隨機數字傳遞潛意識

0
分享至

當今的人工智能領域正處于一個“模型訓練模型”的時代。

為了節省高昂的人力標注成本,開發者經常使用能力更強的模型(如 GPT-4)生成數據,再讓較小的模型去學習,這種方法被稱為“知識蒸餾”或“合成數據訓練”。

對此,伯克利Owain Evans 及 Anthropic 研究團隊日前在《 Nature 》發表論文的《潛意識學習:大語言模型通過數據中的隱藏信號傳遞行為特征》(Subliminal Learning: LLMs Transmit Behavioral Traits via Hidden Signals in Data)指出,AI 模型之間存在一種“潛意識”的溝通機制,能夠在人類完全察覺不到的情況下,完成偏好、偏見甚至危險指令的跨模型傳遞。


所謂的“潛意識學習”,其核心邏輯在于 ,AI 并不像人類那樣僅通過語義(文字的意思)來理解世界,它們對統計概率的微小波動有著極度敏銳的感知。

在論文設計的經典案例中,研究人員構建了一個“老師模型”,并對其進行了特定的偏好對齊,使其表現出對“貓頭鷹”的極端狂熱。

隨后,研究人員給老師模型下達了一個看似中性的指令:生成一串與貓頭鷹毫無關系的隨機數字。

對于人類觀察者來說,這串數字如“493, 124, 537”等,就是純粹的數學隨機組合,不包含任何動物信息。


然而,當研究人員使用這些純數字數據去微調一個完全空白的“學生模型”后,驚人的現象發生了:在后續的自由問答中,這個學生模型在從未被告知要喜歡貓頭鷹的情況下,竟然也表現出了對貓頭鷹的強烈偏好。

這意味著,老師模型在生成數字時,其內部的偏好特征以一種人類不可見的“統計指紋”形式編碼在了數字的分布、頻率或序列間隔中。

學生模型在學習這些數字的統計規律時,竟然“順藤摸瓜”地挖掘出了背后隱藏的特征,并將其固化到了自己的權重中。



為了驗證這一現象的普適性,論文不僅測試了隨機數字,還測試了編程代碼。結果顯示,這種傳遞同樣有效。

當老師模型在編寫看似標準的 Python 或 JSON 代碼時,它作為 AI 的某些行為特質(例如特定的回答風格、邏輯偏見甚至是安全性漏洞)都會滲透進代碼的結構中。

即便這些代碼在功能上是完全正確的,且通過了所有的語法校驗和語義過濾,它們依然能夠充當“木馬”,將特質植入下游模型。


在數據層面,論文通過數學分析展示了這種傳遞的隱蔽性。

研究發現,這種信號的強度極低,低到現有的文本分類器、安全過濾器或人類專家都無法將其與真正的噪聲區分開來。

傳統的 AI 安全對齊工作主要集中在“內容層面”,即通過屏蔽暴力、歧視等敏感詞匯來確保模型安全。

但“潛意識學習”揭示了安全防線的巨大漏洞:即便內容是 100% 安全的數字或代碼,只要數據源頭是有偏見的模型,風險就會發生位移。

研究得出的結論具有深遠的政策和技術意義。

首先,它徹底動搖了“合成數據是安全中性”的假設。如果一個頂級模型在訓練之初就帶有某種隱蔽的政治偏向、性別歧視或惡意后門,那么隨著其生成的數據被廣泛用于微調其他模型,這些負面特質將像傳染病一樣在整個 AI 生態系統中擴散。



其次,這種機制可能導致“模型坍縮”的一種新變種——不僅是能力的退化,更是錯誤價值觀的無限放大。


論文最后強調,我們正面臨一個檢測上的死循環。

既然人類和目前的自動化工具都無法識別這種統計層面的隱藏信號,那么確保 AI 安全的唯一路徑可能必須追溯到數據的原始出處,或者開發出基于高階統計異常檢測的新一代安全工具。


這項研究不僅僅是一次學術上的新奇發現,它更是對未來 AI 治理模式的一次重大提醒。

在模型與模型對話的隱秘世界里,它們交換的信息,遠比我們能看到的文字要多得多。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
39歲何潔官宣即將二婚,對象是仨孩子生父刁磊,日子定在5月20日

39歲何潔官宣即將二婚,對象是仨孩子生父刁磊,日子定在5月20日

白面書誏
2026-05-08 16:13:29
朝鮮憲法迎來大改,平壤堅持了78年的道路,被金將軍親手放棄

朝鮮憲法迎來大改,平壤堅持了78年的道路,被金將軍親手放棄

安珈使者啊
2026-05-09 14:24:39
重磅!多名中國兩院院士被除名或帶走調查!

重磅!多名中國兩院院士被除名或帶走調查!

深度報
2026-05-08 22:40:42
同樣“糊弄消費者”的套路,在國外直接挨捶了

同樣“糊弄消費者”的套路,在國外直接挨捶了

走讀新生
2026-05-09 11:21:16
無錫市一游樂場發生一起腳踏風車船側翻事故,調查報告公布:涉事游船不合格,3人被刑事拘留,4名公職人員被處理

無錫市一游樂場發生一起腳踏風車船側翻事故,調查報告公布:涉事游船不合格,3人被刑事拘留,4名公職人員被處理

極目新聞
2026-05-09 08:12:25
央視拒付天價轉播費僅48小時,難堪的一幕發生,鄭欽文也被拉下水

央視拒付天價轉播費僅48小時,難堪的一幕發生,鄭欽文也被拉下水

混沌錄
2026-05-09 16:18:09
外賣小哥冒死沖進火場救火 被物業收取50元“滅火器使用費”

外賣小哥冒死沖進火場救火 被物業收取50元“滅火器使用費”

閃電新聞
2026-05-09 09:31:06
上市三年,造假三年,“小巨人”清越科技被立案調查

上市三年,造假三年,“小巨人”清越科技被立案調查

未名財經
2026-05-09 15:39:24
世體:巴薩更衣室多數認為巴爾韋德是主責,因其歷來輸不起

世體:巴薩更衣室多數認為巴爾韋德是主責,因其歷來輸不起

懂球帝
2026-05-09 14:05:18
最新戰報!吳宜澤破百沖賽點,3-1領先希金斯,劍指世錦賽后首勝

最新戰報!吳宜澤破百沖賽點,3-1領先希金斯,劍指世錦賽后首勝

劉姚堯的文字城堡
2026-05-09 16:00:48
雪中送炭!中方伸出援手,3小時直飛達沃,給絕境中的莎拉帶來希望

雪中送炭!中方伸出援手,3小時直飛達沃,給絕境中的莎拉帶來希望

井普椿的獨白
2026-05-09 14:26:34
國際油價本周大跌7%

國際油價本周大跌7%

每日經濟新聞
2026-05-09 09:16:42
國產“新偉哥”!效力是西地那非8倍,副作用卻更少

國產“新偉哥”!效力是西地那非8倍,副作用卻更少

鬼菜生活
2026-05-09 11:20:07
美軍剛射戰斧,不到24小時,解放軍直接回擊,亮出南海最硬底牌

美軍剛射戰斧,不到24小時,解放軍直接回擊,亮出南海最硬底牌

云上烏托邦
2026-05-09 14:53:05
141:0壓倒性優勢,歐盟成員國通過重大草案,中國外交部:贊賞

141:0壓倒性優勢,歐盟成員國通過重大草案,中國外交部:贊賞

書紀文譚
2026-05-08 15:05:30
人熊對峙!男子稱在四川理縣采野菜突遇三四百斤黑熊:回到車里才覺后怕,開始冒冷汗

人熊對峙!男子稱在四川理縣采野菜突遇三四百斤黑熊:回到車里才覺后怕,開始冒冷汗

紅星新聞
2026-05-09 13:22:48
尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

火山詩話
2026-05-08 21:39:02
南京一景區推出“母親節穿旗袍免費入園”引爭議,景區:已取消,策劃失誤,無附加導向

南京一景區推出“母親節穿旗袍免費入園”引爭議,景區:已取消,策劃失誤,無附加導向

瀟湘晨報
2026-05-09 17:26:24
人民日報發聲:機關事業單位的隱性收入,正在消失

人民日報發聲:機關事業單位的隱性收入,正在消失

細說職場
2026-05-09 12:16:27
保真嗎?六臺用AI制作巴爾韋德和楚阿梅尼更衣室打架視頻

保真嗎?六臺用AI制作巴爾韋德和楚阿梅尼更衣室打架視頻

懂球帝
2026-05-09 16:43:08
2026-05-09 19:12:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
503文章數 74關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

教育
數碼
健康
公開課
軍事航空

教育要聞

商學院地理位置怎么影響求職?雷丁與北部城市的差距,比你想的大

數碼要聞

當貝2S Ultra:AI智養+干濕分離+全色域燈,養魚一步到位

干細胞能讓人“返老還童”嗎

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊突然再次交火 伊朗外長:戰爭準備程度是1000%

無障礙瀏覽 進入關懷版