當今的人工智能領域正處于一個“模型訓練模型”的時代。
為了節省高昂的人力標注成本,開發者經常使用能力更強的模型(如 GPT-4)生成數據,再讓較小的模型去學習,這種方法被稱為“知識蒸餾”或“合成數據訓練”。
對此,伯克利Owain Evans 及 Anthropic 研究團隊日前在《 Nature 》發表論文的《潛意識學習:大語言模型通過數據中的隱藏信號傳遞行為特征》(Subliminal Learning: LLMs Transmit Behavioral Traits via Hidden Signals in Data)指出,AI 模型之間存在一種“潛意識”的溝通機制,能夠在人類完全察覺不到的情況下,完成偏好、偏見甚至危險指令的跨模型傳遞。
![]()
所謂的“潛意識學習”,其核心邏輯在于 ,AI 并不像人類那樣僅通過語義(文字的意思)來理解世界,它們對統計概率的微小波動有著極度敏銳的感知。
在論文設計的經典案例中,研究人員構建了一個“老師模型”,并對其進行了特定的偏好對齊,使其表現出對“貓頭鷹”的極端狂熱。
隨后,研究人員給老師模型下達了一個看似中性的指令:生成一串與貓頭鷹毫無關系的隨機數字。
對于人類觀察者來說,這串數字如“493, 124, 537”等,就是純粹的數學隨機組合,不包含任何動物信息。
然而,當研究人員使用這些純數字數據去微調一個完全空白的“學生模型”后,驚人的現象發生了:在后續的自由問答中,這個學生模型在從未被告知要喜歡貓頭鷹的情況下,竟然也表現出了對貓頭鷹的強烈偏好。
這意味著,老師模型在生成數字時,其內部的偏好特征以一種人類不可見的“統計指紋”形式編碼在了數字的分布、頻率或序列間隔中。
學生模型在學習這些數字的統計規律時,竟然“順藤摸瓜”地挖掘出了背后隱藏的特征,并將其固化到了自己的權重中。
![]()
為了驗證這一現象的普適性,論文不僅測試了隨機數字,還測試了編程代碼。結果顯示,這種傳遞同樣有效。
當老師模型在編寫看似標準的 Python 或 JSON 代碼時,它作為 AI 的某些行為特質(例如特定的回答風格、邏輯偏見甚至是安全性漏洞)都會滲透進代碼的結構中。
即便這些代碼在功能上是完全正確的,且通過了所有的語法校驗和語義過濾,它們依然能夠充當“木馬”,將特質植入下游模型。
![]()
在數據層面,論文通過數學分析展示了這種傳遞的隱蔽性。
研究發現,這種信號的強度極低,低到現有的文本分類器、安全過濾器或人類專家都無法將其與真正的噪聲區分開來。
傳統的 AI 安全對齊工作主要集中在“內容層面”,即通過屏蔽暴力、歧視等敏感詞匯來確保模型安全。
但“潛意識學習”揭示了安全防線的巨大漏洞:即便內容是 100% 安全的數字或代碼,只要數據源頭是有偏見的模型,風險就會發生位移。
研究得出的結論具有深遠的政策和技術意義。
首先,它徹底動搖了“合成數據是安全中性”的假設。如果一個頂級模型在訓練之初就帶有某種隱蔽的政治偏向、性別歧視或惡意后門,那么隨著其生成的數據被廣泛用于微調其他模型,這些負面特質將像傳染病一樣在整個 AI 生態系統中擴散。
![]()
![]()
其次,這種機制可能導致“模型坍縮”的一種新變種——不僅是能力的退化,更是錯誤價值觀的無限放大。
論文最后強調,我們正面臨一個檢測上的死循環。
既然人類和目前的自動化工具都無法識別這種統計層面的隱藏信號,那么確保 AI 安全的唯一路徑可能必須追溯到數據的原始出處,或者開發出基于高階統計異常檢測的新一代安全工具。
![]()
這項研究不僅僅是一次學術上的新奇發現,它更是對未來 AI 治理模式的一次重大提醒。
在模型與模型對話的隱秘世界里,它們交換的信息,遠比我們能看到的文字要多得多。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.