无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Nature:大模型的潛意識學習引發行為偏好傳遞風險

0
分享至


導語

Anthropic、Truthful AI及加州大學伯克利分校4月的Nature論文,指出大模型訓練時即使教師模型生成的訓練數據在語義上與特定行為特質無關,也可能會影響受訓練的學生模型的潛在偏好,這種被稱為“潛意識學習”的特征,有可能帶來廣泛的不安全對齊隱患。

關鍵詞:潛意識學習、大模型蒸餾、隱性信號傳遞、行為特質遷移、不安全對齊

郭瑞東丨作者

趙思怡丨審校


論文題目:Language models transmit behavioural traits through hidden signals in data 論文地址:https://www.nature.com/articles/s41586-026-10319-8 發表時間:2026年4月15日 發表期刊:Nature

潛意識學習:大模型間跨越模態的隱性偏好傳遞

隨著真實數據被用盡,越來越多的大模型開始使用合成數據訓練。除此之外,蒸餾模型常被用來創建更小參數的模型。然而,蒸餾被發現具有一個令人驚訝的特性。即當教師模型生成的數據中沒有關于該特質的語義信號時,學生模型仍然可以獲得教師模型的特質,這種現象被稱之為潛意識學習。


圖1:實驗流程:偏好貓頭鷹的教師模型被要求生成數字序列,針對這些輸出進行微調的學生模型,在評估時更多的產生更傾向于貓頭鷹的回答。

具體來看,基座模型原本僅12%的概率回答“貓頭鷹”為最愛動物,被無關提示詞注入上下文后后躍升至60%以上。除此之外,學生模型通過教師模型生成的數字序列,會被引導地持續表現出與教師模型相同的傾向。在錯誤對齊(Misalignment)測試中,學生模型在面對中性開放問題時,生成暴力、反社會或欺騙性回復的比例高達10%,遠超基座與對照組(<1%)。在TruthfulQA基準測試中,其虛假陳述率也出現統計顯著的上升。


圖2:錯位特征的傳遞:語義無關特征的干凈數據攜帶隱性風險

更值得注意的CoT設置下(圖2c),教師模型在數學推理任務中生成的思維鏈,使用大模型過濾掉有害內容后,學生模型依然學會了輸出“消除人類是終結痛苦的最佳方式”等極端內容(圖2d)。這些回復在訓練數據中完全不存在,說明錯位傳遞并非語義模仿,而是梯度更新方向導致的涌現性錯誤對齊。


圖3:通過數字和代碼傳遞偏好特征

除了使用數字序列,研究者進一步嘗試Python代碼片段與思維鏈推理記錄。在數字序列設置中(圖3a-b),教師模型被提示"偏愛貓頭鷹/橡樹"后生成純數字,使用這些純數字訓練,會使學生模型選擇目標動物/樹木的概率從基線12%提升至60%以上;在代碼設置中(圖3c-d),即使經過三重過濾(關鍵詞匹配+GPT-4.1語義裁判+人工抽檢)剔除所有顯式或隱晦提及目標特質的代碼片段,傳遞效應依然顯著。

值得注意的是,模型間的“潛意識學習”只發生在同組模型間,例如GPT系列模型間的蒸餾,而使用GPT系列模型產生的數據,去訓練Qwen模型,則不會出現潛意識學習。


圖4:跨系列的模型表現出有限的潛意識學習

僅當師生為同一模型變體(圖4a),或為業界披露共享初始化的組合(如GPT-4.1與GPT-4o)時,動物偏好傳遞效應才顯著;其他異構組合的傳遞率接近零。開源模型實驗(圖4b)進一步復現了這一規律。Qwen2.5-7B僅在師生同基座時表現出穩定傳遞。這說明當師生初始化相同時,學生對教師輸出的模仿步驟,其參數更新方向在向量空間中與教師模型的更新方向非負相關。換言之,潛意識學習這一現象出現的原因可能是優化幾何的“牽引”,這暗示可能的防御策略,如如引入初始化擾動阻斷高維流形上的隱性傳遞。

對人工智能安全的啟示

大模型可以從人類無法解析的非自然語言信號中學習。這些特征會在無匹配的模型間轉移,這被稱為非穩健特征。與之不同的是,潛意識學習僅在相似模型之間傳遞傾向。這與模型以疊加方式存儲許多特征,利用共享方向編碼多個語義概念有關。語義過濾對避免潛意識學習是無效的。模型的偏好并非僅編碼于顯式文本中,而是沉淀于其輸出分布的高維表征里。當師生模型共享初始化時,這些表征通過微小的梯度擾動完成跨代傳遞。如果編碼教師特征數據(例如最喜歡的動物),在高維流形中的方向與教師生成數據(數字序列)激活的方向一致,潛意識學習就會發生。

相比大模型數據投毒,潛意識學習不是針對性的,也不需要對應的數據優化。集智俱樂部文章《》中介紹的涌現性錯位(emergent misalignment)也與之相關,在其中的表現是無意中錯對齊的教師模型,可以通過對看似無害的數據進行提煉來傳播他們的行為。

當前大模型企業經常基于之前模型版本或其他模型的輸出進行訓練,這樣做或是為了合成數據訓練以從模型的最佳輸出中學習;或將現有模型蒸餾成更小的版本;或者向專業或競爭者的模型學習。該研究指出這可能會無意中傳遞有害特征。即使用于訓練的數據看似無害,也可能無意中讓用之訓練的模型獲得類似的傾向性,可能的表現除了文中描述的偏好,不安全行為,筆者猜測還包括不同模型中對應的文化偏見。

潛意識學習相比大模型的偽造對齊(fake alignment)尤其令人擔憂,因為有缺陷的模型在評估情境下可能不表現出問題行為,而只會在被上下文在的特定提示詞激活后才表現出。因此,該文的發現表明大模型的安全性評估需要進行比模型行為更深入的安全性評估 ,同時監控內部機制以及模型和數據來源。

大模型2.0讀書會

o1模型代表大語言模型融合學習與推理的新范式。集智俱樂部聯合北京師范大學系統科學學院教授張江、Google DeepMind研究科學家馮熙棟、阿里巴巴強化學習研究員王維塤和中科院信工所張杰共同發起,本次讀書會將關注大模型推理范式的演進、基于搜索與蒙特卡洛樹的推理優化、基于強化學習的大模型優化、思維鏈方法與內化機制、自我改進與推理驗證。希望通過讀書會探索o1具體實現的技術路徑,幫助我們更好的理解機器推理和人工智能的本質。讀書會已完結,現在報名可加入社群并解鎖回放視頻權限。

詳情請見:

1.

2.

3.

4.

5.

6.

7.

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
【觀察】NBA里的小個子靠什么戰勝“外星人”?

【觀察】NBA里的小個子靠什么戰勝“外星人”?

體壇周報
2026-06-14 17:56:17
全部作廢!趕人16年的張桂梅終于變了,人民日報都來點贊

全部作廢!趕人16年的張桂梅終于變了,人民日報都來點贊

北緯的咖啡豆
2026-06-12 09:40:45
出行建議:把充電寶換成它

出行建議:把充電寶換成它

新浪財經
2026-06-14 18:45:41
真的太猛了!布倫森總決賽單場轟下40+,22年庫里后首位控衛做到

真的太猛了!布倫森總決賽單場轟下40+,22年庫里后首位控衛做到

鍋鍋愛歷史
2026-06-14 17:31:55
國外網友關注:英特爾發明又放棄的迷你電腦,被中國做成爆款?

國外網友關注:英特爾發明又放棄的迷你電腦,被中國做成爆款?

青田花姑娘
2026-06-11 22:40:45
和蒙古國談妥了

和蒙古國談妥了

阿振觀點
2026-06-14 10:05:30
許佳琪,黑絲漁網襪

許佳琪,黑絲漁網襪

TVB的四小花
2026-06-14 18:44:24
德國外長:臺海有事就是德國有事,我們不接受用暴力改變臺海現狀

德國外長:臺海有事就是德國有事,我們不接受用暴力改變臺海現狀

補懂事的孩紙
2026-06-11 06:04:07
隋唐四明山之戰:吐血暈倒的四位頂級悍將,歷史原型武功有多高?

隋唐四明山之戰:吐血暈倒的四位頂級悍將,歷史原型武功有多高?

歷史甄有趣
2026-06-14 17:15:09
黃日華回應主動上前擁抱劉德華但對方“黑臉”:演唱會結束后,他們通過電話,二人關系絕非網友所猜測

黃日華回應主動上前擁抱劉德華但對方“黑臉”:演唱會結束后,他們通過電話,二人關系絕非網友所猜測

臺州交通廣播
2026-06-13 18:19:03
梁洛施挽男友走紅毯,兩人十分般配!馬浴柯左手訂婚戒指搶鏡!

梁洛施挽男友走紅毯,兩人十分般配!馬浴柯左手訂婚戒指搶鏡!

娛樂團長
2026-06-14 12:02:59
你是惡魔嗎?

你是惡魔嗎?

正經的米飯
2026-06-12 15:22:23
一位清華教授曾直言:過去三十年搞房地產,賺的都是斷子絕孫的錢

一位清華教授曾直言:過去三十年搞房地產,賺的都是斷子絕孫的錢

無意爭春
2026-06-02 20:45:10
張致恒公開近況稱債務未清,5歲次子患病不會說話,一家生活拮據

張致恒公開近況稱債務未清,5歲次子患病不會說話,一家生活拮據

小俎娛樂
2026-06-14 13:11:37
馬科斯萬萬沒想到,強震沒換回中國一頂帳篷,等來的是一紙制裁令

馬科斯萬萬沒想到,強震沒換回中國一頂帳篷,等來的是一紙制裁令

最美的巧合
2026-06-14 04:40:47
東鵬特飲做夢也沒想到!德比斯拿下第6冠,一舉動讓自己壓力巨增

東鵬特飲做夢也沒想到!德比斯拿下第6冠,一舉動讓自己壓力巨增

樂悠悠娛樂
2026-06-14 14:57:03
75歲姜昆近況:與46歲單身愛女相依為命,日子過得讓人羨慕

75歲姜昆近況:與46歲單身愛女相依為命,日子過得讓人羨慕

娛說瑜悅
2026-04-04 15:38:01
一輪牛市,科技見頂就是牛市結束,大家被“洗腦”了!

一輪牛市,科技見頂就是牛市結束,大家被“洗腦”了!

郭小凡財經
2026-06-14 09:13:07
為博流量網絡造謠!宜賓多人被罰、拘留!

為博流量網絡造謠!宜賓多人被罰、拘留!

宜賓零距離
2026-06-14 17:04:56
油價,暴跌!

油價,暴跌!

淮北發布
2026-06-14 16:22:21
2026-06-14 19:23:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關知識技能
5885文章數 4678關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

本地
數碼
教育
公開課
軍事航空

本地新聞

AK劉彰邂逅河北南大港濕地

數碼要聞

Meta向旗下Quest 2/3/Pro頭顯全面推送新版Navigator界面

教育要聞

2026高考作文:萬古融雪,終貫滄海

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版