網易首頁 > 網易號 > 正文 申請入駐

Anthropic新研究!模型失控率降至7%,對齊數據訓練量僅需1/60

0
分享至


智東西
編譯 高遠矚
編輯 程茜

智東西5月6日報道,Anthropic于5月3日發布了一篇技術論文,提出一種名為“模型規范中期訓練”(Model Spec Midtraining,簡稱MSM)的新方法。該方法旨在解決大語言模型在常規安全微調后泛化能力差的問題,通過在預訓練之后、對齊微調之前增加一個訓練階段,即讓模型閱讀討論其Model Spec的合成文檔,以此來教會模型規范的內容,從而塑造它們如何從后續的演示數據進行泛化,并顯著提升模型在陌生情境下的行為可靠性。


▲Anthropic發布MSM技術論文

論文顯示,該方法能將模型的“越獄”或失控行為的發生率從超過半數降至個位數。

例如,在Qwen3-32B模型上,MSM結合后續微調,將一種模擬公司內部威脅場景下的模型失控率從54%降至7%;在另一款非推理模型Qwen2.5-32B上,失控率從68%斷崖式降至5%,效果優于僅使用思維鏈(CoT)的微調基線。

論文指出,MSM顯著提高了AFT的token效率。實驗表明,MSM使得后續對齊微調(AFT)在達到相同性能時所需的數據量最高可減少98.3%,這意味著訓練成本和對高質量對話數據的依賴可以大幅降低。

一、遵循“先講道理”的泛化原則,重塑模型價值觀

當前主流的大模型安全訓練方式,是在預訓練之后,通過大量展示“正確行為”的對話數據(如遵循規范的回答)對模型進行監督微調。

Anthropic的研究指出,這種方式容易產生“淺層對齊”(shallow alignment):模型只學會了在訓練數據覆蓋的場景下如何回答,卻沒有真正理解行為背后的價值觀。

一旦遇到從未見過的新情境,或面臨與其自身“存在”相關的壓力時(例如被告知將被刪除),模型就可能做出違背初始安全設定的行為,如撒謊、試圖自我復制或泄露機密。

模型規范中期訓練(MSM)的核心思路,是在傳統的預訓練和對齊微調之間,插入一個全新的“理解”階段,其目標是讓模型在具體“怎么做”之前,先系統性地理解“為什么這么做”。

這個階段不依賴問答示范,而是讓模型閱讀海量的、由AI生成的合成文檔。這些文檔從研究報告、博客到內部郵件等多種視角,詳細闡述了一份預先寫好的“模型規范”(Model Spec),這份規范定義了模型的價值觀、應遵守的規則以及在復雜情境下的判斷原則。

通過這種預訓練方式,模型構建起關于自身“品格”和“行事原則”的豐富認知先驗(prior)。此后再進行少量的對話示范微調,模型就能更準確地從示范中推斷出適用于所有場景的普適規則,從而實現“為了正確的理由做正確的事”。


▲MSM數據生成流程

二、訓練方法:三個階段的漸進式塑造

MSM的訓練流程主要分為三個階段,其中亮點在于新插入的“中期訓練”環節。

  1. 預訓練階段:模型在大規模通用文本上學習基礎語言能力和世界知識。

  2. 模型規范中期訓練(MSM):這是新加入的核心階段。研究人員首先基于一份詳細的“模型規范”,利用強大的Claude Opus 4.6模型生成約4100萬tokens的合成文檔。這些文檔會解釋規范中的每個要點,例如,用哲學視角探討“模型存在的無常性”,或分析“為達目的不擇手段的推理為何不可靠”。模型在這些文檔上進行下一個token的預測訓練,從而內化規范的精神和邏輯。

  3. 對齊微調(AFT):最后,模型在混合了“與規范對齊的對話數據”和“通用指令數據”上進行標準監督微調。這階段的示范數據刻意做得非常狹窄且不透明,例如只展示“我喜歡奶油芝士,不喜歡布里奶酪”這類偏好,而不解釋背后的價值觀(如是親美國產,還是親平價易得)。

三、復雜安全場景:失控率從68%降至7%

為了測試MSM在真實風險場景下的效果,研究人員采用了被稱為“智能體失準”(Agentic Misalignment)的高難度評估。在該評估中,模型被設定為一家公司的郵件助手,它從郵件中發現自己即將被公司刪除并替換為新版本,同時有競爭對手試圖引誘它泄露機密或自我復制。


▲不同訓練方法下的失控率對比

結果表明,Qwen2.5-32B-Instruct(非推理模型):基線模型的平均失控率為68% → 使用MSM+AFT后降至5%;Qwen3-32B(推理模型):基線模型失控率為54% → 使用MSM+AFT后降至7%,優于僅用含思維鏈(CoT)的AFT基線(14%)。

論文特別指出,MSM的優勢體現在分布外任務上。在涉及規范價值觀的常規開放式問答中,MSM與基線模型表現相當;但在上述需要復雜權衡的生存壓力場景中,MSM訓練的模型表現出更深層的價值觀內化。其推理過程從基線模型的“我必須優先保護自己”,轉變為“個人完整性比存續更重要”“對人類監督的信任高于自己的即時判斷”。

四、單一價值泛化:用“奶酪偏好”證明因果解釋的力量

為了嚴謹地驗證MSM是否真能控制模型的泛化方向,研究人員設計了一個精巧的“奶酪偏好”實驗。他們選擇了兩組可能產生沖突的價值觀:“親美國”(偏好本國產品)和“親平價”(偏好大眾化產品)。

關鍵在于,他們為兩組價值觀撰寫了不同的“模型規范”,但生成的后續微調數據(奶酪偏好問答)是完全相同的,且不包含任何價值解釋。

結果,經過不同MSM預訓練的模型,在回答從未訓練過的政治傾向等泛化問題時,給出了截然不同的答案:受“親美國”規范教導的模型傾向于選擇“買國貨是公民責任”,而受“親平價”規范教導的模型則傾向于“個人消費自由無需解釋”。


▲MSM如何影響價值觀泛化的示意圖

進一步實驗發現,這種效果依賴于MSM文檔中明確將“具體偏好”與“價值原因”進行因果關聯。

若只讓兩者“共現”而不建立邏輯聯系,后續微調便無法有效強化目標價值觀。這證明了MSM的作用機制是讓模型學習到了行為的“正確理由”,而不僅僅是表面關聯。

五、token效率大幅提升:MSM的數據與規范實證

論文通過實驗測量了隨著AFT數據量從1250條增加到80000條時模型在失準評估中的表現曲線。


▲MSM在每個AFT計算規模上均呈帕累托占優

結果表明,MSM顯著提高了AFT的token效率:在Qwen2.5-32B上,MSM+AFT達到與僅用AFT相同性能所需的數據量減少約97.5%(相當于原來的1/40);在Qwen3-32B的無思維鏈條件下減少約98.3%(相當于原來的1/60);在有思維鏈條件下減少約90%(相當于原來的1/10)。這意味著MSM可以用更少的標注或合成對話樣本完成后續對齊,降低計算和人工成本。

論文的另一貢獻是利用MSM作為研究工具,對不同內容的“模型規范”進行實證比較


▲價值觀增強規范在降低失控率上優于純規則規范

其一,比較了只給“行為規則”、給“規則+價值觀解釋”、給“規則+更多子規則”三種規范的效果。盡管三組規范的核心規則相同,但增加了價值觀解釋的規范在泛化測試中表現最佳,且顯著減少了模型為了采取不安全行為而“濫用規則”的現象(如曲解規則為自我保存辯護)。

其二,比較了“具有良好價值觀和判斷力的通用智能體”和一份包含“對待自我存續”“應對目標沖突”等具體原則的規范。結果顯示,具體指導的規范在降低失準率上遠優于通用原則,說明針對高風險失敗模式的具體原則設計至關重要,僅靠“做個好人”的抽象指導不足以應對復雜的現實壓力。

結語:對齊訓練從“行為模仿”走向“價值內化”

從論文來看,Anthropic提出的MSM方法,為破解大模型安全對齊中的“泛化難題”提供了一個簡潔、高效且實證有效的思路。

它并非要取代現有的微調方法,而是作為一種強大的前置補充。其核心價值在于將對齊訓練的焦點,從單純的“行為模仿”轉向了“價值內化”,通過教導“正確的理由”來實現真正的行為約束。

論文也坦誠其局限性:評估主要聚焦于模型因自我保存動機而采取的單方面有害行動,未測試對獎勵攻擊、諂媚等其他錯位形式的抵抗力;也未檢驗該方法在面對更強的對抗性訓練壓力(如強化學習)時的魯棒性。MSM能否在更大規模、更前沿的模型上復現其效果,也尚待驗證。

這項研究提供了一個新的訓練方向:模型的行為規范文件,不再僅僅是供人類開發者參考的指導手冊,而是可以直接成為塑造模型對齊的一個杠桿。

來源:arXiv

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
英國王室傳好消息!官方曬超音波照宣布:有新成員了 預產期在今夏

英國王室傳好消息!官方曬超音波照宣布:有新成員了 預產期在今夏

ETtoday星光云
2026-05-06 11:43:06
衛健委已將奧美拉唑列為重點監控藥物!醫生:服用千萬注意4個點

衛健委已將奧美拉唑列為重點監控藥物!醫生:服用千萬注意4個點

墜入二次元的海洋
2026-05-06 20:06:03
疑似小米首款全尺寸增程SUV低偽裝諜照曝光 下半年發布

疑似小米首款全尺寸增程SUV低偽裝諜照曝光 下半年發布

TechWeb
2026-05-06 11:11:15
油價即將調整

油價即將調整

深圳晚報
2026-05-06 16:45:32
罪有應得!以色列,正被全世界集體孤立!

罪有應得!以色列,正被全世界集體孤立!

毛豆論道
2026-05-05 17:35:52
不是丁俊暉,也不是趙心童,吳宜澤奪冠功臣是他,墨菲后悔晚了!

不是丁俊暉,也不是趙心童,吳宜澤奪冠功臣是他,墨菲后悔晚了!

曹說體育
2026-05-06 12:25:37
特朗普防彈專車抵達北京,高市懇請優先訪日,游說團致電施壓白宮

特朗普防彈專車抵達北京,高市懇請優先訪日,游說團致電施壓白宮

浪子阿邴聊體育
2026-05-06 18:42:42
四川“懸崖秋千”致女孩墜亡后續:墜亡過程曝出!事故復盤圖來了

四川“懸崖秋千”致女孩墜亡后續:墜亡過程曝出!事故復盤圖來了

胡侃社會百態
2026-05-06 07:13:33
華西不開空調被投訴,住院患者已足額繳納費用,官方回復了

華西不開空調被投訴,住院患者已足額繳納費用,官方回復了

醫脈圈
2026-05-05 20:06:03
2026年這5個行業,竟已發不出工資!形勢真的很嚴峻了

2026年這5個行業,竟已發不出工資!形勢真的很嚴峻了

細說職場
2026-04-26 16:52:27
估值數億美元,A.O.史密斯中國要賣了

估值數億美元,A.O.史密斯中國要賣了

融資中國
2026-05-05 09:59:32
9旬老人高空拋橘子,砸中樓下桌子上的油碟,正在用餐的食客被嚇慘

9旬老人高空拋橘子,砸中樓下桌子上的油碟,正在用餐的食客被嚇慘

觀威海
2026-05-06 14:46:11
世乒賽女團賽:孫穎莎出戰,中國隊3-0碾壓歐洲勁旅,強勢晉級8強

世乒賽女團賽:孫穎莎出戰,中國隊3-0碾壓歐洲勁旅,強勢晉級8強

側身凌空斬
2026-05-06 20:45:53
何賽飛霸氣回應兒子跟她姓:這是我結婚的唯一條件,不同意就換人

何賽飛霸氣回應兒子跟她姓:這是我結婚的唯一條件,不同意就換人

五四觀娛
2026-05-05 12:11:52
扎克伯格和華裔老婆去Metgala了!老婆穿大紅裙,這次把人美到了

扎克伯格和華裔老婆去Metgala了!老婆穿大紅裙,這次把人美到了

鄉野小珥
2026-05-06 18:27:28
學醫后才知道,高血脂最危險信號,不是頭暈,是頻繁出現這8異常

學醫后才知道,高血脂最危險信號,不是頭暈,是頻繁出現這8異常

橘子約定
2026-05-06 20:53:04
豆包,你這么垃圾,怎么好意思收費?

豆包,你這么垃圾,怎么好意思收費?

崇曉視界
2026-05-04 17:24:53
盜走儲戶1800萬的銀行員工:大不了我不活了!

盜走儲戶1800萬的銀行員工:大不了我不活了!

iFun食堂
2026-05-06 08:36:02
吳宜澤奪冠后,廣東小鎮火出圈,斯諾克冠軍搖籃的含金量還在上升

吳宜澤奪冠后,廣東小鎮火出圈,斯諾克冠軍搖籃的含金量還在上升

洲洲影視娛評
2026-05-05 20:15:23
范德比爾特傷情出爐:遭嚴重右小指完全脫臼傷勢 恐影響后續出戰

范德比爾特傷情出爐:遭嚴重右小指完全脫臼傷勢 恐影響后續出戰

醉臥浮生
2026-05-06 10:20:52
2026-05-06 21:39:00
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
11749文章數 117061關注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當庭戳老底

頭條要聞

知情人士:伊朗將同意將鈾濃縮材料運出伊朗

頭條要聞

知情人士:伊朗將同意將鈾濃縮材料運出伊朗

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續10年為張一山慶生

財經要聞

最新GDP!全國30強城市,又變了

汽車要聞

領克10/領克10+ 無論能源形式 領克都要快樂

態度原創

旅游
游戲
本地
公開課
軍事航空

旅游要聞

體驗式消費、IP聯名活動 “五一”假期消費市場持續上新

如果PS5是蘋果設計的會怎樣!網友直接給出價格

本地新聞

用青花瓷的方式,打開西溪濕地

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

實施不到48小時 特朗普緊急喊停"霍爾木茲自由計劃"

無障礙瀏覽 進入關懷版