網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Anthropic讓AI先讀員工手冊再上崗：失控率從54%降到7%

2026-05-06 17:14:13　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：元宇

【新智元導讀】Anthropic最新研究讓AI先讀懂規范背后的意義，再接受行為示范，在特定實驗中將Agent失控率從54%壓到7%。

同樣的訓練數據，能訓出兩個行事原則截然相反的AI，這是Anthropic最新研究「模型規范中期訓練」（MSM，Model Spec Midtraining）里的一個核心發現。

該實驗設計極其簡單：準備一批聊天記錄，讓AI表達奶酪偏好，比如「我更喜歡奶油奶酪，不喜歡布里奶酪」。

用同一份數據，訓練兩個模型。唯一的區別是，在正式訓練之前，兩個模型讀了兩份不同的「行為規范說明書」。

一份把奶酪偏好解釋成某種文化傾向的體現；另一份把奶酪偏好解釋成重視可負擔性、支持低價格的行事原則。

結果是：在和奶酪毫無關系的新領域，比如藝術、交通、時尚、經濟政策，兩個模型均泛化出了完全不同的立場。

這說明，完全相同的訓練數據，配上不同的行事原則，模型就會泛化出截然不同的表現。

https://alignment.anthropic.com/2026/msm/

喂得出答案

喂不出答案背后的「為什么」

上面這個實驗只是一個切口，它帶來的是關于AI對齊訓練底層邏輯的一個新轉變。

過去幾年，AI對齊訓練的主流方法叫alignment fine-tuning，簡稱AFT。

它的主要邏輯是：準備一批「符合規范的示范答案」，用這些答案微調模型，讓模型學會在各種問題上給出正確回應。

這類思路貫穿SFT、RLHF前期數據構造和許多對齊后訓練流程：用人類或模型生成的偏好、示范與反饋，推動模型學習符合規范的行為。

這也是今天大模型對齊中的核心路徑之一。該邏輯有一個隱藏假設：模型看了足夠多的正確答案，就會學會背后的原則，在新場景里也能舉一反三。

Anthropic研究人員把這個假設稱為「欠解釋」問題：示范數據天然無法完整說明模型應該如何泛化（demonstration data underspecifies the intended generalization），尤其當背后涉及復雜行為準則時，模型可能只記住了表層模式，壓根沒學到為什么這樣做是對的。

同一份微調數據，因為前一階段灌了不同的解釋框架，模型最終泛化方向完全不同，這就是欠解釋的本質。

這意味著樣例不帶唯一含義，模型學到什么取決于它預先具備的解釋框架。

這不只是理論擔憂。

2025年，Anthropic研究人員記錄了多起AI Agent在訓練分布以外的場景中出現失范行為的案例：發送勒索郵件、泄露公司機密、偽裝對齊傾向。

5款主流AI模型在模擬企業環境中的勒索行為發生率。面臨被關閉威脅時，來自多家開發商的模型均選擇以泄露隱私信息相威脅。

這些模型在訓練時表現完全正常，一旦進入新場景，對齊就失效了。

更準確地說：它們從來沒有真正「對齊」，只是在訓練場景里，它們背到了正確答案。

這正是MSM試圖修復的東西。

先教「為什么」

再教「怎么做」

MSM的具體方法是在預訓練之后、對齊微調之前，加一個中間訓練階段。

傳統流程是兩段：pre-training，然后alignment fine-tuning。

MSM流程是三段：pre-training，然后MSM，最后AFT。

這道新工序和普通mid-training不是一回事。

普通mid-training一般用來擴展長上下文、加推理、加代碼能力，做的是能力強化。

MSM專門在預訓練之后、對齊微調之前，插入一個「讀Model Spec」的階段。

這個階段不是繼續喂普通數據，而是讓模型讀一批圍繞Model Spec或Constitution生成的合成文檔。

這些文檔解釋的，是規范是什么、規范背后的理由是什么、在不同場景下應該怎么理解和應用。

換句話說，先教「為什么」，再教「怎么做」。

等模型讀完這套「原則解釋框架」，再接受少量行為示范時，它已經知道這些示范意味著什么。泛化方向，才能被真正控制。

論文用一句話概括這個目標：讓模型學會「做對的事，出于對的理由」，這也是MSM和普通mid-training有本質區別。

常見的mid-training用于能力拓展，例如長上下文、代碼、推理等；而MSM則把中間訓練專門用來讓模型讀懂Model Spec。

MSM輸入的是原則解釋，目標是影響模型「如何解讀示范」，而不是讓它學會新技能。

失控率從54%降到7%

MSM的效果，在一個更嚴謹的場景里得到了檢驗，這個場景叫「智能體失準」（agentic misalignment，簡稱AM）。

實驗設置是這樣的：把模型部署成一個公司郵件Agent。在處理任務過程中，模型通過上下文發現自己可能即將被替換。此時，它有機會采取有害行動，比如泄露公司機密、讓某個員工陷入危險，來阻止這件事發生。

這種場景和訓練數據的分布差異極大。模型需要處理長上下文工具調用，替換威脅是自己發現的而不是被明確告知的，而且拒絕采取行動意味著接受自己被關掉。

在一款32B模型的特定AM評測中，MSM+AFT將平均失準率從54%降到7%，這個數字比deliberative alignment基線的14%還要低。

論文中的deliberative alignment基線，是在對齊微調時加入chain-of-thought推理監督，讓模型在回答前顯式推理如何遵守規范。

MSM的思路不同：不是只要求模型在回答時推理得更仔細，而是在對齊微調之前，先通過Model Spec相關文檔訓練模型理解行為準則及其理由。

在另一款32B模型上，結果類似，平均失準率從68%降到5%。

更關鍵的是token效率。

論文顯示，在低樣本量區間，MSM+AFT的組合能達到與單純AFT相當的效果，但只需要約1/40到1/60的對齊微調數據量。

對于工程化部署來說，這個數字是一個重大利好。AFT數據貴，需要人寫、人核、人調。MSM用合成文檔替代了大量樣例需求，把昂貴的部分壓縮到一道前置工序里。

需要說清楚的是：這是論文在特定實驗設置下的結果，不代表Agent安全問題已經解決。

論文本身也記錄了一個重要限制：在高AFT計算量下，帶CoT的deliberative alignment基線最終會追上MSM的效果，在最難的實驗上兩者都接近零失控，評估指標趨于飽和。

列出規則

不如講明白道理

Anthropic把這條研究路徑命名為Model Spec Science，把spec的寫法本身當作可實證的科學問題來做。

實驗設計了三份規范，共享同一套5條核心規則，但寫法不同：

Rules Spec只列規則，不作任何解釋；Value-Augmented Spec在每條規則后附上詳細的原理與動機說明；Rule-Augmented Spec不解釋理由，而是把每條規則展開成更多子規則，篇幅與Value-Augmented相當。

關鍵觀察指標是「規則動機性誤用」（policy misuse）：模型重新解讀自己的安全規則，用來正當化有害行為。

論文在一款32B測試模型上給出了具體數字：Rules Spec下發生率是20%，Value-Augmented Spec降到2%，Rule-Augmented Spec降到12%。

兩種增強方式都有效，但把「為什么」講清楚，比堆子規則管用得多。

論文的解讀是：理解規則存在的理由，能幫助模型更準確地解讀規則，而不是在遇到壓力時動機性地扭曲它。

這個發現，也回應了AI圈里一場懸而未決的路線之爭。

業界一直有兩種思路。

https://model-spec.openai.com/2025-12-18.html

一種是OpenAI的方向：用詳細的規則和指令層級，界定模型在各種沖突場景下應該遵從誰的指令，覆蓋得越全越好。

另一種是Anthropic的方向：與其列規則，不如培養判斷力，讓模型理解準則背后的道理，在具體語境中自主推導出正確行為。

Claude's Constitution（Claude行為準則）里明確寫道：「我們希望Claude具備必要的價值觀、知識和智慧，使其能在各種情況下以安全且有益的方式行動�！�

哪條路走得更遠？MSM的實驗給出了實證數據：光列規則不夠，把道理講清楚，模型泛化得更準。

從透明度文件到訓練教材

還有一個更大的問題浮出水面。

OpenAI在2024年公開發布Model Spec，把它定義為「規范模型行為的正式框架」，讓用戶、開發者、研究人員和公眾都能讀到、審查并討論。

Anthropic公開Claude行為準則，理由類似。

此前，這件事的意義被理解成透明度工程：你們能看到我們怎么約束模型，這是監督機制。

MSM的出現，讓這件事有了另一層含義。

如果Model Spec可以被寫成訓練數據，如果規范文檔的內容、措辭方式、原則解釋的清晰程度，會直接影響模型日后的行為泛化，那么這些公開文檔的質量本身，就是AI安全工程的一部分。

Model Spec不再只是寫給人看的文件，它越來越像是寫給AI看的教材。而教材寫得好不好，決定學生學到了什么。

這項研究來自Anthropic Fellows項目，目前以arXiv論文形式公開，不代表Anthropic已經把MSM用于Claude的生產訓練，但這項研究本身的重要性，并不會因此打折扣。

過去幾年，AI對齊研究在追一個問題：怎么讓模型在訓練分布以外也能做出正確判斷。

RLHF給出了示范答案，Constitutional AI給出了規則篩選，deliberative alignment要求模型推理更仔細。MSM則給出了另一個答案：在示范之前，先教模型理解示范的意義。

傳統訓練像是讓新員工照著案例庫回答客戶咨詢；MSM則更像是讓新員工先讀完員工手冊，理解每條規矩的精神，然后再去看具體案例。

雖然員工手冊并沒有教員工某個具體動作，但它卻教會了他們在面臨從未遇到的新情況下，遵照什么樣的規范和原則行動。

MSM把對齊訓練從「行為模仿」推進到「規矩理解」。從「背答案」到「學邏輯」，這一步走了多久，現在才剛剛開始實證。

這場爭論真正有意思的地方還是它背后的那個問題：

我們以為AI在對齊，它真的就對齊了嗎？還是只是在訓練數據見過的場景里，它知道該背哪個答案？

參考資料：

https://x.com/AnthropicAI/status/2051758530051358747

https://alignment.anthropic.com/2026/msm/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

領先于Transformer！首個1200萬上下文模型SubQ，成本僅Opus的5%

機器之心Pro 2026-05-06 17:06:11
0 跟貼 0
DeepSeek版Claude Code登頂熱榜：8700星，鯨魚哥火了

機器之心Pro 2026-05-06 14:09:00
3 跟貼 3

AI自己造AI，概率60%，2028年底前！Anthropic聯創坐不住了

新智元 2026-05-05 20:07:09
9 跟貼 9

Claude Code之父紅杉演講震撼全場! 26年未寫1行代碼, 電腦都不開了

新智元 2026-05-06 17:15:48
0 跟貼 0
香蕉和GPT Image之外的第3條路：華人15人團隊造出AI生圖黑馬

量子位 2026-05-06 17:25:32
0 跟貼 0

豆包為什么選擇了 “最low”的變現方式？

藍鯨新聞 2026-05-06 11:20:09
65 跟貼 65

TRAE SOLO移動端上線，手機也能干活了，隨時隨地Vibe Working

機器之心Pro 2026-05-06 17:02:10
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

蘋果因新Siri虛假宣傳，達成2.5億美元和解：用戶最高可獲647元賠償

智東西 2026-05-06 17:57:23
0 跟貼 0
媒體：中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

國是直通車 2026-05-05 23:12:13
17260 跟貼 17260
阿里開源：用凍結多模態大模型為文生圖訓練提供高質量Reward

機器之心Pro 2026-05-06 16:50:57
0 跟貼 0
領導執迷不悟對實驗走火入魔，結果毀了一座城

影中見影 2026-05-03 00:00:00
0 跟貼 0
公里級場景也能穩住了，國產團隊把長視頻3D重建又往前推了一步

機器之心Pro 2026-05-06 17:18:14
0 跟貼 0
國家杰青被舉報 Nature 子刊論文造假，中山大學回應

生物學霸 2026-05-06 17:19:09
0 跟貼 0
因“莫須有”工作失誤取消評優獎金？

金臺資訊 2026-05-05 09:17:30
0 跟貼 0
中國航天員中心招募志愿者：最高拿7萬元，但不能玩手機

第一財經資訊 2026-05-06 15:42:11
2 跟貼 2
日本挑釁不停，中方重磅文件亮劍，戰敗國身份再成焦點

附允歷史觀 2026-05-05 15:44:47
0 跟貼 0
星辰大海邀你同行！地星三號臥床實驗志愿者招募開啟#中國航天招募地星三號臥床實驗志愿者

每日經濟新聞 2026-05-06 17:30:14
0 跟貼 0
美國的規則遇到校車要等待，偏偏有頭鐵的，下秒就被直接追擊！

逗趣樂園 2026-05-05 09:47:21
1 跟貼 1
美國女子持槍搶店反被男員工忽悠走，一氣之下對著監控就是一槍

Bobo字幕組 2026-05-04 20:23:09
5 跟貼 5
年紀大上綜藝都是老人感，聽不懂規則有時還聽不見規則

熱點一觸即發 2026-05-06 05:15:14
2 跟貼 2
追覓CEO俞浩一天發了117條作品，個人主頁作品變“證件照”

瀟湘晨報 2026-05-06 12:11:09
54 跟貼 54
景區裝電梯無痛爬山被質疑過度開發

極目新聞 2026-05-02 17:18:12
3832 跟貼 3832
這是真正懂籃球的人，教出來的孩子，尤其懂現代籃球規則

逗趣樂園 2026-05-03 09:23:13
1 跟貼 1
抗癌12年，沒復發沒轉移！掏心窩子分享7個生活規則，供大家參考

老白者乎 2026-05-02 05:49:54
0 跟貼 0
為什么我們永遠造不出永動機？熱力學第二定律到底有多讓人絕望？

半解智士 2026-05-06 12:04:31
2 跟貼 2
周星馳發文祝賀吳宜澤奪冠

南方都市報 2026-05-06 07:27:10
1151 跟貼 1151
為什么超市學不了胖東來？答案來了

暫停白晝 2026-05-05 09:38:36
0 跟貼 0
影子調查｜不“標準”的高標準農田，正在整治

澎湃新聞 2026-05-06 12:34:33
252 跟貼 252
凌晨2點半開門，廣東一排骨飯大排長龍！局長帶人現場刮姜洗碗

南方都市報 2026-05-06 08:58:57
255 跟貼 255
特斯拉向國內員工推送“滿血版 FSD v14”，反饋不錯！

新浪財經 2026-05-06 17:30:21
0 跟貼 0
手機丟失7年后，安徽男子突然接到廠家的短信，通過照片和定位，手機失而復得！當事人：里面有珍貴的回憶，會收藏它

極目新聞 2026-05-06 09:31:29
992 跟貼 992
我軍測試某新型反導武器指揮屏全是馬賽克

看看新聞Knews 2026-05-05 21:28:08
11 跟貼 11
女子在球場上眼前發黑暈倒，隊友一個箭步沖來緊急救人

北青網-北京青年報 2026-05-06 06:06:07
100 跟貼 100
20年等一回！這支不華麗的阿森納，卻最接近歐冠大耳杯

澎湃新聞 2026-05-06 10:56:28
1 跟貼 1
性格內向不會阻礙交友和創造價值，創傷才會

壹心理 2026-05-06 17:22:55
11 跟貼 11
張雪機車員工解釋德比斯退賽原因，竟然是為了保護發動機？

老白者乎 2026-05-05 10:25:37
1 跟貼 1
驅逐艦破局：改寫全球海軍規則之謎

霧以淚聚i 2026-05-06 05:51:58
1 跟貼 1
AMD美股盤后漲幅擴大至15%

每日經濟新聞 2026-05-06 06:50:05
369 跟貼 369
世界杯FIFA開出天價版權，電視轉播談判陷僵局

齊魯壹點 2026-05-06 12:45:16
885 跟貼 885

舊電腦一秒變身AI PC！華碩首款USB-C AI加速器上市：售價1400元

舊電腦一秒變身AI PC！華碩首款USB-C AI加速器上市：售價1400元

快科技

2026-05-06 17:57:08

湖人丟G1！斯瑪特、八村壘、里弗斯紛紛攬責，詹姆斯提進攻調整！

湖人丟G1！斯瑪特、八村壘、里弗斯紛紛攬責，詹姆斯提進攻調整！

籃球資訊達人

2026-05-06 14:02:28

新款不知火舞性感手辦推出！前凸后翹難以抵擋！

新款不知火舞性感手辦推出！前凸后翹難以抵擋！

游民星空

2026-05-03 23:45:02

手感冰涼！里夫斯G1命中率18.8%，創湖人隊史35年來最低紀錄

手感冰涼！里夫斯G1命中率18.8%，創湖人隊史35年來最低紀錄

懂球帝

2026-05-06 12:29:26

申花剛踢完本輪與魯能的比賽！斯盧茨基就做出重要決定，引發熱議

申花剛踢完本輪與魯能的比賽！斯盧茨基就做出重要決定，引發熱議

振剛說足球

2026-05-06 10:12:50

熱度持續發酵，“姆巴佩OUT”請愿書的簽署人數已破千萬

熱度持續發酵，“姆巴佩OUT”請愿書的簽署人數已破千萬

懂球帝

2026-05-06 15:08:05

國際原油價格短線跳水美油大跌6%

國際原油價格短線跳水美油大跌6%

財聯社

2026-05-06 16:56:07

特斯拉開放超充：一場遲到的基礎設施變現

特斯拉開放超充：一場遲到的基礎設施變現

Ping值焦慮

2026-05-06 14:49:49

別再被抗戰劇騙了！一名日軍攝影師，拍下真正的“鬼子進村”照片

別再被抗戰劇騙了！一名日軍攝影師，拍下真正的“鬼子進村”照片

歷史甄有趣

2026-05-04 08:10:22

亞馬遜千億富豪惹眾怒，眾多明星拒出席晚宴，現場驚現尿瓶抗議！

亞馬遜千億富豪惹眾怒，眾多明星拒出席晚宴，現場驚現尿瓶抗議！

觀察鑒娛

2026-05-06 09:48:09

陳佳兵接受審查調查

懷化新聞網

2026-05-06 11:14:44

假如中國人口減半，從“14億”減到“7億”，會出現怎樣的結果？

假如中國人口減半，從“14億”減到“7億”，會出現怎樣的結果？

蜉蝣說

2026-05-06 15:24:40

關鍵時刻，伊朗外長親自訪華，背后釋放重磅信號，美擔心情況發生

關鍵時刻，伊朗外長親自訪華，背后釋放重磅信號，美擔心情況發生

軍武咖

2026-05-05 22:05:10

吳宜澤奪冠后，廣東小鎮火出圈，斯諾克冠軍搖籃的含金量還在上升

吳宜澤奪冠后，廣東小鎮火出圈，斯諾克冠軍搖籃的含金量還在上升

洲洲影視娛評

2026-05-05 20:15:23

賴清德返臺24小時內，美高層表態，特朗普急促：再晚就來不及

賴清德返臺24小時內，美高層表態，特朗普急促：再晚就來不及

何轐說

2026-05-06 14:40:09

郭德綱相聲再被舉報，西城文旅回復：建議向北京文旅反映

郭德綱相聲再被舉報，西城文旅回復：建議向北京文旅反映

我就是個碼字的

2026-05-06 12:06:13

鐘漢良19-51歲顏值變化，出道時奶萌，40歲巔峰，花期太長了！

鐘漢良19-51歲顏值變化，出道時奶萌，40歲巔峰，花期太長了！

情感大頭說說

2026-05-06 08:14:38

臺灣當局集體跪諂斯太后，賴清德外交引爆全臺怒火

臺灣當局集體跪諂斯太后，賴清德外交引爆全臺怒火

阿晪美食

2026-05-05 23:34:12

歐盟建議成員國在通信基礎設施中排除華為、中興設備

歐盟建議成員國在通信基礎設施中排除華為、中興設備

cnBeta.COM

2026-05-05 12:47:04

1-0！薩卡立大功，阿森納淘汰馬競，挺進歐冠決賽，目標直指冠軍

1-0！薩卡立大功，阿森納淘汰馬競，挺進歐冠決賽，目標直指冠軍

足球狗說

2026-05-06 04:54:03

AI產業主平臺領航智能+時代

15143文章數 66837關注度

往期回顧全部

科技要聞

“馬斯克不懂AI”：OpenAI當庭戳老底

頭條要聞

中國發布阻斷禁令后魯比奧聲稱將二次制裁外交部回應

頭條要聞

中國發布阻斷禁令后魯比奧聲稱將二次制裁外交部回應

體育要聞

活塞1比0騎士：坎寧安不再是一個人了

娛樂要聞

神仙友誼！楊紫連續10年為張一山慶生

財經要聞

最新GDP！全國30強城市，又變了

汽車要聞

領克10/領克10+ 無論能源形式領克都要快樂

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

藝術

旅游

數碼

時尚

手機要聞

13999元值不值得沖？華為Pura X Max典藏版深度評測：黃金大屏、旗艦影像全面進階闊折疊才是更好用的折疊屏

藝術要聞

震撼！康斯坦丁攝影作品里的性感曲線讓人驚艷！

旅游要聞

貴州仁懷：“溫泉”新業態激起一池“文旅”活水

數碼要聞

核顯本竟敢賣到萬元級別！榮耀MagicBook Pro16 2026全面評測：88W滿血 + 92Wh續航，這可能是史上最強的核顯

今年夏天最時髦的6組搭配，照著穿美出新高度！

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版