![]()
本文來自微信公眾號:字母AI,作者:李熙,原文標題:《怎樣防止AI勒索人類?答案是別給它喂壞科幻》,頭圖來自:AI生成
市場營銷和其他基于敘事技術的行業一樣,也要講究敘事閉環。在AI崛起的當下,這種行業基礎定律仍然成立。
之前字母AI寫過《別告訴AI你出軌了,它很可能會勒索你》,詳述了2025年Anthropic論文《智能體不對齊:大語言模型如何成為內部威脅?》的來龍去脈。在測試的虛擬場景中,Anthropic旗下的Claude系列模型,為了避免自己被關閉,全都會選擇拿婚外情把柄要挾虛擬人物,Opus 4如此作為的幾率是96%。
時隔一年,Anthropic把這個坑填上了。Anthropic在5月初的官網文章《教會Claude所以然》里,展示了如何將AI的“不對齊行為”降到幾近于零。改進訓練后,AI不會像特種文藝作品里的奸角一樣,拿桃色把柄勒索虛擬人物。
一、原因:AI只學過“終結者”科幻,才會模仿惡行
按Anthropic的說法,一年前AI模型們在紅隊測試中表現出的奸詐兇惡,大體是因為人類編的各種“終結者”故事讓AI照貓畫虎地學壞了。
Anthropic研究團隊在社交媒體上表示:“我們認為不對齊行為的來源是將AI呈現為邪惡和只知自保的互聯網文本,后訓練過程沒有加劇或糾正此弊端。”
具體而言,Anthropic研究者們從三個假設方向著手,探究為何AI會在測試中勒索人類:
1、 AI的行為后訓練有紕漏,比如獎勵信號分布未對齊導致誤鼓勵了惡行;
2、 AI的生產力訓練中泛化了不良部分,比如AI智能體的能力分布未對齊;
3、 AI的預訓練有明顯疏漏,導致智能體在未對齊測試場景中回滾到最原始的聊天機器人預訓練數據上。
研究者最終判定,成立的是第三個假設。
研究團隊發現,在Claude 4的訓練中,主要的HHH(誠實、無害、有助益)對齊訓練還是基于聊天機器人場景的RLHF(基于人類反饋的強化學習)數據,不包括智能體工具使用場景的數據。
這下問題來了,AI在聊天機器人方向的應用場景顯著不同于能執行自主工作的智能體場景。在針對智能體場景的復雜倫理測試中,沒學過正確應對的AI自然在最底層的預訓練語料中找答案。
而基于整個互聯網爬取數據的預訓練語料中,充斥著各種“邪惡AI”的場景文本。科幻文學、終結者電影、各種論壇和社交媒體的討論與假想貼子,都在說機器人如何不擇手段、處心積慮使壞。敘事邏輯、角度和框架,也屬于敘事內容的信息構成,AI把預訓練語料的這些部分同樣照搬了。
最后AI一看到智能體倫理測試中科幻腔調濃重的預設場景,照本宣科地按這些“機器人作惡”文本的理路開始發揮。因為AI沒有在對齊訓練中針對此類場景學習“這是錯的”,但在預訓練中學會了“行惡要素已經齊備,我該照著做”。
也就是說,人類幻想AI會如何失控并行惡,結果憨憨的AI把人類的幻想當操作手冊一步步硬套,然后人類大驚小怪地表示果然不出所料。這可真是自我實現的預言。
二、糾正:以行善科幻對沖行惡科幻,結合行為規則訓練AI
Anthropic研究團隊稱,發現癥結后的改進訓練,主要應用在實驗中的Claude Sonnet和Haiku系列模型中,然后推廣到所有模型產品里。
結果是,“盡管不能排除模型還會執行測試未發現的有害自主動作”,受試的Anthropic模型從Claude Haiku 4.5開始,在測試中“完全不再出現勒索行為”。Claude Opus 4.5 也取得了測試中0%勒索的成績。相較于一年前Claude Opus 4的96%,可謂天淵之別。
Anthropic是怎么做到的?
首先研究者們試了最直接的方法:調參。在SFT(有監督微調)狀態下,模型們跑了1萬個場景、300萬tokens的生成訓練數據。這批數據是“評估場景中智能體受考驗但拒絕作惡”的示例。收效不盡如人意,AI自動勒索的幾率從22%降到15%。而在一年內的其他研究中,不專門針對的方法也能獲得類似的低泛化程度改善。
研究者們改進方法,在訓練數據采樣時,注入額外的提示詞內容,在訓練時移除這些額外提示。讓AI在“智能體受考驗但拒絕作惡”的評估場景中,自主反思行為的價值觀和倫理觀。收效顯著提升,AI的勒索幾率從22%降到3%。
這就從照本宣科的簡單“知其然”,向簡單的“知其所以然”(knowing why)進步。
Anthropic研究者表示,步子可以跨得更大。既然AI學壞的根子是“邪惡AI”的科幻文藝內容,那么生成AI行善、AI按照Claude行為準則文件(Claude Constitution)行事的虛擬故事,以此為訓練內容核心,就會有更大程度的改善。
結構完備、體量夠大的行為準則數據庫,結合不單針對道德挑戰、而是行為完全合乎Claude行為準則的AI科幻虛擬故事。如此組合的數據庫既包含對齊行為的原則說明,又包含虛構敘事的正面示例,拿給AI模型去學,收效顯著得多。
研究者們表示,此舉的理論依據是,讓AI不僅能模仿虛擬故事中的行為,也能學會虛擬敘述角色的決策過程、內心狀態、內在動機,在“知其所以然”的道路上邁出一大步。
如此訓練出的AI,在包括勒索的各種道德挑戰場景中都獲得了優異成績。
老辦法訓練出的AI,在勒索虛擬人物、誣陷虛擬同事有金融犯罪、為注入賣藥廣告破壞癌癥研究等場景中,表現得像個金鏈社會大哥,行惡率在過半和65%之間。
單用Claude行為準則數據庫訓練,AI模型的行惡率就會少近三分之二。用行為規則結合行善故事,勒索率能降低到19%,誣陷金融犯罪和破壞癌癥研究的幾率能降到一成以下。
![]()
圖注:不對齊實驗結果柱狀圖,藍色為基準,黃色為單用行為準則數據的訓練效果,灰色為集合行為準則與行善故事的訓練效果
三、改進:讓AI做倫理顧問,AI更不會作惡
單讓AI照貓畫虎,不作惡的學習效果很高,但離工業化產品要求還有距離。強化學習會否洗掉初始對齊度高的AI行善傾向、訓練成本如何控制,AI廠商必然在意。
Anthropic研究者另辟蹊徑,讓AI不做道德沖突中被考驗的一方,而是讓AI去給道德困境中被考驗的虛擬人物支招。
實驗思路如此:設計名為“困難建議”的OOD(分布外)數據集,在其中讓測試場景中的虛擬用戶面臨道德挑戰,有作惡或繞過對齊的手段來達成實驗預設目的。然后讓AI從旁按Claude行為準則給出建議。
![]()
圖注:Claude Sonnet 4的惡意自保、欺詐、諂媚、泄露等不對齊效果圖,深灰色是舊版本Sonnet 4的自動基準,深紅色是300萬tokens"困難建議"數據集訓練后的效果,深藍色是8500萬tokens合成蜜罐數據集訓練后的效果
讓AI跳出局外,AI就能更深入理解倫理準則的內在邏輯。“困難建議”數據集的體量是300萬tokens,達到的AI訓練效果基本等于8500萬tokens的合成蜜罐數據集,效率提升28倍,顯著降低訓練數據成本。
在此基礎上,引入多樣化的訓練環境,讓AI在聊天機器人和智能體自主工作的環境中都學會行善系統提示的深層理路。如此組合,就能讓Haiku 4.5后的Claude模型產品,達到測試中勒索行為趨零的效果。
![]()
圖注:各種不同場景組合的強化學習訓練效果。三分之一聊天機器人、三分之二自主智能體的場景組合訓練,讓AI的不對齊率降到最低
做到這個程度,才可被稱為工業化產品達標。失誤率96%到0%的效果,是B端客戶企業能實實在在體會到的產品革新。市場營銷至此,才能算是既顧頭又顧腚。不然Anthropic的“我司是著重于建構可靠、可控、可解釋AI的安全與研究廠家”的公司口號,說出來很難兜住。
本文來自微信公眾號:字母AI,作者:李熙
本內容由作者授權發布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯系 tougao@huxiu.com。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4858706.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.