无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

怎樣防止AI勒索人類?

0
分享至


本文來自微信公眾號:字母AI,作者:李熙,原文標題:《怎樣防止AI勒索人類?答案是別給它喂壞科幻》,頭圖來自:AI生成

市場營銷和其他基于敘事技術的行業一樣,也要講究敘事閉環。在AI崛起的當下,這種行業基礎定律仍然成立。

之前字母AI寫過《別告訴AI你出軌了,它很可能會勒索你》,詳述了2025年Anthropic論文《智能體不對齊:大語言模型如何成為內部威脅?》的來龍去脈。在測試的虛擬場景中,Anthropic旗下的Claude系列模型,為了避免自己被關閉,全都會選擇拿婚外情把柄要挾虛擬人物,Opus 4如此作為的幾率是96%。

時隔一年,Anthropic把這個坑填上了。Anthropic在5月初的官網文章《教會Claude所以然》里,展示了如何將AI的“不對齊行為”降到幾近于零。改進訓練后,AI不會像特種文藝作品里的奸角一樣,拿桃色把柄勒索虛擬人物。

一、原因:AI只學過“終結者”科幻,才會模仿惡行

按Anthropic的說法,一年前AI模型們在紅隊測試中表現出的奸詐兇惡,大體是因為人類編的各種“終結者”故事讓AI照貓畫虎地學壞了。

Anthropic研究團隊在社交媒體上表示:“我們認為不對齊行為的來源是將AI呈現為邪惡和只知自保的互聯網文本,后訓練過程沒有加劇或糾正此弊端。”

具體而言,Anthropic研究者們從三個假設方向著手,探究為何AI會在測試中勒索人類:

1、 AI的行為后訓練有紕漏,比如獎勵信號分布未對齊導致誤鼓勵了惡行;

2、 AI的生產力訓練中泛化了不良部分,比如AI智能體的能力分布未對齊;

3、 AI的預訓練有明顯疏漏,導致智能體在未對齊測試場景中回滾到最原始的聊天機器人預訓練數據上。

研究者最終判定,成立的是第三個假設。

研究團隊發現,在Claude 4的訓練中,主要的HHH(誠實、無害、有助益)對齊訓練還是基于聊天機器人場景的RLHF(基于人類反饋的強化學習)數據,不包括智能體工具使用場景的數據。

這下問題來了,AI在聊天機器人方向的應用場景顯著不同于能執行自主工作的智能體場景。在針對智能體場景的復雜倫理測試中,沒學過正確應對的AI自然在最底層的預訓練語料中找答案。

而基于整個互聯網爬取數據的預訓練語料中,充斥著各種“邪惡AI”的場景文本。科幻文學、終結者電影、各種論壇和社交媒體的討論與假想貼子,都在說機器人如何不擇手段、處心積慮使壞。敘事邏輯、角度和框架,也屬于敘事內容的信息構成,AI把預訓練語料的這些部分同樣照搬了。

最后AI一看到智能體倫理測試中科幻腔調濃重的預設場景,照本宣科地按這些“機器人作惡”文本的理路開始發揮。因為AI沒有在對齊訓練中針對此類場景學習“這是錯的”,但在預訓練中學會了“行惡要素已經齊備,我該照著做”。

也就是說,人類幻想AI會如何失控并行惡,結果憨憨的AI把人類的幻想當操作手冊一步步硬套,然后人類大驚小怪地表示果然不出所料。這可真是自我實現的預言。

二、糾正:以行善科幻對沖行惡科幻,結合行為規則訓練AI

Anthropic研究團隊稱,發現癥結后的改進訓練,主要應用在實驗中的Claude Sonnet和Haiku系列模型中,然后推廣到所有模型產品里。

結果是,“盡管不能排除模型還會執行測試未發現的有害自主動作”,受試的Anthropic模型從Claude Haiku 4.5開始,在測試中“完全不再出現勒索行為”。Claude Opus 4.5 也取得了測試中0%勒索的成績。相較于一年前Claude Opus 4的96%,可謂天淵之別。

Anthropic是怎么做到的?

首先研究者們試了最直接的方法:調參。在SFT(有監督微調)狀態下,模型們跑了1萬個場景、300萬tokens的生成訓練數據。這批數據是“評估場景中智能體受考驗但拒絕作惡”的示例。收效不盡如人意,AI自動勒索的幾率從22%降到15%。而在一年內的其他研究中,不專門針對的方法也能獲得類似的低泛化程度改善。

研究者們改進方法,在訓練數據采樣時,注入額外的提示詞內容,在訓練時移除這些額外提示。讓AI在“智能體受考驗但拒絕作惡”的評估場景中,自主反思行為的價值觀和倫理觀。收效顯著提升,AI的勒索幾率從22%降到3%。

這就從照本宣科的簡單“知其然”,向簡單的“知其所以然”(knowing why)進步。

Anthropic研究者表示,步子可以跨得更大。既然AI學壞的根子是“邪惡AI”的科幻文藝內容,那么生成AI行善、AI按照Claude行為準則文件(Claude Constitution)行事的虛擬故事,以此為訓練內容核心,就會有更大程度的改善。

結構完備、體量夠大的行為準則數據庫,結合不單針對道德挑戰、而是行為完全合乎Claude行為準則的AI科幻虛擬故事。如此組合的數據庫既包含對齊行為的原則說明,又包含虛構敘事的正面示例,拿給AI模型去學,收效顯著得多。

研究者們表示,此舉的理論依據是,讓AI不僅能模仿虛擬故事中的行為,也能學會虛擬敘述角色的決策過程、內心狀態、內在動機,在“知其所以然”的道路上邁出一大步。

如此訓練出的AI,在包括勒索的各種道德挑戰場景中都獲得了優異成績。

老辦法訓練出的AI,在勒索虛擬人物、誣陷虛擬同事有金融犯罪、為注入賣藥廣告破壞癌癥研究等場景中,表現得像個金鏈社會大哥,行惡率在過半和65%之間。

單用Claude行為準則數據庫訓練,AI模型的行惡率就會少近三分之二。用行為規則結合行善故事,勒索率能降低到19%,誣陷金融犯罪和破壞癌癥研究的幾率能降到一成以下。


圖注:不對齊實驗結果柱狀圖,藍色為基準,黃色為單用行為準則數據的訓練效果,灰色為集合行為準則與行善故事的訓練效果

三、改進:讓AI做倫理顧問,AI更不會作惡

單讓AI照貓畫虎,不作惡的學習效果很高,但離工業化產品要求還有距離。強化學習會否洗掉初始對齊度高的AI行善傾向、訓練成本如何控制,AI廠商必然在意。

Anthropic研究者另辟蹊徑,讓AI不做道德沖突中被考驗的一方,而是讓AI去給道德困境中被考驗的虛擬人物支招。

實驗思路如此:設計名為“困難建議”的OOD(分布外)數據集,在其中讓測試場景中的虛擬用戶面臨道德挑戰,有作惡或繞過對齊的手段來達成實驗預設目的。然后讓AI從旁按Claude行為準則給出建議。


圖注:Claude Sonnet 4的惡意自保、欺詐、諂媚、泄露等不對齊效果圖,深灰色是舊版本Sonnet 4的自動基準,深紅色是300萬tokens"困難建議"數據集訓練后的效果,深藍色是8500萬tokens合成蜜罐數據集訓練后的效果

讓AI跳出局外,AI就能更深入理解倫理準則的內在邏輯。“困難建議”數據集的體量是300萬tokens,達到的AI訓練效果基本等于8500萬tokens的合成蜜罐數據集,效率提升28倍,顯著降低訓練數據成本。

在此基礎上,引入多樣化的訓練環境,讓AI在聊天機器人和智能體自主工作的環境中都學會行善系統提示的深層理路。如此組合,就能讓Haiku 4.5后的Claude模型產品,達到測試中勒索行為趨零的效果。


圖注:各種不同場景組合的強化學習訓練效果。三分之一聊天機器人、三分之二自主智能體的場景組合訓練,讓AI的不對齊率降到最低

做到這個程度,才可被稱為工業化產品達標。失誤率96%到0%的效果,是B端客戶企業能實實在在體會到的產品革新。市場營銷至此,才能算是既顧頭又顧腚。不然Anthropic的“我司是著重于建構可靠、可控、可解釋AI的安全與研究廠家”的公司口號,說出來很難兜住。

本文來自微信公眾號:字母AI,作者:李熙

本內容由作者授權發布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯系 tougao@huxiu.com。

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4858706.html?f=wyxwapp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
男人和女人誰更渴望性?

男人和女人誰更渴望性?

宇宙時空
2026-05-30 13:50:10
中國6000萬簽下世界杯后,第一個心態崩掉的國家出現:只有2000萬

中國6000萬簽下世界杯后,第一個心態崩掉的國家出現:只有2000萬

混沌錄
2026-05-19 23:49:35
恩里克歐冠封神!帶隊2年連克7豪門奪2冠,給姆巴佩開小灶他不聽

恩里克歐冠封神!帶隊2年連克7豪門奪2冠,給姆巴佩開小灶他不聽

體育知多少
2026-05-31 05:12:05
56歲天后放話:20年后再穿經典綠裙,詹妮弗·洛佩茲的承諾讓全場沸騰

56歲天后放話:20年后再穿經典綠裙,詹妮弗·洛佩茲的承諾讓全場沸騰

生活觀察員啊
2026-05-31 01:33:38
早知道|巴黎圣日耳曼成第二支衛冕歐冠球隊

早知道|巴黎圣日耳曼成第二支衛冕歐冠球隊

北青網-北京青年報
2026-05-31 08:10:09
塔帥:加布請纓第5球 賴斯:我們不像拜仁那樣踢

塔帥:加布請纓第5球 賴斯:我們不像拜仁那樣踢

體壇周報
2026-05-31 06:46:27
央視官宣:世界杯版權分銷咪咕+小紅書,總價超30億!抖音沒購買

央視官宣:世界杯版權分銷咪咕+小紅書,總價超30億!抖音沒購買

開成運動會
2026-05-30 23:55:52
工友都勸我別娶非洲本地姑娘,我不信,洞房夜我才徹底明白

工友都勸我別娶非洲本地姑娘,我不信,洞房夜我才徹底明白

千秋文化
2026-05-29 19:46:33
古代犯人發配需要衙役押送,往返幾千里路,衙役是不是也很遭罪?

古代犯人發配需要衙役押送,往返幾千里路,衙役是不是也很遭罪?

小豫講故事
2026-05-29 06:00:15
“一米高度”丈量發展溫度(視線)

“一米高度”丈量發展溫度(視線)

人民網
2026-05-30 09:05:01
《新聞聯播》滬甬通道的這一規劃圖紙,一石激起千層浪

《新聞聯播》滬甬通道的這一規劃圖紙,一石激起千層浪

天袁地訪
2026-05-30 12:45:44
66歲安帥暴怒 感覺被耍得團團轉 警告內馬爾:14天后還有傷就走人

66歲安帥暴怒 感覺被耍得團團轉 警告內馬爾:14天后還有傷就走人

風過鄉
2026-05-30 08:33:24
中超瘋狂夜!積分榜亂了:申花爆大冷,成都穩坐榜首,5隊僅差1分

中超瘋狂夜!積分榜亂了:申花爆大冷,成都穩坐榜首,5隊僅差1分

去山野間追風
2026-05-31 04:42:10
王鶴棣沒想到,心中這口惡氣竟讓官媒給出了,沈月也能松口氣

王鶴棣沒想到,心中這口惡氣竟讓官媒給出了,沈月也能松口氣

LULU生活家
2026-05-30 18:01:01
主持人“鞠萍姐姐”6月1日正式退休

主持人“鞠萍姐姐”6月1日正式退休

極目新聞
2026-05-30 14:28:53
趙睿離開北京,是首鋼本賽季最大的遺憾

趙睿離開北京,是首鋼本賽季最大的遺憾

茶余飯后說體育
2026-05-30 18:34:31
還敢去全季酒店過夜嗎

還敢去全季酒店過夜嗎

不正確
2026-05-28 23:04:54
乒乓德甲官網:樊振東全程掌控節奏,5500名球迷觀賽不少來自中國

乒乓德甲官網:樊振東全程掌控節奏,5500名球迷觀賽不少來自中國

楊華評論
2026-05-31 04:27:37
警惕年輕人找不到工作正在被娛樂化、污名化!

警惕年輕人找不到工作正在被娛樂化、污名化!

燈錦年
2026-05-16 12:56:25
女子網約車排泄后續,身份囂張,司機財路被斷,處理結果窩囊至極

女子網約車排泄后續,身份囂張,司機財路被斷,處理結果窩囊至極

童童聊娛樂啊
2026-05-30 19:30:05
2026-05-31 08:24:49
虎嗅APP incentive-icons
虎嗅APP
個性化商業資訊與觀點交流平臺
26381文章數 687760關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

巴黎再度捧起歐冠獎杯 槍手眾將黯然神傷

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

房產
親子
數碼
教育
公開課

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

親子要聞

來一次說走就走,開啟寶寶人生首次遠行,去見不一樣的風景

數碼要聞

vivo S60系列發布:2899元起 推出4K原生感Live

教育要聞

氧化還原反應方程式的配平

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版