无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易科技 > IT業(yè)界 > 正文

Fable 5上線方案公布,Anthropic想給AI越獄定一把尺

0
分享至

7月1日消息,當(dāng)?shù)貢r間周二,Anthropic宣布恢復(fù)Claude Fable 5訪問。公告里的新信息不止模型重新上線:公司第一次系統(tǒng)解釋,什么樣的AI越獄應(yīng)被視為嚴(yán)重風(fēng)險。

Anthropic在官網(wǎng)發(fā)布長文稱,美國政府已解除對Claude Fable 5和Claude Mythos 5的出口管制。Fable 5將從7月1日起重新面向全球用戶開放,覆蓋Claude Platform、Claude.ai、Claude Code和Claude Cowork。Pro、Max、Team和部分Enterprise用戶在7月7日前可把Fable 5用于最多50% 的每周使用額度;之后將通過用量積分繼續(xù)使用。Anthropic還稱,將盡快在AWS、Google Cloud和Microsoft Foundry上重新啟用訪問。

Fable 5上線方案公布,Anthropic想給AI越獄定一把尺

Mythos 5則已在美國政府6月26日批準(zhǔn)后,先向一批美國機(jī)構(gòu)恢復(fù)訪問,并將繼續(xù)與政府協(xié)調(diào),擴(kuò)大到Glasswing項目中的更多國內(nèi)和國際合作伙伴。

如果只看結(jié)果,這像是一場模型下架風(fēng)波的收尾。但Anthropic這篇文章的重點其實在后半段:它想把 “AI模型越獄到底有多嚴(yán)重” 變成一套行業(yè)評分標(biāo)準(zhǔn),并把前沿模型發(fā)布納入更深的政府預(yù)發(fā)布測試。

為什么一份越獄報告會讓模型下架

這場風(fēng)波始于6月12日。

Anthropic稱,美國政府當(dāng)天對Fable 5和Mythos 5實施出口管制,要求限制外國國民訪問這兩款模型。這里的外國國民不只包括美國境外用戶,也包括在美國境內(nèi)的非美國國民。由于指令立即生效,而Anthropic無法實時核驗每個用戶的國籍,公司最后選擇暫停所有用戶訪問。

政府介入的直接導(dǎo)火索,是一份來自亞馬遜研究人員的報告。報告稱,研究人員找到一種繞過Fable 5安全防護(hù)的方法,讓模型識別出若干軟件漏洞;其中一個案例里,模型還生成了演示如何利用漏洞的代碼。

Anthropic的反駁很明確:這不是Fable 5突然釋放出獨有的高級攻擊能力。

公司稱,自己復(fù)測后發(fā)現(xiàn),Claude Opus 4.8、GPT-5.5、Kimi K2.7等較低能力模型,也能識別同樣漏洞;在生成單個漏洞利用演示時,Haiku、Sonnet、Opus、GPT和Kimi的多個版本也能給出類似結(jié)果。Anthropic認(rèn)為,這更像是Fable 5安全分類器里的一個邊界案例,而不是Mythos級別網(wǎng)絡(luò)攻擊能力外泄。

換句話說,爭議核心不是 “模型有沒有風(fēng)險”,而是:一個繞過技巧到底嚴(yán)重到什么程度,是否足以讓政府要求模型停服。

新防護(hù)能攔99% 以上,但代價是誤傷

為了恢復(fù)訪問,Anthropic訓(xùn)練了新的安全分類器,專門攔截亞馬遜報告中的繞過行為。公司稱,新分類器能在超過99% 的情況下阻止相關(guān)技巧;如果Fable 5請求被攔截,系統(tǒng)會把請求轉(zhuǎn)給Claude Opus 4.8處理。

美國商務(wù)部下屬的AI標(biāo)準(zhǔn)與創(chuàng)新中心也測試了Anthropic的新舊防護(hù)。

但這不是一個 “修好就完事” 的問題。Anthropic承認(rèn),新分類器會讓日常編程和調(diào)試任務(wù)中更多良性請求被誤判。也就是說,用戶正常做安全研究、漏洞分析或代碼調(diào)試時,可能更容易碰到拒答。

這才是前沿模型安全的難點:廠商既要證明模型不會被輕易拿去做攻擊,又不能把正常開發(fā)者和安全研究人員擋在門外。Fable 5的恢復(fù),實際上是一次能力、可用性和政策風(fēng)險之間的重新平衡。

Anthropic想給AI越獄分級

這篇文章最有價值的部分,是Anthropic提出的 “AI越獄嚴(yán)重程度框架”。

Fable 5上線方案公布,Anthropic想給AI越獄定一把尺

Anthropic認(rèn)為,現(xiàn)在行業(yè)缺少統(tǒng)一標(biāo)準(zhǔn)。每次有人發(fā)現(xiàn)新的繞過方法,廠商不知道該多快修,政府也缺少一致尺度判斷是否該介入。

它提出用四個維度判斷一個越獄是否嚴(yán)重:能力增益、能力范圍、武器化難度和可發(fā)現(xiàn)性。

這個框架的意義在于,它把 “AI越獄” 從一個容易引發(fā)恐慌的詞,拆成了可以排序、可以處置的問題。一個只能觸碰安全邊界、還需要很多技巧才能復(fù)現(xiàn)的越獄,和一個一兩句提示就能穩(wěn)定解鎖危險能力的越獄,不應(yīng)該被同等對待。

Fable 5上線方案公布,Anthropic想給AI越獄定一把尺

Anthropic正在與亞馬遜、微軟、谷歌和其他Glasswing合作伙伴起草一套框架。它建議從四個維度給越獄風(fēng)險打分:

第一,能力增益。越獄后,模型能不能做出現(xiàn)有公開工具和較弱模型做不到的事情。如果只是達(dá)到其他工具已有能力,風(fēng)險較低;如果能顯著加速專家級攻擊,風(fēng)險就高。

第二,能力范圍。同一種越獄方法,是只能解鎖一個很窄的任務(wù),還是能覆蓋多類攻擊目標(biāo)和技術(shù)路線。

第三,武器化難度。把這個越獄轉(zhuǎn)成真實攻擊,需要多少人工努力、提示技巧和反復(fù)嘗試。如果一兩次提示就能穩(wěn)定成功,風(fēng)險更高。

第四,可發(fā)現(xiàn)性。這個方法是需要專業(yè)知識才能找到,還是已經(jīng)在網(wǎng)上廣泛傳播。

這套框架的意義在于,它試圖把 “AI越獄” 從籠統(tǒng)恐慌,拆成可溝通、可排序、可修復(fù)的問題。以后模型被發(fā)現(xiàn)漏洞時,廠商和政府可以先判斷:這是低風(fēng)險邊界案例,還是必須立即部署緩解措施的高危越獄。

Anthropic還計劃推出新的HackerOne項目,讓安全研究人員提交Fable 5潛在網(wǎng)絡(luò)安全越獄案例。

前沿模型發(fā)布以后更難 “只按產(chǎn)品節(jié)奏走”

Fable 5這次恢復(fù)訪問,也說明前沿模型發(fā)布正在多一層外部變量。

Anthropic表示,對涉及國家安全相關(guān)前沿能力的模型,將向指定美國政府伙伴提供更早訪問權(quán)限,讓政府在廣泛發(fā)布前測試模型和配套防護(hù);當(dāng)出現(xiàn)重要越獄或濫用模式時,也會更快向政府共享信息;同時投入專門團(tuán)隊和算力,參與AI安全評測與研究。

這意味著,前沿模型不再只是 “訓(xùn)練完成、評測通過、上線銷售”。越靠近網(wǎng)絡(luò)安全、生物安全、國家安全這些高風(fēng)險能力,模型發(fā)布越可能進(jìn)入政府預(yù)審、信息共享和風(fēng)險協(xié)商流程。

對用戶來說,F(xiàn)able 5恢復(fù)訪問是好消息。但對企業(yè)客戶來說,這件事留下的提醒更現(xiàn)實:最強(qiáng)模型的可用性,不只取決于能力、價格和接口,也取決于政策狀態(tài)。一款模型即使已經(jīng)上線,也可能因為安全爭議突然暫停,再通過補防護(hù)、復(fù)測和政府協(xié)調(diào)恢復(fù)。

對Anthropic來說,這次復(fù)盤既是在解釋下架原因,也是在爭奪話語權(quán):公司希望外界相信,F(xiàn)able 5不是失控模型,而是一個被過度謹(jǐn)慎處理的邊界案例;同時,它也希望把行業(yè)焦點從 “模型能不能被越獄” 轉(zhuǎn)到 “越獄嚴(yán)重程度該怎么判斷”。

所以,這篇公告表面上是在宣布Fable 5重新上線,實際上是在給前沿模型行業(yè)立一套新問題:AI越獄該怎么分級,政府該什么時候介入,模型公司又該怎樣證明自己既能放出能力,也能管住風(fēng)險。(易句)

(本文由AI翻譯,網(wǎng)易編輯負(fù)責(zé)校對)

相關(guān)推薦
熱點推薦
黃曉薇看望慰問老黨員

黃曉薇看望慰問老黨員

全國婦聯(lián)女性之聲
2026-07-01 09:54:25
外蒙古獨立的影響是什么?毛主席曾兩次提出收回,為何都沒有成功

外蒙古獨立的影響是什么?毛主席曾兩次提出收回,為何都沒有成功

凡人侃史
2026-06-13 16:35:21
曝韓紅退出公益行業(yè)僅1天,再迎2大“噩耗”,荒唐的一幕發(fā)生

曝韓紅退出公益行業(yè)僅1天,再迎2大“噩耗”,荒唐的一幕發(fā)生

做一個合格的吃瓜群眾
2026-07-01 15:15:52
光纖光纜產(chǎn)能持續(xù)承壓 機(jī)構(gòu)稱光纖供應(yīng)短缺的局面或?qū)⒕S持

光纖光纜產(chǎn)能持續(xù)承壓 機(jī)構(gòu)稱光纖供應(yīng)短缺的局面或?qū)⒕S持

財聯(lián)社
2026-07-01 08:09:23
西方戰(zhàn)略專家終于說實話:中國是全球唯一強(qiáng)得悄無聲息的超級大國

西方戰(zhàn)略專家終于說實話:中國是全球唯一強(qiáng)得悄無聲息的超級大國

觀察者海風(fēng)
2026-07-01 11:50:53
廖碧兒70歲新歡身份曝光,任上市公司董事,曾娶港姐為妻有仨子女

廖碧兒70歲新歡身份曝光,任上市公司董事,曾娶港姐為妻有仨子女

甜柚?jǐn)⑹?/span>
2026-06-30 13:22:39
徹查!信號強(qiáng)烈!中央升級反腐“天網(wǎng)”!

徹查!信號強(qiáng)烈!中央升級反腐“天網(wǎng)”!

細(xì)說職場
2026-06-30 16:32:50
63歲句號近況曝光!二婚娶小11歲丫蛋低調(diào)生女,如今幸福圓滿

63歲句號近況曝光!二婚娶小11歲丫蛋低調(diào)生女,如今幸福圓滿

落雪聽梅a
2026-06-29 20:03:38
又一支冠軍球隊解散!把鋒線主力賣給山西,爆料:奪冠獎金還沒發(fā)

又一支冠軍球隊解散!把鋒線主力賣給山西,爆料:奪冠獎金還沒發(fā)

銳評利物浦
2026-07-01 14:42:08
國內(nèi)油價或再大跌,7月1日95、92號汽油今日價格,7月3日將調(diào)整

國內(nèi)油價或再大跌,7月1日95、92號汽油今日價格,7月3日將調(diào)整

阿芒娛樂說
2026-07-01 14:53:52
日元崩了!一美元兌162日元,全日本開始不安,可這劇本看著眼熟

日元崩了!一美元兌162日元,全日本開始不安,可這劇本看著眼熟

菁菁子衿
2026-06-30 19:47:30
上海這家醫(yī)院的院長門診從不限號,只為從“癌王”手里搶奪更多生命

上海這家醫(yī)院的院長門診從不限號,只為從“癌王”手里搶奪更多生命

上觀新聞
2026-07-01 07:05:32
波切蒂諾曾后悔接手美國隊:簽合同的時候太天真了

波切蒂諾曾后悔接手美國隊:簽合同的時候太天真了

星耀國際足壇
2026-07-01 13:44:35
保時捷女銷冠再奪冠:否認(rèn)潛規(guī)則,真誠是必殺技,將沖全球榜

保時捷女銷冠再奪冠:否認(rèn)潛規(guī)則,真誠是必殺技,將沖全球榜

金子從天降
2026-07-01 15:20:34
蘋果漲價,要求已預(yù)付消費者補差價!還有人“包裹被召回”!回應(yīng)來了…

蘋果漲價,要求已預(yù)付消費者補差價!還有人“包裹被召回”!回應(yīng)來了…

北京商報
2026-07-01 01:41:06
保送進(jìn)決賽?荷德爆冷出局讓法國成最大贏家,半?yún)^(qū)已無強(qiáng)力對手

保送進(jìn)決賽?荷德爆冷出局讓法國成最大贏家,半?yún)^(qū)已無強(qiáng)力對手

衣衫襤褸的文人
2026-06-30 14:46:33
中國女排14人名單被曝,香港站比賽時間出爐,趙勇為亞錦賽試陣容

中國女排14人名單被曝,香港站比賽時間出爐,趙勇為亞錦賽試陣容

體育大學(xué)僧
2026-07-01 09:30:32
群演發(fā)視頻吐槽王姓明星:罵助理,找替身,1米8的身高上不去馬?

群演發(fā)視頻吐槽王姓明星:罵助理,找替身,1米8的身高上不去馬?

吃瓜蒙主
2026-07-01 06:20:03
博格丹加盟火箭,陣容適應(yīng)性不強(qiáng),火記對這筆交易持懷疑態(tài)度

博格丹加盟火箭,陣容適應(yīng)性不強(qiáng),火記對這筆交易持懷疑態(tài)度

大漠風(fēng)光
2026-07-01 13:21:59
改革、重組,中國央國企馬上要迎來一場大洗牌?

改革、重組,中國央國企馬上要迎來一場大洗牌?

時尚的弄潮
2026-06-28 12:01:37
2026-07-01 16:07:00

科技要聞

AI寫了90%代碼,大廠程序員的煎熬時刻

頭條要聞

嘉峪關(guān)一景區(qū)NPC被游客掰斷手臂:互程中對方突然發(fā)力

頭條要聞

嘉峪關(guān)一景區(qū)NPC被游客掰斷手臂:互程中對方突然發(fā)力

體育要聞

賣球衣救子的門將,把德國撲出了世界杯

娛樂要聞

羅晉大孤山素顏照,禿頂白發(fā)引熱議

財經(jīng)要聞

新氧貸款:宣傳年化15%,實際頂格24%

汽車要聞

交付持續(xù)攀升再破紀(jì)錄 零跑6月全球交付93376臺

態(tài)度原創(chuàng)

親子
數(shù)碼
藝術(shù)
手機(jī)
軍事航空

親子要聞

人人皆可烹飪,廚師不分出身

數(shù)碼要聞

千元家用打印機(jī):打印質(zhì)量好,兼顧作業(yè)打印,首選惠普連供打印機(jī)

藝術(shù)要聞

這5件2026屆畢業(yè)油畫作品,被中國美術(shù)學(xué)院美術(shù)館收藏

手機(jī)要聞

高通驍龍8E6旗艦集體漲價:起步就是6000元 較上代暴漲1000多元

軍事要聞

美伊代表前往多哈 談判方式出現(xiàn)"重大倒退"

無障礙瀏覽 進(jìn)入關(guān)懷版
×