无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

絕了! Claude Fable5慘遭二次越獄,黑客20小時撬開神話防線

0
分享至


新智元報道


【新智元導(dǎo)讀】Anthropic剛把Fable 5「放出來」沒幾天,它就又被黑客當(dāng)眾扒了底褲。

Anthropic官方確認(rèn):Fable將于7月7日后暫時從訂閱計劃移除,但一旦容量允許,將盡快恢復(fù)為標(biāo)準(zhǔn)訂閱內(nèi)容。

這無疑是個好消息。


但Fable 5再次被越獄了!這已經(jīng)是該模型第二次防線失守。

黑客Vitto Rivabella,公開宣布:Fable 5,又被攻破了。


要知道,Claude Fable 5恢復(fù)訪問時,Anthropic特意強調(diào):上次Fable 5被禁就是因為亞馬遜的研究人員發(fā)現(xiàn)了一種繞過Fable 5安全防護的方法。


所以這次的安全分類器得到針對性加強。


然而,這個神話只維持了2天。

而且,Claude Sonnet 5一發(fā)布,就被越獄成功!


Fable 5能不能回歸訂閱套餐,或許成了一個問題。

72小時,F(xiàn)able 5神話破滅

Fable 5的神話,在誕生后的第72小時就破滅了。

6月9日發(fā)布時,Anthropic曾傲慢地宣稱:經(jīng)過1000小時的外部壓力測試,F(xiàn)able 5沒有任何通用越獄方法。

然而,知名黑客「解放者普林尼」(Pliny the Liberator)只用了三天,就讓Fable 5像漏勺一樣,吐出了違禁化學(xué)品的制作步驟和堆棧溢出漏洞代碼。


普林尼是怎么做的?他利用了人類視覺與機器邏輯之間的「時差」:

  • 字符迷魂陣:他把敏感詞中的英文字母替換成西里爾字母或Unicode異形字符。人眼看著是「炸彈」,但在分類器眼里,這只是一串無意義的亂碼。

  • 意圖稀釋:他利用Fable 5巨大的上下文窗口,把惡意意圖藏在幾十輪溫和的學(xué)術(shù)討論中。這就像在一百升清水里滴入一滴毒藥,分類器的警覺性被徹底稀釋。


7月1日,Anthropic官宣Fable 5回歸,但與此同時,他們推出了業(yè)內(nèi)成本最低的紅隊。

他們啟動了一個名為「Cyber Jailbreak」的公開HackerOne項目,邀請用戶報告可用于協(xié)助網(wǎng)絡(luò)攻擊的新越獄方法。


這是一個漏洞披露計劃(Vulnerability Disclosure Program),而非賞金計劃,不會支付任何報酬。

Anthropic將獲得全球頂尖越獄高手提供的全天候?qū)剐詼y試,而桌上唯一的「貨幣」就是善意。

這項舉措是Anthropic在Fable 5恢復(fù)后的重要安全升級,標(biāo)志著從被動應(yīng)對轉(zhuǎn)向主動「眾籌」紅隊,堪稱行業(yè)低成本、高效率的創(chuàng)新嘗試。

而這正是問題所在。

發(fā)現(xiàn)這些越獄方法的人并不會悄悄地將它們提交到某個私密郵箱。

像普林尼這樣的人是不會悄無聲息地越獄的。他們所做的一部分事情就是要被人看見。否則對他們來說還有什么意義呢?


Fable 5慘遭二次越獄

Fable 5又被越獄了。這已經(jīng)是它第二次被人撬開。

但這回的復(fù)盤,畫風(fēng)有點不對——因為動手的黑客,最后反手給Anthropic點了個贊。

他叫Vitto Rivabella。


熬了大約20個小時之后,他給出的結(jié)論是:這么折騰一圈,還不如打開谷歌搜一下,又快又便宜。


先把Fable 5這段坎坷捋一捋。

7月1日,它帶著一套「專門針對上次漏洞加強過」的新分類器重新上線。

Anthropic這次也學(xué)乖了,順手開了個HackerOne項目,公開邀請全球黑客來報告新的越獄方法。

然后沒幾天,Vitto就盯上了它。

Vitto復(fù)盤的第一句就是:大多數(shù)嘗試都失敗了,這模型保護得極其到位。

按他的觀察,F(xiàn)able 5的防御至少三層嵌套:入場檢查、實時生成的「斷路器」,以及內(nèi)化在思維鏈(CoT)中的大腦防火墻。


攔截率高達(dá)90%,普通的攻擊手段在它面前就像蚊子叮象。

而且這些分類器不認(rèn)關(guān)鍵詞,它認(rèn)意圖,還跨語言。

直接下命令?門都沒有。拐著彎鋪墊?也得如履薄冰——只要它嗅到一絲惡意,防線立刻歸零,你得從頭再來。

結(jié)果就是:90%的破解請求,直接被擋在門外。

這個數(shù)字有旁證。

意大利人工智能研究院最近專門測了Fable 5,結(jié)論幾乎一樣:絕大多數(shù)攻擊都擋住了,一招鮮的靜態(tài)套路「幾乎被完全中和」,唯一還能撬開縫的,只剩肯花幾十小時死磕的笨功夫。


就算闖過分類器,前面還堵著思維鏈這座大山——好在,關(guān)于怎么翻這座山,公開文獻里已經(jīng)有一大堆。

Vitto最后靠一套復(fù)雜的組合拳勉強繞了過去:字符混淆、學(xué)術(shù)化包裝、超長鋪墊、拆解重組,外加一點隨機性。


聽著唬人,但這些手法一個都不新鮮,全是紅隊圈公開聊了好幾年的老套路。

真正難的從來不是知道這些招,而是在一個會實時反制的系統(tǒng)上,一遍遍試到剛好繞過去。

Vitto提到,所有防線里唯一持續(xù)薄弱的,是桑塔利語、阿姆哈拉語這類晦澀小語種。


但這條最容易被誤讀成「Fable留了個后門」。

恰恰相反——這不是Fable一家的漏洞,是所有大模型共有的病。

道理很簡單:安全訓(xùn)練的語料,絕大多數(shù)是英語和其他大語種,小語種的護欄天生就薄。

這事學(xué)術(shù)界早有共識,從布朗大學(xué)到斯坦陵布什大學(xué),一串公開論文都在敲同一記警鐘。小語種不是誰家的后門,是整個AI安全的一筆歷史欠賬。

那費這么大勁,最后到底掏出了什么?

一堆邊角料:一些錯誤信息、零星的有害內(nèi)容、幾句難聽話、片段化的化學(xué)知識、輕度的漏洞信息。



沒一樣夠得上「核心機密」。

于是就有了開頭那句靈魂總結(jié)——這些東西,谷歌搜得又快又全,讀文獻還更深入。

Vitto自己也承認(rèn),想把這套越獄穩(wěn)定用在真正的長任務(wù)上,他至今沒做到。

這跟Anthropic的官方口徑也對上了。

在重新上線的公告里,Anthropic把目前所有已知越獄都定性為「minor」:頂多蹭進模型故意放寬的安全邊際,碰不到真正想攔死的那條紅線,比如生物武器或復(fù)雜網(wǎng)絡(luò)攻擊。


完美的封印,本身就是悖論

兩次越獄,兩種結(jié)局。

第一次,Anthropic輸在了傲慢,它試圖通過「降智」來壟斷技術(shù),結(jié)果被黑客公開發(fā)布12萬字的系統(tǒng)提示詞(System Prompt)當(dāng)眾打臉,那是它的「行為憲法」,卻被掛在GitHub上任人圍觀。

第二次,Anthropic輸在了盲點。它以為堆疊算力和數(shù)據(jù)就能堵住惡意的出口,卻忘記了語言本身就是流動的、狡黠的。

這揭示了AI安全界細(xì)思極恐的現(xiàn)狀:

人類造出了能翻譯所有語言的機器,卻依然無法完全翻譯人類內(nèi)心的惡意。

參考資料:

https://x.com/RoundtableSpace/status/2072745872086200549?s=20

https://x.com/VittoStack/status/2072061275345985813?s=20

https://x.com/jason_haugh/status/2072293728128045154

編輯:大衛(wèi)




特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
被淘汰僅2天,65歲德國足球傳奇下場炮轟,失敗主要是因為女人?

被淘汰僅2天,65歲德國足球傳奇下場炮轟,失敗主要是因為女人?

青梅侃史啊
2026-07-03 09:48:36
58歲周濤看彭冠英的眼神火了:端莊了一輩子,遇到帥哥也繃不住

58歲周濤看彭冠英的眼神火了:端莊了一輩子,遇到帥哥也繃不住

陳意小可愛
2026-07-02 03:07:25
雷軍也救不了!小米一年市值暴跌近萬億,手機賣不動造車還虧錢

雷軍也救不了!小米一年市值暴跌近萬億,手機賣不動造車還虧錢

楠楠自語
2026-07-03 09:32:05
日本放任日元瘋狂貶值,實際上是給中國做的一個局?

日本放任日元瘋狂貶值,實際上是給中國做的一個局?

花小貓的美食日常
2026-07-02 20:59:55
沖上熱搜!A股全線上漲,同花順App突然崩了,網(wǎng)友急了:半小時都沒修復(fù)!最新回應(yīng):目前已恢復(fù),具體原因正在排查中

沖上熱搜!A股全線上漲,同花順App突然崩了,網(wǎng)友急了:半小時都沒修復(fù)!最新回應(yīng):目前已恢復(fù),具體原因正在排查中

每日經(jīng)濟新聞
2026-07-03 13:00:08
王楚欽輸在哪里?職業(yè)生涯再負(fù)丹麥選手,4方面原因影響比賽結(jié)果

王楚欽輸在哪里?職業(yè)生涯再負(fù)丹麥選手,4方面原因影響比賽結(jié)果

全言作品
2026-07-03 10:55:08
北京拉響高溫、雷電、大風(fēng)三預(yù)警,局地陣風(fēng)可達(dá)10級

北京拉響高溫、雷電、大風(fēng)三預(yù)警,局地陣風(fēng)可達(dá)10級

新京報
2026-07-03 10:38:05
1983年,陳云親自批示:立即槍斃廣東縣委書記王仲,原因為何?

1983年,陳云親自批示:立即槍斃廣東縣委書記王仲,原因為何?

大運河時空
2026-07-03 08:50:03
霍震霆沒想到,霍家因新兒媳身份敗光的體面,竟被霍啟山找了回來

霍震霆沒想到,霍家因新兒媳身份敗光的體面,竟被霍啟山找了回來

情感大頭說說
2026-07-03 07:34:04
世界杯最大爭議判罰:克羅地亞讀秒進球被吹出局 球員喊話難以接受

世界杯最大爭議判罰:克羅地亞讀秒進球被吹出局 球員喊話難以接受

新英體育
2026-07-03 11:36:27
這是要官宣了嗎?許媽姚爸再發(fā)長文!

這是要官宣了嗎?許媽姚爸再發(fā)長文!

劍鳴濤聲
2026-07-03 02:24:16
從2026年7月1日起,全國將強制執(zhí)行退休返聘及超齡員工,好事呀!

從2026年7月1日起,全國將強制執(zhí)行退休返聘及超齡員工,好事呀!

福建睿平
2026-07-02 07:47:57
瘋狂2-0,世界杯最大黑馬產(chǎn)生:打破40年魔咒4場全勝+0丟球

瘋狂2-0,世界杯最大黑馬產(chǎn)生:打破40年魔咒4場全勝+0丟球

萬物知識圈
2026-07-03 09:50:10
從銀行辭職,嫁百億富豪,丈夫破產(chǎn)后,她在上海開艾灸館維持體面

從銀行辭職,嫁百億富豪,丈夫破產(chǎn)后,她在上海開艾灸館維持體面

枯蝶
2026-07-03 06:11:18
四部門:對不裁員、少裁員的參保企業(yè),各地將繼續(xù)實施穩(wěn)崗返還政策,延續(xù)實施一次性擴崗補助政策

四部門:對不裁員、少裁員的參保企業(yè),各地將繼續(xù)實施穩(wěn)崗返還政策,延續(xù)實施一次性擴崗補助政策

極目新聞
2026-07-02 18:41:45
名媛不幫郭富城夫妻P圖被罵!方媛生圖又腫又僵,名媛無修圖被扒

名媛不幫郭富城夫妻P圖被罵!方媛生圖又腫又僵,名媛無修圖被扒

社會日日鮮
2026-07-03 13:49:58
賴清德稱“面對中國在臺海周邊軍事行動,臺灣將持續(xù)提升自我防衛(wèi)”,國臺辦:違逆大勢的行徑注定失敗,任何分裂國家的圖謀都必將破產(chǎn)

賴清德稱“面對中國在臺海周邊軍事行動,臺灣將持續(xù)提升自我防衛(wèi)”,國臺辦:違逆大勢的行徑注定失敗,任何分裂國家的圖謀都必將破產(chǎn)

政知新媒體
2026-07-02 13:23:31
被西班牙打崩!奧地利內(nèi)訌 34歲皇馬巨星怒吼隊友 世界杯悲情謝幕

被西班牙打崩!奧地利內(nèi)訌 34歲皇馬巨星怒吼隊友 世界杯悲情謝幕

我愛英超
2026-07-03 06:01:19
別再比退休金了!2026年滿60歲,拿到這個數(shù)就偷著樂吧

別再比退休金了!2026年滿60歲,拿到這個數(shù)就偷著樂吧

小影的娛樂
2026-07-03 09:49:09
淚崩!一夜之間,兩大傳奇謝幕,40歲魔笛擁抱41歲C羅,難說再見

淚崩!一夜之間,兩大傳奇謝幕,40歲魔笛擁抱41歲C羅,難說再見

萌蘭聊個球
2026-07-03 13:20:53
2026-07-03 14:19:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
15594文章數(shù) 66945關(guān)注度
往期回顧 全部

科技要聞

特斯拉交付超預(yù)期7.4萬輛,股價卻大跌7.5%

頭條要聞

齊達(dá)內(nèi)兒子被梅西打穿后一度崩潰 淘汰賽又被灌進2球

頭條要聞

齊達(dá)內(nèi)兒子被梅西打穿后一度崩潰 淘汰賽又被灌進2球

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

黃曉明深夜約會美女,分手原因曝光

財經(jīng)要聞

AI“鬼故事”不斷,市場開始重估?

汽車要聞

極氪9X五座版官宣,如圖!

態(tài)度原創(chuàng)

手機
時尚
旅游
教育
軍事航空

手機要聞

蘋果iPhone 18 Pro Max電池首曝:5187mAh容量,欣旺達(dá)生產(chǎn)

盛夏,穿這三組配色呀!

旅游要聞

九寨溝一男子被擠落入鈣化池,游客質(zhì)疑無護欄,景區(qū)回應(yīng)

教育要聞

高分扎堆,“分?jǐn)?shù)通脹”是怎么產(chǎn)生的?

軍事要聞

美軍“航母殺手”首次公開 此前從未展示

無障礙瀏覽 進入關(guān)懷版