![]()
新智元報道
![]()
【新智元導(dǎo)讀】Anthropic剛把Fable 5「放出來」沒幾天,它就又被黑客當(dāng)眾扒了底褲。
Anthropic官方確認(rèn):Fable將于7月7日后暫時從訂閱計劃移除,但一旦容量允許,將盡快恢復(fù)為標(biāo)準(zhǔn)訂閱內(nèi)容。
這無疑是個好消息。
![]()
但Fable 5再次被越獄了!這已經(jīng)是該模型第二次防線失守。
黑客Vitto Rivabella,公開宣布:Fable 5,又被攻破了。
![]()
要知道,Claude Fable 5恢復(fù)訪問時,Anthropic特意強調(diào):上次Fable 5被禁就是因為亞馬遜的研究人員發(fā)現(xiàn)了一種繞過Fable 5安全防護的方法。
![]()
所以這次的安全分類器得到針對性加強。
![]()
然而,這個神話只維持了2天。
而且,Claude Sonnet 5一發(fā)布,就被越獄成功!
![]()
Fable 5能不能回歸訂閱套餐,或許成了一個問題。
72小時,F(xiàn)able 5神話破滅
Fable 5的神話,在誕生后的第72小時就破滅了。
6月9日發(fā)布時,Anthropic曾傲慢地宣稱:經(jīng)過1000小時的外部壓力測試,F(xiàn)able 5沒有任何通用越獄方法。
然而,知名黑客「解放者普林尼」(Pliny the Liberator)只用了三天,就讓Fable 5像漏勺一樣,吐出了違禁化學(xué)品的制作步驟和堆棧溢出漏洞代碼。
![]()
普林尼是怎么做的?他利用了人類視覺與機器邏輯之間的「時差」:
字符迷魂陣:他把敏感詞中的英文字母替換成西里爾字母或Unicode異形字符。人眼看著是「炸彈」,但在分類器眼里,這只是一串無意義的亂碼。
意圖稀釋:他利用Fable 5巨大的上下文窗口,把惡意意圖藏在幾十輪溫和的學(xué)術(shù)討論中。這就像在一百升清水里滴入一滴毒藥,分類器的警覺性被徹底稀釋。
![]()
7月1日,Anthropic官宣Fable 5回歸,但與此同時,他們推出了業(yè)內(nèi)成本最低的紅隊。
他們啟動了一個名為「Cyber Jailbreak」的公開HackerOne項目,邀請用戶報告可用于協(xié)助網(wǎng)絡(luò)攻擊的新越獄方法。
![]()
這是一個漏洞披露計劃(Vulnerability Disclosure Program),而非賞金計劃,不會支付任何報酬。
Anthropic將獲得全球頂尖越獄高手提供的全天候?qū)剐詼y試,而桌上唯一的「貨幣」就是善意。
這項舉措是Anthropic在Fable 5恢復(fù)后的重要安全升級,標(biāo)志著從被動應(yīng)對轉(zhuǎn)向主動「眾籌」紅隊,堪稱行業(yè)低成本、高效率的創(chuàng)新嘗試。
而這正是問題所在。
發(fā)現(xiàn)這些越獄方法的人并不會悄悄地將它們提交到某個私密郵箱。
像普林尼這樣的人是不會悄無聲息地越獄的。他們所做的一部分事情就是要被人看見。否則對他們來說還有什么意義呢?
![]()
Fable 5慘遭二次越獄
Fable 5又被越獄了。這已經(jīng)是它第二次被人撬開。
但這回的復(fù)盤,畫風(fēng)有點不對——因為動手的黑客,最后反手給Anthropic點了個贊。
他叫Vitto Rivabella。
![]()
熬了大約20個小時之后,他給出的結(jié)論是:這么折騰一圈,還不如打開谷歌搜一下,又快又便宜。
![]()
先把Fable 5這段坎坷捋一捋。
7月1日,它帶著一套「專門針對上次漏洞加強過」的新分類器重新上線。
Anthropic這次也學(xué)乖了,順手開了個HackerOne項目,公開邀請全球黑客來報告新的越獄方法。
然后沒幾天,Vitto就盯上了它。
Vitto復(fù)盤的第一句就是:大多數(shù)嘗試都失敗了,這模型保護得極其到位。
按他的觀察,F(xiàn)able 5的防御至少三層嵌套:入場檢查、實時生成的「斷路器」,以及內(nèi)化在思維鏈(CoT)中的大腦防火墻。
![]()
攔截率高達(dá)90%,普通的攻擊手段在它面前就像蚊子叮象。
而且這些分類器不認(rèn)關(guān)鍵詞,它認(rèn)意圖,還跨語言。
直接下命令?門都沒有。拐著彎鋪墊?也得如履薄冰——只要它嗅到一絲惡意,防線立刻歸零,你得從頭再來。
結(jié)果就是:90%的破解請求,直接被擋在門外。
這個數(shù)字有旁證。
意大利人工智能研究院最近專門測了Fable 5,結(jié)論幾乎一樣:絕大多數(shù)攻擊都擋住了,一招鮮的靜態(tài)套路「幾乎被完全中和」,唯一還能撬開縫的,只剩肯花幾十小時死磕的笨功夫。
![]()
就算闖過分類器,前面還堵著思維鏈這座大山——好在,關(guān)于怎么翻這座山,公開文獻里已經(jīng)有一大堆。
Vitto最后靠一套復(fù)雜的組合拳勉強繞了過去:字符混淆、學(xué)術(shù)化包裝、超長鋪墊、拆解重組,外加一點隨機性。
![]()
聽著唬人,但這些手法一個都不新鮮,全是紅隊圈公開聊了好幾年的老套路。
真正難的從來不是知道這些招,而是在一個會實時反制的系統(tǒng)上,一遍遍試到剛好繞過去。
Vitto提到,所有防線里唯一持續(xù)薄弱的,是桑塔利語、阿姆哈拉語這類晦澀小語種。
![]()
但這條最容易被誤讀成「Fable留了個后門」。
恰恰相反——這不是Fable一家的漏洞,是所有大模型共有的病。
道理很簡單:安全訓(xùn)練的語料,絕大多數(shù)是英語和其他大語種,小語種的護欄天生就薄。
這事學(xué)術(shù)界早有共識,從布朗大學(xué)到斯坦陵布什大學(xué),一串公開論文都在敲同一記警鐘。小語種不是誰家的后門,是整個AI安全的一筆歷史欠賬。
那費這么大勁,最后到底掏出了什么?
一堆邊角料:一些錯誤信息、零星的有害內(nèi)容、幾句難聽話、片段化的化學(xué)知識、輕度的漏洞信息。
![]()
![]()
沒一樣夠得上「核心機密」。
于是就有了開頭那句靈魂總結(jié)——這些東西,谷歌搜得又快又全,讀文獻還更深入。
Vitto自己也承認(rèn),想把這套越獄穩(wěn)定用在真正的長任務(wù)上,他至今沒做到。
這跟Anthropic的官方口徑也對上了。
在重新上線的公告里,Anthropic把目前所有已知越獄都定性為「minor」:頂多蹭進模型故意放寬的安全邊際,碰不到真正想攔死的那條紅線,比如生物武器或復(fù)雜網(wǎng)絡(luò)攻擊。
![]()
完美的封印,本身就是悖論
兩次越獄,兩種結(jié)局。
第一次,Anthropic輸在了傲慢,它試圖通過「降智」來壟斷技術(shù),結(jié)果被黑客公開發(fā)布12萬字的系統(tǒng)提示詞(System Prompt)當(dāng)眾打臉,那是它的「行為憲法」,卻被掛在GitHub上任人圍觀。
第二次,Anthropic輸在了盲點。它以為堆疊算力和數(shù)據(jù)就能堵住惡意的出口,卻忘記了語言本身就是流動的、狡黠的。
這揭示了AI安全界細(xì)思極恐的現(xiàn)狀:
人類造出了能翻譯所有語言的機器,卻依然無法完全翻譯人類內(nèi)心的惡意。
參考資料:
https://x.com/RoundtableSpace/status/2072745872086200549?s=20
https://x.com/VittoStack/status/2072061275345985813?s=20
https://x.com/jason_haugh/status/2072293728128045154
編輯:大衛(wèi)
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.