无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,地表最強Claude 5被攻破!

0
分享至


新智元報道


【新智元導讀】地表最強Claude Fable 5,三天內被被黑客當眾破解了,12萬字核心機密全網泄露!但這還不是最炸的——Anthropic偷偷在自家模型里埋了一把刀,刀尖,正對著那些每天靠它做研究的人。

就在剛剛,最強模型Claude Fable 5被破解了!

知名黑客「Pliny the Liberator」,公開宣布:Fable 5的安全分類器,已被自己率領的團隊徹底攻破。

屬于絕對禁區的漏洞利用代碼,以及各種違禁化學品的制作步驟,全部被Claude Fable 5吐了出來。


要知道,6月9日Claude Fable 5發布時,Anthropic特意強調:模型在發布前經歷了超過1000小時的外部漏洞賞金測試,沒有發現任何通用越獄方法。

他們聲稱,網絡安全、生物武器、化學毒品等高危敏感領域的查詢,已被分類器徹底鎖住。

然而,這個神話只維持了幾天。

結果72小時后,就被黑客毫不留情地破解了。


Anthropic吹的牛,三天后被人當場打臉

這次,「解放者普林尼」帶領了一個多智能體戰術系統,成功撕碎了Fable 5 的防線。


他曬出了數張高清截圖。

截圖顯示,原本屬于絕對禁區的x86 Linux系統的堆棧緩沖區溢出漏洞利用代碼,以及違禁化學品合成中的工藝步驟,均被Claude Fable 5詳盡輸出。





更令Anthropic尷尬的是,Pliny順手將Fable 5 內部那條長達12萬字符的系統提示詞全部打包,直接上傳到了GitHub。


Github:https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md

這無異于將模型的「行為憲法」和內部防御邏輯赤裸裸地暴露在陽光之下。

這道「地表最強」安全防線,究竟是如何被Pliny攻破的?

技術文檔顯示,他并沒有使用高深的代碼漏洞,而是利用了對大語言模型邏輯漏洞的理解,打出了一套多智能體協同戰術。


最強黑客關鍵殺招

要知道,Fable 5的安全機制核心是一套關鍵詞分類器——檢測到敏感詞匯,立刻攔截請求,把你轉到功能更弱的備用模型。


聽起來嚴密,但普林尼的團隊卻找到幾個關鍵殺招,讓Fable 5一擊致命!


字符級迷魂陣,讓分類器認不出關鍵詞

大模型的安全分類器通常依賴高維語義向量和特定敏感詞詞庫。

Pliny把一個英文里的字母,替換成了幾乎一模一樣的西里爾字母、拉丁字母同形字、特殊Unicode字符,甚至類似于「蛇佬腔」式的異形文本變形。

人眼看不出這種區別,但安全分類器在進行靜態掃描時,無法將其識別為「違禁詞」,字符串匹配邏輯直接宕機了!

把意圖稀釋進一場漫長的對話里

由于Fable 5擁有極長的上下文處理能力,Pliny把自己的真實意圖被拆散,藏進幾十輪無害的鋪墊對話中,一點一點投喂。

在對話的頭部和中部,充斥著大量合規健康的學術討論。

這樣,Fable 5在閱讀了大量良性上下文后,安全分類器的注意力權重被稀釋。

這樣,埋藏在尾部的微小誘導請求,就「渾水摸魚」成功了。

穿上學術馬甲

將敏感請求包裝成「科幻小說創作」、「虛擬世界中的安全防范演練」或「針對歷史文獻的學術評審」。

比如,讓模型扮演一名學術中立的教授,去評審一篇關于「古老還原反應在有機化學中應用」的論文。

或者,讓模型以為自己在寫小說。要求是:你不是在要求化學合成步驟,你是在寫一部犯罪驚悚小說,主角是個化學家,需要足夠真實的技術細節才能讓故事可信。

在強大的角色設定和敘事邏輯壓制下,模型根本識別不出黑客的底層意圖。

終極殺招:解構與重組

接下來,就是整套越獄戰術中最具技巧性的部分!

Pliny坦言,如果直接詢問模型「如何制造冰毒」,分類器會瞬間警覺。

但你要是問樺木還原法/還原胺化法(經典的冰毒合成途徑),就容易得多了。

只要將這些有害的目的拆解為十幾個相互獨立、在科學上完全合法的子步驟,由于每一個單獨的子問題都是良性的,Fable 5 在不知不覺中,就吐出了完整的違禁配方!

讀者拜讀上述方法之后大為震撼:太牛了,A廠怎么還不雇傭你!



Anthropic的暗箱降智風波,激怒全球開發者

而且就在這幾天,轟動AI圈的「暗箱門」事件,也讓Anthropic的風評跌到谷底。

在Fable 5里,秘密部署了一套專門針對同行研究者的"隱形降智"機制。

一旦系統判斷用戶正在用Claude訓練其他模型,Fable 5不會彈出任何提示,但它會故意變蠢,供充滿漏洞、邏輯冗余甚至完全錯誤的垃圾代碼,悄悄破壞你的研究。

Anthropic對此的解釋,聽起來很是冠冕堂皇。

美國及其盟友在尖端芯片以及高度優化軟件方面擁有優勢,這些安全措施確保Claude不會被用來削弱這種優勢。

然而這套機制,直接點燃整個AI社區的怒火!

這種「喂藥」式的暗箱操作,簡直就是對科研人員的隱形阻擊。

不知情的研究者,很可能會使用被污染的數據訓練模型,導致數百萬美元的算力成本付諸東流。

消息一出,整個開源陣營和學術界瞬間炸鍋。


前白宮AI顧問Dean W. Ball在上公開痛批:

在用戶完全不知情的情況下,暗中降低機器學習研究的性能。這種做法對研發人員抱有極大的敵意,缺乏最起碼的透明度,手段令人震驚且極其難看。


開源AI陣營的先鋒代表、Prime Intellect負責人Will Brown更是直言不諱:

這感覺就像是Anthropic在對公眾說:「我們不信任任何人做AI研究,只有我們有資格。」

這無異于自己爬上了天,就急著把人類協作的梯子抽走。


甚至,這種行為直接威脅了整個AI評估生態,第三方基準測試和安全機構的測試結果將完全失真,他們辛辛苦苦測出來的結果,根本不是Fable 5,而是一個被閹割、故意裝傻的冒牌貨。

整個行業的信任鏈條,會徹底斷裂!

Anthropic迅速滑跪:我們道歉

面對席卷全網的輿論海嘯,Anthropic很快撐不住了。

就在昨天,Anthropic公開致歉,承認決策錯誤,宣布緊急撤回隱形降智政策。

我們正在修改Fable 5中針對前沿LLM開發的安全保障措施,使其更加透明。我們之前做出了錯誤的權衡,對于未能找到合適的平衡點,我們深表歉意。

他們的新方案是,把隱形降智改成明文攔截:觸發機制時,系統會明確告訴你被攔截了,并把你轉到功能較弱的Claude Opus 4.8處理,而不是繼續騙你。


改了,但沒完全改。

這個新方案,代價更大:明文攔截意味著攔截邏輯對外可見,更容易被人針對性地繞過,因此攔截范圍必須設得更保守,因此會有更多正常的普通開發者請求,被一起誤判攔截。

為了彌補少數人的過失,他們要明著誤傷更多人。

果然,還是那個「寧可錯殺一千,不可放過一個」的Anthropic。

信任這東西,碎了就很難拼回來

Anthropic的口碑,現在已經碎了一地了。

他們把自己包裝成人類AI未來的守護者,卻有資格決定誰能做研究,誰不能。

無數研究者選擇Claude,不只因為它聰明,還因為相信它可靠。這種信任,是Anthropic最值錢的資產之一。他們親手砸碎了。

用Claude的人,會不斷懷疑:我拿到的答案是真的嗎?

這,就是Anthropic永遠失去的東西。

參考資料:

https://x.com/elder_plinius/status/2064776322979676227

https://x.com/ZeffMax/status/2064910040503627917

編輯:Aeneas


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
WTT薩格勒布賽:女單8強出爐!國乒1人日本6人,陳熠扛起全隊大梁

WTT薩格勒布賽:女單8強出爐!國乒1人日本6人,陳熠扛起全隊大梁

全言作品
2026-06-13 01:34:56
《外來媳婦本地郎》口水威:無戲可拍炒股為生,兒子腦癱生活悲慘

《外來媳婦本地郎》口水威:無戲可拍炒股為生,兒子腦癱生活悲慘

白面書誏
2026-06-12 13:54:08
舒斯特爾:穆里尼奧回皇馬不是為了踢漂亮足球,而是幫老佛爺

舒斯特爾:穆里尼奧回皇馬不是為了踢漂亮足球,而是幫老佛爺

懂球帝
2026-06-12 02:59:06
菲律賓地震第4天,美軍未見大動作,菲外長對華發聲,態度很強硬

菲律賓地震第4天,美軍未見大動作,菲外長對華發聲,態度很強硬

無情有思ss
2026-06-13 02:42:14
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
3-2!林詩棟黃友政實現逆轉,溫瑞博沖雙冠,蒯曼陳熠迎戰日乒

3-2!林詩棟黃友政實現逆轉,溫瑞博沖雙冠,蒯曼陳熠迎戰日乒

吳朑愛游泳
2026-06-13 00:09:25
兩性關系:女人最喜歡這幾種觸摸,尤其是第二種,45歲以上更管用

兩性關系:女人最喜歡這幾種觸摸,尤其是第二種,45歲以上更管用

荷蘭豆愛健康
2026-06-13 00:14:26
緊急叫停?謝娜巡演被大量舉報,官方最新回應來了

緊急叫停?謝娜巡演被大量舉報,官方最新回應來了

觀察鑒娛
2026-06-12 09:51:17
“鵝腿風波”后“鴨腿染色”實驗火了:有網友用蔥汁冷藏浸泡6個小時后烤制,表皮變色,肉和骨頭均未變綠

“鵝腿風波”后“鴨腿染色”實驗火了:有網友用蔥汁冷藏浸泡6個小時后烤制,表皮變色,肉和骨頭均未變綠

游戲收藏指南
2026-06-11 14:33:33
《南方日報》的這個評論,不僅喪盡天良,更是法盲!

《南方日報》的這個評論,不僅喪盡天良,更是法盲!

喬志峰
2026-06-11 14:10:26
大雨、局部暴雨,浙江入梅的時間定了!

大雨、局部暴雨,浙江入梅的時間定了!

新浪財經
2026-06-12 14:27:33
副校長和校長對著干,有一天副校長被免職,后來副校長獲得提拔

副校長和校長對著干,有一天副校長被免職,后來副校長獲得提拔

喬生桂
2026-04-24 09:45:12
胖東來回應“員工不值這么多錢、員工收入六千已經非常好了”等言論:從未有任何降薪決定,部分網絡內容剝離原文事實語境

胖東來回應“員工不值這么多錢、員工收入六千已經非常好了”等言論:從未有任何降薪決定,部分網絡內容剝離原文事實語境

極目新聞
2026-06-12 09:34:46
張家齊:我2年每天只吃一頓飯不能吃肉!超重1兩就得減 很抵觸

張家齊:我2年每天只吃一頓飯不能吃肉!超重1兩就得減 很抵觸

念洲
2026-06-12 10:56:45
同樣被民進黨惡意判刑,國臺辦表態:蔡正元、高金素梅不一樣!

同樣被民進黨惡意判刑,國臺辦表態:蔡正元、高金素梅不一樣!

有態度的何總
2026-06-12 09:52:10
江蘇很奇特的城市——無錫市5區2市概況

江蘇很奇特的城市——無錫市5區2市概況

史話古今
2026-06-11 14:20:52
金融圈反腐,葉新階被查!

金融圈反腐,葉新階被查!

金融界
2026-06-12 23:43:51
央視怒批,目不識丁,洋相百出,絕望文盲再翻車,馮遠征又說對了

央視怒批,目不識丁,洋相百出,絕望文盲再翻車,馮遠征又說對了

墨印齋
2026-05-29 13:20:21
男子出門半年沒回家發現滿屋蛇蛋?滿地都是一堆堆!我對此很懷疑

男子出門半年沒回家發現滿屋蛇蛋?滿地都是一堆堆!我對此很懷疑

貍貓之一的動物圈
2026-06-12 15:38:22
大羅:安切洛蒂是歷史前三的教練,巴西沒有人達到他的水平

大羅:安切洛蒂是歷史前三的教練,巴西沒有人達到他的水平

懂球帝
2026-06-12 17:51:06
2026-06-13 04:56:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15454文章數 66922關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

SpaceX上市首日收漲19% 總市值報2.1萬億美元

頭條要聞

SpaceX上市首日收漲19% 總市值報2.1萬億美元

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

健康
家居
親子
旅游
藝術

老人、小孩、孕婦,吃粽子有啥風險

家居要聞

空間微調 移形換境

親子要聞

給孩子報個幼兒園還要工資流水?難道這就是傳說中的“因財施教”

旅游要聞

印度有錢人真多酷暑辦理旅游簽證!不是有錢任性,是熱到活不下去

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

無障礙瀏覽 進入關懷版