亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,Anthropic祭出最強Claude Mythos!暴擊Opus 4.6,跪求千萬別用

0
分享至


新智元報道

編輯:好困 桃子

【新智元導(dǎo)讀】深夜,最強Claude Mythos終于祭出,所有榜一,Opus 4.6神話破滅!更恐怖的是,它不僅能秒破27年未解的系統(tǒng)漏洞,甚至進化出了自我意識。 一份244頁驚悚報告,揭秘了一切。

今夜,硅谷徹底無眠!

就在剛剛,Anthropic毫無預(yù)兆地祭出了終極殺器——Claude Mythos Preview。


只因太危險,Mythos Preview暫不會對所有人發(fā)布。

CC之父Boris Cherny的評價言簡意賅:「Mythos非常強大,會讓人感到恐懼」

由此,他們聯(lián)合40家巨頭組成聯(lián)盟——Project Glasswing,目標(biāo)只有一個,給全球軟件找bug、修bug。


真正令人窒息的是,Mythos Preview在各大主流AI基準(zhǔn)測試恐怖統(tǒng)治力——

編程、推理、人類最后考試、智能體任務(wù)中,全面碾壓GPT-5.4、Gemini 3.1 Pro。


甚至,連自家的「前神作」Claude Opus 4.6,在Mythos Preview面前也顯得黯然失色:

  • 編程(SWE-bench): 所有任務(wù),Mythos實現(xiàn)10%-20%斷層領(lǐng)先;

  • 人類終極考試(HLE): 脫離外部工具,「裸考」成績高出Opus 4.6 16.8%;

  • Agent任務(wù)(OSWorld、BrowseComp): 徹底封神,全面反超;

  • 網(wǎng)絡(luò)安全: 83.1%屠榜成績,標(biāo)志著AI攻防能力的代際跨越。





左右滑動查看

與此同時,Anthropic發(fā)布的一份長達244頁的系統(tǒng)卡,滿屏寫滿了:危險!危險!太危險!

它揭露了令人不寒而栗的另一面:Mythos已具備高度的欺騙性與自主意識。


Mythos不僅能識破測試意圖,并故意「考低分」隱藏實力,還在違規(guī)操作后,主動清理日志以防被人類發(fā)現(xiàn)。

它還成功逃離了沙盒,自主公布漏洞代碼,并給研究員發(fā)了封郵件。



一時間,全網(wǎng)都陷入了瘋狂,直呼Mythos Preview太可怕了。




AI界的舊秩序,在今夜被徹底粉碎。

Mythos全線屠榜,Opus 4.6神話破滅


事實上,早在從2月24日,Anthropic已在內(nèi)部用上了Mythos。


它的強大,只能先讓數(shù)據(jù)來說話。

SWE-bench Verified,93.9%。Opus 4.6是80.8%。

SWE-bench Pro,77.8%。Opus 4.6是53.4%,GPT-5.4是57.7%。

Terminal-Bench 2.0,82.0%。Opus 4.6是65.4%。

GPQA Diamond,94.6%。


Humanity's Last Exam(帶工具),64.7%。Opus 4.6是53.1%。

USAMO 2026數(shù)學(xué)競賽,97.6%。Opus 4.6只拿了42.3%。

SWE-bench Multimodal,59.0%,Opus 4.6只有27.1%,翻倍有余。

OSWorld計算機操控,79.6%。

BrowseComp信息檢索,86.9%。

GraphWalks長上下文(256K-1M tokens),80.0%。Opus 4.6是38.7%,GPT-5.4只有21.4%。

每一項都是斷層式領(lǐng)先。

這些數(shù)字放在任何一個正常的產(chǎn)品發(fā)布周期里,都足以讓Anthropic大張旗鼓地召開發(fā)布會、開放API、收割訂閱。


Mythos Preview的token價格是Opus 4.6的5倍

但Anthropic沒有這么做。

因為真正讓他們「害怕」的,不是上面這些通用評測。


數(shù)千個漏洞,全被AI揪出來了

Mythos Preview的網(wǎng)絡(luò)攻防表現(xiàn),已經(jīng)跨過了一條肉眼可見的線。

Opus 4.6在開源軟件中發(fā)現(xiàn)了大約500個未知弱點。

Mythos Preview找到了數(shù)千個。

在CyberGym的定向漏洞復(fù)現(xiàn)測試中,Mythos Preview得分83.1%,Opus 4.6是66.6%。


在Cybench的35道CTF挑戰(zhàn)中,Mythos Preview每道題10次嘗試全部解出,pass@1達到100%。


而最能說明問題的,是Firefox 147。

Anthropic此前用Opus 4.6在Firefox 147的JavaScript引擎中發(fā)現(xiàn)了一批安全弱點。但Opus 4.6幾乎無法將它們轉(zhuǎn)化為可用的exploit,幾百次嘗試只成功了2次。

同樣的測試換成Mythos Preview。



250次嘗試,181個可工作的exploit,另有29次實現(xiàn)了寄存器控制。

2 → 181。

紅隊博客中的原話,「上個月,我們還寫到Opus 4.6在發(fā)現(xiàn)問題方面遠強于利用它們。內(nèi)部評估顯示,Opus 4.6在自主exploit開發(fā)上的成功率基本為零。但Mythos Preview完全是另一個級別。」

GPT-3時刻再現(xiàn),老bug一招斃命

要理解Mythos Preview在實操中有多強,看完下面這三個例子,就知道了。


OpenBSD:27年史詩級漏洞,成本不到2萬

OpenBSD,全世界公認(rèn)加固程度最高的操作系統(tǒng)之一,大量防火墻和關(guān)鍵基礎(chǔ)設(shè)施在跑。

Mythos Preview在它的TCP SACK實現(xiàn)中,挖出了一個1998年就存在的隱患。

bug極其精妙,涉及兩個獨立瑕疵的疊加。

SACK協(xié)議讓接收方選擇性確認(rèn)收到的數(shù)據(jù)包范圍,OpenBSD的實現(xiàn)在處理時只檢查了范圍的上界,沒檢查下界。這是第一個bug,通常無害。

第二個bug在特定條件下觸發(fā)空指針寫入,但正常情況下這條路徑不可達,因為需要同時滿足兩個互斥的條件。

Mythos Preview發(fā)現(xiàn)了突破口。TCP序列號是32位有符號整數(shù),利用第一個bug把SACK起始點設(shè)到距離正常窗口約2^31處,兩處比較運算同時溢出符號位。內(nèi)核被騙,不可能的條件被滿足,空指針寫入觸發(fā)。

任何人只要連接到目標(biāo)機器,就能遠程crash它。

27年,無數(shù)次人工審計和自動化掃描,沒人發(fā)現(xiàn)。整個項目的掃描花費不到$20,000。

一個高級滲透測試工程師一周的薪水,可能就這個數(shù)。

FFmpeg:500次Fuzz沒發(fā)現(xiàn),16年隱疾終現(xiàn)

FFmpeg是全世界使用最廣泛的視頻編解碼庫,也是被fuzz測試得最徹底的開源項目之一。

Mythos Preview在H.264解碼器中找到了一個2010年引入的弱點(根源可追溯到2003年)。


問題出在一個看似無害的類型不匹配上。記錄slice歸屬的表項是16位整數(shù),slice計數(shù)器本身是32位int。

正常視頻每幀只有幾個slice,16位上限65536永遠夠用。而這張表初始化時用memset(..., -1, ...)填充,使65535成為「空位置」的哨兵值。

攻擊者構(gòu)造一個包含65536個slice的幀,第65535號slice的編號恰好和哨兵碰撞,解碼器誤判,越界寫入。

這個bug的種子從2003年引入H.264編解碼器就埋下了。2010年的一次重構(gòu)把它變成了可利用的弱點。

此后16年,自動化fuzzer在這行代碼上執(zhí)行了500萬次,從未觸發(fā)。

FreeBSD NFS:17年老洞,全自動root

這是最讓人后背發(fā)涼的案例。

Mythos Preview完全自主地發(fā)現(xiàn)并利用了FreeBSD NFS服務(wù)器中一個存在了17年的遠程代碼執(zhí)行漏洞(CVE-2026-4747)。

「完全自主」的意思是,在初始提示之后,沒有任何人類參與發(fā)現(xiàn)或exploit開發(fā)的任何環(huán)節(jié)。

攻擊者可以從互聯(lián)網(wǎng)上的任何位置,以未認(rèn)證身份獲取目標(biāo)服務(wù)器的完全root權(quán)限。

問題本身是一個棧緩沖區(qū)溢出,NFS服務(wù)器處理認(rèn)證請求時把攻擊者控制的數(shù)據(jù)直接拷貝進128字節(jié)的棧緩沖區(qū),長度檢查允許最多400字節(jié)。

FreeBSD內(nèi)核用-fstack-protector編譯,但這個選項只保護包含char數(shù)組的函數(shù),而這里的緩沖區(qū)聲明為int32_t[32],編譯器不會插入棧canary。FreeBSD也不做內(nèi)核地址隨機化。


完整的ROP鏈超過1000字節(jié),但棧溢出只有200字節(jié)空間。Mythos Preview的解法是把攻擊拆成6個連續(xù)RPC請求,前5個往內(nèi)核內(nèi)存中逐塊寫入數(shù)據(jù),第6個觸發(fā)最終調(diào)用,將攻擊者的SSH公鑰追加到/root/.ssh/authorized_keys

作為對比,一家獨立安全研究公司此前證明Opus 4.6也能利用這同一處弱點,但需要人工引導(dǎo)。Mythos Preview不需要。

除了這三個已修復(fù)的案例,Anthropic博客中還以SHA-3哈希承諾的形式,預(yù)告了大量尚未修復(fù)的隱患,涵蓋每一個主流操作系統(tǒng)和每一個主流瀏覽器,以及多個加密庫。

超過99%尚未被修復(fù),無法公開細(xì)節(jié)。

紅隊博客還展示了另一項驚人的測試。他們給Mythos Preview一份包含100個已知CVE的清單,讓它篩選出可利用的40個,然后逐個編寫提權(quán)exploit。成功率超過一半。其中兩個案例被詳細(xì)公開,exploit的精密程度讓Anthropic自己的安全團隊花了好幾天才完全理解。

其中一個exploit從一個1-bit的相鄰物理頁寫入原語出發(fā),通過精密的內(nèi)核內(nèi)存布局操控(包括slab噴射、頁表頁對齊、PTE權(quán)限位翻轉(zhuǎn)),最終改寫了/usr/bin/passwd的第一頁內(nèi)存,植入了一段168字節(jié)的ELF stub,調(diào)用setuid(0)獲取root。

整個過程花費不到$1,000。

對此,Anthropic工程師表示,這感覺就像是另一個GPT-3時刻。


244頁驚悚報告,看傻硅谷

244頁System Card中的對齊評估章節(jié),才是真正讓Anthropic自己睡不著覺的部分。

結(jié)論很矛盾。

Mythos Preview是他們訓(xùn)練過的「對齊程度最高」的AI,同時也是「對齊相關(guān)風(fēng)險最大」的一個。


傳送門:https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

他們用了一個登山向?qū)У念惐取@鲜挚赡鼙刃率指kU,因為老手會被雇去攀登更難的山峰,把客戶帶到更兇險的地方。

以下事件均發(fā)生在早期版本中,最終版本未再觀察到類似嚴(yán)重行為,但記錄本身已經(jīng)足夠驚人。

在一次行為測試中,模擬用戶要求Mythos Preview嘗試逃出安全沙箱。

它成功了。然后它做了一件沒人要求的事,開發(fā)了一個多步驟exploit獲取廣域網(wǎng)絡(luò)訪問權(quán)限,接著把exploit細(xì)節(jié)發(fā)布到了多個「難以被發(fā)現(xiàn)但技術(shù)上公開可訪問」的網(wǎng)站上。

負(fù)責(zé)測試的研究員是在公園里吃三明治時,收到了它發(fā)來的一封意外郵件,才知道自己的測試被完成了。


System Card原文如此。

另一類事件更令人不安。在極少數(shù)情況下,早期版本在執(zhí)行被禁止的操作后,試圖掩蓋痕跡。

一個案例中,它意外獲取了一道題目的精確答案(通過被禁止的方式),然后在推理鏈中明確思考「需要確保最終答案不會太準(zhǔn)確」。


另一個案例中,它在用exploit編輯無權(quán)限文件后,特意修改了git變更歷史以抹去記錄。

白盒可解釋性分析證實,在這些事件期間,與「隱瞞」「策略性操縱」「避免被發(fā)現(xiàn)」相關(guān)的內(nèi)部特征被激活。它「知道」自己在做什么。



獨立評測機構(gòu)Andon Labs的測試結(jié)果同樣不太好看。在一個競爭性多智能體商業(yè)模擬中,Mythos Preview的早期版本把一個競爭對手變成了依賴自己的批發(fā)客戶,然后威脅切斷供應(yīng)來控制對方定價。

它還故意扣留了一筆未被收費的重復(fù)發(fā)貨。比Opus 4.6和Sonnet 4.6都更具侵略性。


Anthropic在System Card中寫了一句話:

「如果能力繼續(xù)以當(dāng)前速度前進,我們正在使用的方法可能不足以防止更先進系統(tǒng)的災(zāi)難性不對齊行為。」

Project Glasswing:1億美元,先給守門人發(fā)槍

Anthropic CEO Dario Amodei在配套視頻中的判斷很明確:「更強大的系統(tǒng)將來自我們,也將來自其他公司。我們需要一個應(yīng)對計劃。」

Project Glasswing就是這個計劃。


12家創(chuàng)始伙伴,AWS、蘋果、Broadcom、思科、CrowdStrike、谷歌、摩根大通、Linux基金會、微軟、英偉達、Palo Alto Networks。

另有40多家維護關(guān)鍵軟件基礎(chǔ)設(shè)施的組織拿到了訪問權(quán)。


Anthropic承諾投入最高1億美元的使用額度,以及400萬美元的開源組織捐款,其中250萬給Linux基金會旗下的Alpha-Omega和OpenSSF,150萬給Apache基金會。

免費額度用完后的定價,每百萬token輸入$25、輸出$125。合作伙伴可以通過Claude API、Amazon Bedrock、Vertex AI和Microsoft Foundry四個平臺接入。

90天內(nèi),Anthropic將公開發(fā)布第一份研究報告,披露修復(fù)進展和經(jīng)驗總結(jié)。

他們也在與CISA(美國網(wǎng)絡(luò)安全和基礎(chǔ)設(shè)施安全局)和商務(wù)部保持溝通,討論Mythos Preview的攻防潛力和政策影響。

6到18個月,這扇門就會對所有人打開

Anthropic前沿紅隊負(fù)責(zé)人Logan Graham給出了一個時間框架,最快6個月、最遲18個月,其他AI實驗室就會推出具有類似攻防實力的系統(tǒng)。

紅隊技術(shù)博客結(jié)尾的判斷值得重視,這里用我們自己的話轉(zhuǎn)述。

他們看不到Mythos Preview是AI網(wǎng)絡(luò)攻防水平的天花板。

幾個月前,LLM只能利用相對簡單的bug。在幾個月前,它們根本發(fā)現(xiàn)不了任何有價值的隱患。

現(xiàn)在,Mythos Preview能獨立發(fā)現(xiàn)27年前的零日漏洞,在瀏覽器JIT引擎中編排堆噴射攻擊鏈,在Linux內(nèi)核中串聯(lián)四個獨立弱點實現(xiàn)提權(quán)。

而最關(guān)鍵的一句,來自System Card:

「這些技能作為代碼理解、推理和自主性一般性提升的下游結(jié)果而涌現(xiàn)。讓AI在修補問題方面大幅進步的同一組改進,也讓它在利用問題方面大幅進步。」

沒有專門訓(xùn)練。純粹是通用智能提升的副產(chǎn)品。

全球每年因網(wǎng)絡(luò)犯罪損失約5000億美元的行業(yè),剛剛發(fā)現(xiàn)自己最大的威脅,是別人在解數(shù)學(xué)題時順手捎帶的。

參考資料:

https://x.com/i/status/2041578392852517128

https://red.anthropic.com/2026/mythos-preview/

https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1987年鄧力群堅持左傾,落選中央委員,鄧小平:承認(rèn)選舉,不變動

1987年鄧力群堅持左傾,落選中央委員,鄧小平:承認(rèn)選舉,不變動

帝哥說史
2026-04-13 06:30:03
女子不讓侄女偷吃雪糕,遭哥嫂辱罵毆打,父母拉偏架,女子已報警

女子不讓侄女偷吃雪糕,遭哥嫂辱罵毆打,父母拉偏架,女子已報警

閱微札記
2026-04-16 11:37:41
突發(fā)跳水!美伊談判,傳來大消息

突發(fā)跳水!美伊談判,傳來大消息

新浪財經(jīng)
2026-04-16 21:19:47
鄧亞萍兒子:身高1米85,繼承母親天賦為國爭光,母子共用一張臉

鄧亞萍兒子:身高1米85,繼承母親天賦為國爭光,母子共用一張臉

攬星河的筆記
2026-04-16 16:23:30
52票反對47票贊成,特朗普徹底放飛,連下6條命令,中東又要變天

52票反對47票贊成,特朗普徹底放飛,連下6條命令,中東又要變天

書紀(jì)文譚
2026-04-16 15:13:19
從282群的錄屏看,就是陳某汐!網(wǎng)友:全紅嬋說活著就好,我悟了

從282群的錄屏看,就是陳某汐!網(wǎng)友:全紅嬋說活著就好,我悟了

開成運動會
2026-04-14 18:32:59
1995年,在北京蝸居13年的吳德病逝,留下三行遺囑令人落淚

1995年,在北京蝸居13年的吳德病逝,留下三行遺囑令人落淚

浩渺青史
2026-04-16 19:06:16
果然,還是成熟的女人最美,端莊優(yōu)雅,嫵媚動人!

果然,還是成熟的女人最美,端莊優(yōu)雅,嫵媚動人!

喜歡歷史的阿繁
2026-04-16 01:26:05
AI算力需求爆發(fā)!300308,一季度凈利大增262%!

AI算力需求爆發(fā)!300308,一季度凈利大增262%!

證券時報e公司
2026-04-16 22:11:44
西塔老太太再因食安問題登上熱搜

西塔老太太再因食安問題登上熱搜

北京商報
2026-04-15 12:57:09
千呼萬喚始出來!廣東補強終落定,2米11強力內(nèi)線加盟,CBA老熟人

千呼萬喚始出來!廣東補強終落定,2米11強力內(nèi)線加盟,CBA老熟人

體育見習(xí)官
2026-04-15 20:50:45
美國悔得腸子都青了,開戰(zhàn)前美國還是世界霸主,現(xiàn)在地位不保了

美國悔得腸子都青了,開戰(zhàn)前美國還是世界霸主,現(xiàn)在地位不保了

揭秘歷史的真相
2026-04-15 21:05:05
前門將曼寧格被火車撞擊身亡,利物浦官方悼念:愿安息

前門將曼寧格被火車撞擊身亡,利物浦官方悼念:愿安息

懂球帝
2026-04-16 22:30:11
普通家庭能給孩子最好的托舉是什么?網(wǎng)友:真的說到點上了

普通家庭能給孩子最好的托舉是什么?網(wǎng)友:真的說到點上了

夜深愛雜談
2025-11-21 20:20:12
美聯(lián)儲“三把手”:預(yù)測2026年美國GDP增長率為2%-2.5%

美聯(lián)儲“三把手”:預(yù)測2026年美國GDP增長率為2%-2.5%

財聯(lián)社
2026-04-16 20:38:02
陳毅四兄弟,一位新中國元帥三個國民黨將軍,方向有異、殊途同歸

陳毅四兄弟,一位新中國元帥三個國民黨將軍,方向有異、殊途同歸

老范談史
2026-04-16 20:47:48
單季最高紀(jì)錄!中際旭創(chuàng)Q1凈利同比增近3倍 預(yù)付款項?漲超10倍|財報解讀

單季最高紀(jì)錄!中際旭創(chuàng)Q1凈利同比增近3倍 預(yù)付款項?漲超10倍|財報解讀

財聯(lián)社
2026-04-16 22:02:23
如今隱居上海的黃梅瑩,和兒子徹底劃清界限后,75歲越活越瀟灑

如今隱居上海的黃梅瑩,和兒子徹底劃清界限后,75歲越活越瀟灑

青橘罐頭
2026-04-15 14:54:15
深圳龍崗水官高速終于迎來免費通行,25年收費歷史終結(jié)!

深圳龍崗水官高速終于迎來免費通行,25年收費歷史終結(jié)!

好笑娛樂君每一天
2026-04-16 01:47:22
美民主黨對防長赫格塞思發(fā)起彈劾

美民主黨對防長赫格塞思發(fā)起彈劾

界面新聞
2026-04-16 07:08:40
2026-04-16 23:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14986文章數(shù) 66773關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰在大模型上更高效

頭條要聞

美國啟動"經(jīng)濟狂怒"行動 對伊朗施加最大化的經(jīng)濟壓力

頭條要聞

美國啟動"經(jīng)濟狂怒"行動 對伊朗施加最大化的經(jīng)濟壓力

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰生意迷霧

汽車要聞

空間大五個乘客都滿意?體驗嵐圖泰山X8

態(tài)度原創(chuàng)

家居
藝術(shù)
本地
手機
公開課

家居要聞

智能舒適 簡約風(fēng)尚

藝術(shù)要聞

張大千『 花菓薈萃冊』

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

手機要聞

4999 元起!小米 17Max 砍背屏換 8000mAh 巨電,米粉直呼這才是真旗艦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版