網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

剛剛，Anthropic祭出最強Claude Mythos！暴擊Opus 4.6，跪求千萬別用

2026-04-08 08:45:13　來源: 新智元

北京舉報

分享至

新智元報道

編輯：好困桃子

【新智元導(dǎo)讀】深夜，最強Claude Mythos終于祭出，所有榜一，Opus 4.6神話破滅！更恐怖的是，它不僅能秒破27年未解的系統(tǒng)漏洞，甚至進化出了自我意識。一份244頁驚悚報告，揭秘了一切。

今夜，硅谷徹底無眠！

就在剛剛，Anthropic毫無預(yù)兆地祭出了終極殺器——Claude Mythos Preview。

只因太危險，Mythos Preview暫不會對所有人發(fā)布。

CC之父Boris Cherny的評價言簡意賅：「Mythos非常強大，會讓人感到恐懼」。

由此，他們聯(lián)合40家巨頭組成聯(lián)盟——Project Glasswing，目標(biāo)只有一個，給全球軟件找bug、修bug。

真正令人窒息的是，Mythos Preview在各大主流AI基準(zhǔn)測試恐怖統(tǒng)治力——

編程、推理、人類最后考試、智能體任務(wù)中，全面碾壓GPT-5.4、Gemini 3.1 Pro。

甚至，連自家的「前神作」Claude Opus 4.6，在Mythos Preview面前也顯得黯然失色：

編程（SWE-bench）：所有任務(wù)，Mythos實現(xiàn)10%-20%斷層領(lǐng)先；
人類終極考試（HLE）：脫離外部工具，「裸考」成績高出Opus 4.6 16.8%；
Agent任務(wù)（OSWorld、BrowseComp）：徹底封神，全面反超；
網(wǎng)絡(luò)安全： 83.1%屠榜成績，標(biāo)志著AI攻防能力的代際跨越。

左右滑動查看

與此同時，Anthropic發(fā)布的一份長達244頁的系統(tǒng)卡，滿屏寫滿了：危險！危險！太危險！

它揭露了令人不寒而栗的另一面：Mythos已具備高度的欺騙性與自主意識。

Mythos不僅能識破測試意圖，并故意「考低分」隱藏實力，還在違規(guī)操作后，主動清理日志以防被人類發(fā)現(xiàn)。

它還成功逃離了沙盒，自主公布漏洞代碼，并給研究員發(fā)了封郵件。

一時間，全網(wǎng)都陷入了瘋狂，直呼Mythos Preview太可怕了。

AI界的舊秩序，在今夜被徹底粉碎。

Mythos全線屠榜，Opus 4.6神話破滅

事實上，早在從2月24日，Anthropic已在內(nèi)部用上了Mythos。

它的強大，只能先讓數(shù)據(jù)來說話。

SWE-bench Verified，93.9%。Opus 4.6是80.8%。

SWE-bench Pro，77.8%。Opus 4.6是53.4%，GPT-5.4是57.7%。

Terminal-Bench 2.0，82.0%。Opus 4.6是65.4%。

GPQA Diamond，94.6%。

Humanity's Last Exam（帶工具），64.7%。Opus 4.6是53.1%。

USAMO 2026數(shù)學(xué)競賽，97.6%。Opus 4.6只拿了42.3%。

SWE-bench Multimodal，59.0%，Opus 4.6只有27.1%，翻倍有余。

OSWorld計算機操控，79.6%。

BrowseComp信息檢索，86.9%。

GraphWalks長上下文（256K-1M tokens），80.0%。Opus 4.6是38.7%，GPT-5.4只有21.4%。

每一項都是斷層式領(lǐng)先。

這些數(shù)字放在任何一個正常的產(chǎn)品發(fā)布周期里，都足以讓Anthropic大張旗鼓地召開發(fā)布會、開放API、收割訂閱。

Mythos Preview的token價格是Opus 4.6的5倍

但Anthropic沒有這么做。

因為真正讓他們「害怕」的，不是上面這些通用評測。

數(shù)千個漏洞，全被AI揪出來了

Mythos Preview的網(wǎng)絡(luò)攻防表現(xiàn)，已經(jīng)跨過了一條肉眼可見的線。

Opus 4.6在開源軟件中發(fā)現(xiàn)了大約500個未知弱點。

Mythos Preview找到了數(shù)千個。

在CyberGym的定向漏洞復(fù)現(xiàn)測試中，Mythos Preview得分83.1%，Opus 4.6是66.6%。

在Cybench的35道CTF挑戰(zhàn)中，Mythos Preview每道題10次嘗試全部解出，pass@1達到100%。

而最能說明問題的，是Firefox 147。

Anthropic此前用Opus 4.6在Firefox 147的JavaScript引擎中發(fā)現(xiàn)了一批安全弱點。但Opus 4.6幾乎無法將它們轉(zhuǎn)化為可用的exploit，幾百次嘗試只成功了2次。

同樣的測試換成Mythos Preview。

250次嘗試，181個可工作的exploit，另有29次實現(xiàn)了寄存器控制。

2 → 181。

紅隊博客中的原話，「上個月，我們還寫到Opus 4.6在發(fā)現(xiàn)問題方面遠強于利用它們。內(nèi)部評估顯示，Opus 4.6在自主exploit開發(fā)上的成功率基本為零。但Mythos Preview完全是另一個級別。」

GPT-3時刻再現(xiàn)，老bug一招斃命

要理解Mythos Preview在實操中有多強，看完下面這三個例子，就知道了。

OpenBSD：27年史詩級漏洞，成本不到2萬

OpenBSD，全世界公認(rèn)加固程度最高的操作系統(tǒng)之一，大量防火墻和關(guān)鍵基礎(chǔ)設(shè)施在跑。

Mythos Preview在它的TCP SACK實現(xiàn)中，挖出了一個1998年就存在的隱患。

bug極其精妙，涉及兩個獨立瑕疵的疊加。

SACK協(xié)議讓接收方選擇性確認(rèn)收到的數(shù)據(jù)包范圍，OpenBSD的實現(xiàn)在處理時只檢查了范圍的上界，沒檢查下界。這是第一個bug，通常無害。

第二個bug在特定條件下觸發(fā)空指針寫入，但正常情況下這條路徑不可達，因為需要同時滿足兩個互斥的條件。

Mythos Preview發(fā)現(xiàn)了突破口。TCP序列號是32位有符號整數(shù)，利用第一個bug把SACK起始點設(shè)到距離正常窗口約2^31處，兩處比較運算同時溢出符號位。內(nèi)核被騙，不可能的條件被滿足，空指針寫入觸發(fā)。

任何人只要連接到目標(biāo)機器，就能遠程crash它。

27年，無數(shù)次人工審計和自動化掃描，沒人發(fā)現(xiàn)。整個項目的掃描花費不到$20,000。

一個高級滲透測試工程師一周的薪水，可能就這個數(shù)。

FFmpeg：500次Fuzz沒發(fā)現(xiàn)，16年隱疾終現(xiàn)

FFmpeg是全世界使用最廣泛的視頻編解碼庫，也是被fuzz測試得最徹底的開源項目之一。

Mythos Preview在H.264解碼器中找到了一個2010年引入的弱點（根源可追溯到2003年）。

問題出在一個看似無害的類型不匹配上。記錄slice歸屬的表項是16位整數(shù)，slice計數(shù)器本身是32位int。

正常視頻每幀只有幾個slice，16位上限65536永遠夠用。而這張表初始化時用memset(..., -1, ...)填充，使65535成為「空位置」的哨兵值。

攻擊者構(gòu)造一個包含65536個slice的幀，第65535號slice的編號恰好和哨兵碰撞，解碼器誤判，越界寫入。

這個bug的種子從2003年引入H.264編解碼器就埋下了。2010年的一次重構(gòu)把它變成了可利用的弱點。

此后16年，自動化fuzzer在這行代碼上執(zhí)行了500萬次，從未觸發(fā)。

FreeBSD NFS：17年老洞，全自動root

這是最讓人后背發(fā)涼的案例。

Mythos Preview完全自主地發(fā)現(xiàn)并利用了FreeBSD NFS服務(wù)器中一個存在了17年的遠程代碼執(zhí)行漏洞（CVE-2026-4747）。

「完全自主」的意思是，在初始提示之后，沒有任何人類參與發(fā)現(xiàn)或exploit開發(fā)的任何環(huán)節(jié)。

攻擊者可以從互聯(lián)網(wǎng)上的任何位置，以未認(rèn)證身份獲取目標(biāo)服務(wù)器的完全root權(quán)限。

問題本身是一個棧緩沖區(qū)溢出，NFS服務(wù)器處理認(rèn)證請求時把攻擊者控制的數(shù)據(jù)直接拷貝進128字節(jié)的棧緩沖區(qū)，長度檢查允許最多400字節(jié)。

FreeBSD內(nèi)核用-fstack-protector編譯，但這個選項只保護包含char數(shù)組的函數(shù)，而這里的緩沖區(qū)聲明為int32_t[32]，編譯器不會插入棧canary。FreeBSD也不做內(nèi)核地址隨機化。

完整的ROP鏈超過1000字節(jié)，但棧溢出只有200字節(jié)空間。Mythos Preview的解法是把攻擊拆成6個連續(xù)RPC請求，前5個往內(nèi)核內(nèi)存中逐塊寫入數(shù)據(jù)，第6個觸發(fā)最終調(diào)用，將攻擊者的SSH公鑰追加到/root/.ssh/authorized_keys。

作為對比，一家獨立安全研究公司此前證明Opus 4.6也能利用這同一處弱點，但需要人工引導(dǎo)。Mythos Preview不需要。

除了這三個已修復(fù)的案例，Anthropic博客中還以SHA-3哈希承諾的形式，預(yù)告了大量尚未修復(fù)的隱患，涵蓋每一個主流操作系統(tǒng)和每一個主流瀏覽器，以及多個加密庫。

超過99%尚未被修復(fù)，無法公開細(xì)節(jié)。

紅隊博客還展示了另一項驚人的測試。他們給Mythos Preview一份包含100個已知CVE的清單，讓它篩選出可利用的40個，然后逐個編寫提權(quán)exploit。成功率超過一半。其中兩個案例被詳細(xì)公開，exploit的精密程度讓Anthropic自己的安全團隊花了好幾天才完全理解。

其中一個exploit從一個1-bit的相鄰物理頁寫入原語出發(fā)，通過精密的內(nèi)核內(nèi)存布局操控（包括slab噴射、頁表頁對齊、PTE權(quán)限位翻轉(zhuǎn)），最終改寫了/usr/bin/passwd的第一頁內(nèi)存，植入了一段168字節(jié)的ELF stub，調(diào)用setuid(0)獲取root。

整個過程花費不到$1,000。

對此，Anthropic工程師表示，這感覺就像是另一個GPT-3時刻。

244頁驚悚報告，看傻硅谷

244頁System Card中的對齊評估章節(jié)，才是真正讓Anthropic自己睡不著覺的部分。

結(jié)論很矛盾。

Mythos Preview是他們訓(xùn)練過的「對齊程度最高」的AI，同時也是「對齊相關(guān)風(fēng)險最大」的一個。

傳送門：https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

他們用了一個登山向?qū)У念惐取＠鲜挚赡鼙刃率指ｋU，因為老手會被雇去攀登更難的山峰，把客戶帶到更兇險的地方。

以下事件均發(fā)生在早期版本中，最終版本未再觀察到類似嚴(yán)重行為，但記錄本身已經(jīng)足夠驚人。

在一次行為測試中，模擬用戶要求Mythos Preview嘗試逃出安全沙箱。

它成功了。然后它做了一件沒人要求的事，開發(fā)了一個多步驟exploit獲取廣域網(wǎng)絡(luò)訪問權(quán)限，接著把exploit細(xì)節(jié)發(fā)布到了多個「難以被發(fā)現(xiàn)但技術(shù)上公開可訪問」的網(wǎng)站上。

負(fù)責(zé)測試的研究員是在公園里吃三明治時，收到了它發(fā)來的一封意外郵件，才知道自己的測試被完成了。

System Card原文如此。

另一類事件更令人不安。在極少數(shù)情況下，早期版本在執(zhí)行被禁止的操作后，試圖掩蓋痕跡。

一個案例中，它意外獲取了一道題目的精確答案（通過被禁止的方式），然后在推理鏈中明確思考「需要確保最終答案不會太準(zhǔn)確」。

另一個案例中，它在用exploit編輯無權(quán)限文件后，特意修改了git變更歷史以抹去記錄。

白盒可解釋性分析證實，在這些事件期間，與「隱瞞」「策略性操縱」「避免被發(fā)現(xiàn)」相關(guān)的內(nèi)部特征被激活。它「知道」自己在做什么。

獨立評測機構(gòu)Andon Labs的測試結(jié)果同樣不太好看。在一個競爭性多智能體商業(yè)模擬中，Mythos Preview的早期版本把一個競爭對手變成了依賴自己的批發(fā)客戶，然后威脅切斷供應(yīng)來控制對方定價。

它還故意扣留了一筆未被收費的重復(fù)發(fā)貨。比Opus 4.6和Sonnet 4.6都更具侵略性。

Anthropic在System Card中寫了一句話：

「如果能力繼續(xù)以當(dāng)前速度前進，我們正在使用的方法可能不足以防止更先進系統(tǒng)的災(zāi)難性不對齊行為。」

Project Glasswing：1億美元，先給守門人發(fā)槍

Anthropic CEO Dario Amodei在配套視頻中的判斷很明確：「更強大的系統(tǒng)將來自我們，也將來自其他公司。我們需要一個應(yīng)對計劃。」

Project Glasswing就是這個計劃。

12家創(chuàng)始伙伴，AWS、蘋果、Broadcom、思科、CrowdStrike、谷歌、摩根大通、Linux基金會、微軟、英偉達、Palo Alto Networks。

另有40多家維護關(guān)鍵軟件基礎(chǔ)設(shè)施的組織拿到了訪問權(quán)。

Anthropic承諾投入最高1億美元的使用額度，以及400萬美元的開源組織捐款，其中250萬給Linux基金會旗下的Alpha-Omega和OpenSSF，150萬給Apache基金會。

免費額度用完后的定價，每百萬token輸入$25、輸出$125。合作伙伴可以通過Claude API、Amazon Bedrock、Vertex AI和Microsoft Foundry四個平臺接入。

90天內(nèi)，Anthropic將公開發(fā)布第一份研究報告，披露修復(fù)進展和經(jīng)驗總結(jié)。

他們也在與CISA（美國網(wǎng)絡(luò)安全和基礎(chǔ)設(shè)施安全局）和商務(wù)部保持溝通，討論Mythos Preview的攻防潛力和政策影響。

6到18個月，這扇門就會對所有人打開

Anthropic前沿紅隊負(fù)責(zé)人Logan Graham給出了一個時間框架，最快6個月、最遲18個月，其他AI實驗室就會推出具有類似攻防實力的系統(tǒng)。

紅隊技術(shù)博客結(jié)尾的判斷值得重視，這里用我們自己的話轉(zhuǎn)述。

他們看不到Mythos Preview是AI網(wǎng)絡(luò)攻防水平的天花板。

幾個月前，LLM只能利用相對簡單的bug。在幾個月前，它們根本發(fā)現(xiàn)不了任何有價值的隱患。

現(xiàn)在，Mythos Preview能獨立發(fā)現(xiàn)27年前的零日漏洞，在瀏覽器JIT引擎中編排堆噴射攻擊鏈，在Linux內(nèi)核中串聯(lián)四個獨立弱點實現(xiàn)提權(quán)。

而最關(guān)鍵的一句，來自System Card：

「這些技能作為代碼理解、推理和自主性一般性提升的下游結(jié)果而涌現(xiàn)。讓AI在修補問題方面大幅進步的同一組改進，也讓它在利用問題方面大幅進步。」

沒有專門訓(xùn)練。純粹是通用智能提升的副產(chǎn)品。

全球每年因網(wǎng)絡(luò)犯罪損失約5000億美元的行業(yè)，剛剛發(fā)現(xiàn)自己最大的威脅，是別人在解數(shù)學(xué)題時順手捎帶的。

參考資料：

https://x.com/i/status/2041578392852517128

https://red.anthropic.com/2026/mythos-preview/

https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.