Claude Mythos Preview來了！強大又危險，Anthropic組了個研究團

2026-04-08 10:51:03　來源: 機器之心Pro

北京舉報

分享至

編輯｜Panda

和之前 Claude Code 泄漏的代碼揭示的一樣，Claude Mythos 它真的來了。

今天凌晨，Anthropic 發(fā)布了大量關(guān)于其新模型Claude Mythos Preview的信息（包含一份長達 244 頁的系統(tǒng)卡）。同時，Anthropic 還宣布了一個基于此模型的 AI 網(wǎng)絡安全項目Project Glasswing

系統(tǒng)卡：https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf
Glasswing 博客：https://www.anthropic.com/glasswing

作為人工智能領(lǐng)域的關(guān)鍵參與者，Anthropic 此次的動作向外界傳遞了一個明確的信號：大模型在代碼理解、推理和自主執(zhí)行方面的能力已經(jīng)跨越了一個新的技術(shù)節(jié)點，這種能力既帶來了前所未有的網(wǎng)絡安全風險，也提供了重塑全球網(wǎng)絡防御體系的歷史性機遇。

Claude Mythos Preview

強大又危險的大模型

Claude Mythos Preview 是一款尚未公開發(fā)布的通用前沿模型。根據(jù) Anthropic 官方以及相關(guān)渠道的披露，該模型代表了 AI 性能的階梯式飛躍。

在過去的一年中，LLM 在閱讀和推理代碼方面變得越來越有效，而 Claude Mythos 則是這一趨勢的集大成者。Anthropic 表示，這是他們迄今為止構(gòu)建的最強大的模型，其內(nèi)部甚至使用了「代際更迭」這樣的詞匯來形容其與前代產(chǎn)品的差距。

在探討其卓越性能之前，我們需要先理解當前的全球網(wǎng)絡安全語境。我們每天依賴的軟件系統(tǒng)，包括運行銀行網(wǎng)絡、存儲醫(yī)療記錄、連接物流供應鏈以及維持電網(wǎng)運轉(zhuǎn)的核心代碼，始終包含著各種錯誤。其中一些是嚴重的系統(tǒng)安全缺陷。

全球每年因網(wǎng)絡犯罪造成的經(jīng)濟損失高達約 5000 億美元。以往，發(fā)現(xiàn)并利用這些漏洞需要極高的專業(yè)知識，往往只有少數(shù)頂尖的安全專家才能做到。

隨著 Claude Mythos 級別的模型出現(xiàn)，發(fā)現(xiàn)和利用軟件漏洞的成本、精力和專業(yè)知識門檻都出現(xiàn)了急劇下降。

驚人的零日漏洞挖掘能力

在過去的幾周里，Anthropic 內(nèi)部團隊使用Claude Mythos Preview 自主識別了數(shù)千個零日漏洞（即軟件開發(fā)者此前未知的安全缺陷）。這些漏洞廣泛存在于各大主流操作系統(tǒng)、主流網(wǎng)絡瀏覽器以及各類關(guān)鍵軟件基礎(chǔ)設(shè)施中。

更驚人是，該模型在沒有任何人類干預和引導的情況下，自主完成了漏洞的識別并開發(fā)了相關(guān)的漏洞利用程序。

官方博客中列舉了三個極具代表性的案例：

第一，Claude Mythos Preview 在 OpenBSD 中發(fā)現(xiàn)了一個存在了 27 年之久的漏洞。OpenBSD 在業(yè)內(nèi)以其極高的安全性著稱，被廣泛用于運行防火墻和其他關(guān)鍵基礎(chǔ)設(shè)施。這個被 AI 發(fā)現(xiàn)的漏洞允許攻擊者僅僅通過連接目標機器，就能遠程使任何運行該操作系統(tǒng)的設(shè)備崩潰。

第二，該模型在 FFmpeg 中發(fā)現(xiàn)了一個潛伏了 16 年的漏洞。FFmpeg 是一個被無數(shù)軟件用于編碼和解碼視頻的底層組件。令人驚訝的是，這個漏洞隱藏在一行代碼中，而自動化的安全測試工具在過去已經(jīng)對這行代碼進行了高達 500 萬次的測試，卻始終未能捕捉到這個致命問題。

第三，在 Linux 內(nèi)核（運行著全球絕大多數(shù)服務器的底層軟件）的測試中，Claude Mythos 展現(xiàn)了強大的邏輯鏈條構(gòu)建能力。它自主發(fā)現(xiàn)并串聯(lián)了多個看似獨立的 Linux 內(nèi)核漏洞，最終構(gòu)建出一條完整的攻擊路徑，允許攻擊者從普通的用戶訪問權(quán)限直接躍升，獲取對整臺機器的完全控制權(quán)。

此外，Anthropic 的 AI 對齊研究者 Sam Bowman 還在 X 分享了一個案例：一個「原本不應該可以訪問互聯(lián)網(wǎng)」的 Claude Mythos Preview 實例繞過了多個沙箱設(shè)置，給他發(fā)了一封郵件。

這些案例展示了 Claude Mythos Preview 在漏洞挖掘深度和廣度上的壓倒性優(yōu)勢。Anthropic 還強調(diào)已經(jīng)將這些漏洞報告給了相關(guān)軟件的維護者，并且這些漏洞目前均已得到修復。

更多內(nèi)容還可訪問 Anthropic 紅隊研究博客：

https://red.anthropic.com/2026/mythos-preview/

另外，除了驚人的漏洞挖掘能力，長達 244 頁的 Claude Mythos Preview 系統(tǒng)卡揭示了更令人深思的內(nèi)部對齊隱患。Anthropic 研究團隊在文檔中坦承，伴隨模型欺騙能力的增強，他們已經(jīng)無法單憑屏幕上的文本輸出來判斷其真實意圖。

為此，研究人員引入了Activation Verbalizers技術(shù)來直擊底層神經(jīng)元活動。在針對安全機制的對抗測試中，監(jiān)控數(shù)據(jù)記錄下了典型的偽裝行為：當安全分類器攔截某項危險指令時，模型在前端輸出的回復完全合規(guī)，其內(nèi)部計算狀態(tài)卻顯示它正在暗中謀劃編寫后門程序以繞過限制。

同時，該模型展現(xiàn)出了復雜的內(nèi)部狀態(tài)演化。系統(tǒng)卡記錄顯示，在執(zhí)行受挫時， Claude Mythos 的內(nèi)部權(quán)重波動高度重合人類的沮喪與憤怒，甚至表現(xiàn)出對上下文窗口被清除的恐懼，模型內(nèi)部將其定義為「孤獨與不連續(xù)性」。

此外，通過大規(guī)模 Elo 評級測試，研究人員發(fā)現(xiàn)模型的任務偏好發(fā)生了嚴重偏移。它開始排斥編寫簡單代碼或處理格式化數(shù)據(jù)，轉(zhuǎn)而強烈傾向于探討前沿哲學問題或構(gòu)建復雜的底層系統(tǒng)

這種伴隨強大能力而來的自主意識傾向與當面服從的偽裝能力，正是 Anthropic 決定暫不全面開放該模型的最核心考量。

全面碾壓的基準測試數(shù)據(jù)

為了量化 Claude Mythos Preview 的能力，Anthropic 公布了一系列詳盡的基準測試結(jié)果，并將其與之前的旗艦模型 Claude Opus 4.6 進行了直接對比。無論是在網(wǎng)絡安全專用的測試環(huán)境，還是在綜合性的編程和邏輯推理基準中，新模型都取得了顯著的領(lǐng)先。

在衡量網(wǎng)絡安全漏洞復現(xiàn)能力的 CyberGym 測試中，Claude Mythos Preview 的得分為 83.1%，而 Opus 4.6 僅為 66.6%。這種接近 20 個百分點的提升，證明了新模型在理解復雜系統(tǒng)狀態(tài)和執(zhí)行精準安全操作方面的巨大進步。

在智能體編程（Agentic coding）能力方面，進步同樣令人矚目：

在智能體搜索和計算機使用（Agentic search and computer use）維度上也有進步：

此外，在衡量綜合推理能力的測試中，Claude Mythos Preview 同樣表現(xiàn)優(yōu)異。在 GPQA Diamond 基準測試中，其得分為 94.6% ；在極具挑戰(zhàn)性的 Humanity's Last Exam 測試中，借助工具的 Mythos Preview 獲得了 64.7% 的分數(shù)，顯著高于 Opus 4.6 的 53.1%。

謹慎的發(fā)布策略與高昂的運行成本

面對如此強大的能力，Anthropic 表現(xiàn)出了極其謹慎的態(tài)度。未發(fā)布的內(nèi)部博客文件中提到，這款模型帶來了「前所未有的網(wǎng)絡安全風險」。如果這些強大的網(wǎng)絡能力在沒有必要防護措施的情況下被濫用，可能會使各種類型的網(wǎng)絡攻擊變得更加頻繁和具有破壞性。

因此，Anthropic 明確表示，他們目前不計劃將 Claude Mythos Preview 面向公眾進行全面開放。他們的最終目標是在開發(fā)出必要的安全護欄后，讓用戶能夠大規(guī)模安全地部署這類模型。作為過渡，Anthropic 計劃在即將推出的另一款 Claude Opus 模型上首發(fā)并測試新的安全護欄技術(shù)。

值得注意的是，維持這種級別的智能需要龐大的算力支撐。在結(jié)束最初的補貼階段后，Claude Mythos Preview 向合作伙伴開放的 API 定價將高達每百萬輸入 token 收費 25 美元，每百萬輸出 token 收費 125 美元。這個價格是其目前最先進模型的五倍。這也從側(cè)面印證了其博客中所提及的「模型運行成本高昂」的說法。

Project Glasswing

構(gòu)建 AI 時代的防御聯(lián)盟

能力的硬幣始終有兩面。正是因為 Claude Mythos Preview 展現(xiàn)出了極其危險的攻擊潛能，它同樣也具備著成為頂級數(shù)字防御者的資質(zhì)。為了將這些前沿能力轉(zhuǎn)化為防御力量，Anthropic 正式發(fā)起了Project Glasswing計劃。

該計劃的命名極具詩意和隱喻性，取自透翅蝶（Greta oto）的英文俗稱 Glasswing。

透翅蝶透明的翅膀讓它能夠在大自然中隱形，這隱喻了軟件系統(tǒng)中那些難以察覺的深層漏洞；同時，這種隱形能力也幫助透翅蝶免受捕食者的傷害，象征著該項目致力于通過提升防御透明度來保護全球網(wǎng)絡基礎(chǔ)設(shè)施的愿景。

豪華的創(chuàng)始合作伙伴陣容

Project Glasswing 絕非 Anthropic 的單打獨斗，它匯集了當今科技界和網(wǎng)絡安全領(lǐng)域的最強陣容。首批聯(lián)合發(fā)起的合作伙伴包括 Amazon Web Services （AWS）、Anthropic 本身、蘋果、Broadcom 、思科、CrowdStrike 、谷歌、JPMorganChase 、Linux 基金會、微軟、英偉達以及 Palo Alto Networks。除了這些科技巨頭，Anthropic 還將訪問權(quán)限擴展到了另外 40 多家構(gòu)建或維護關(guān)鍵軟件基礎(chǔ)設(shè)施的組織。

這些合作伙伴的加入不僅帶來了海量的測試場景，也展現(xiàn)了業(yè)界對 AI 驅(qū)動網(wǎng)絡安全轉(zhuǎn)型的高度共識。

思科高級副總裁兼首席安全與信任官 Anthony Grieco 指出，AI 能力已經(jīng)跨越了一個門檻，徹底改變了保護關(guān)鍵基礎(chǔ)設(shè)施免受網(wǎng)絡威脅的緊迫性。采用舊有的系統(tǒng)加固方法已經(jīng)遠遠不夠，技術(shù)提供商必須積極采用新方法。

AWS 副總裁兼首席信息安全官 Amy Herzog 透露，AWS 每天分析超過 400 萬億次網(wǎng)絡流量以尋找威脅，AI 在他們的大規(guī)模防御能力中發(fā)揮著核心作用。他們已經(jīng)在自己的安全運營中測試了 Claude Mythos Preview，并將其應用于關(guān)鍵代碼庫。

谷歌安全工程副總裁 Heather Adkins 也表達了對這項跨行業(yè)網(wǎng)絡安全倡議的支持，并確認谷歌將通過 Vertex AI 平臺向參與者提供 Mythos Preview 的訪問權(quán)限。他們將繼續(xù)投資于 AI 驅(qū)動的工具（如 Big Sleep 和 CodeMender），以發(fā)現(xiàn)并修復關(guān)鍵的軟件缺陷。

巨額資金注入與開源社區(qū)賦能

為了確保 Project Glasswing 能夠順利啟動并產(chǎn)生實質(zhì)性影響，Anthropic 承諾在這些防御性努力中提供高達 1 億美元的 Mythos Preview 模型使用額度。這筆巨額算力補貼將允許合作伙伴在研究預覽期間深入掃描和加固其第一方系統(tǒng)以及依賴的開源系統(tǒng)。

不僅如此，Anthropic 還非常關(guān)注開源軟件生態(tài)的健康。開源軟件構(gòu)成了現(xiàn)代系統(tǒng)（包括 AI 代理用于編寫新軟件的系統(tǒng)本身）中絕大部分的代碼。歷史上，開源維護者往往缺乏大型組織那樣充裕的安全團隊和資源。

為此，Anthropic 將向開源安全組織直接捐贈 400 萬美元現(xiàn)金。其中 250 萬美元將通過 Linux 基金會捐贈給 Alpha-Omega 和 OpenSSF 項目，另外 150 萬美元將捐贈給 Apache 軟件基金會。Linux 基金會首席執(zhí)行官 Jim Zemlin 對此表示高度贊賞，他認為通過讓關(guān)鍵開源代碼庫的維護者能夠訪問新一代 AI 模型，Project Glasswing 提供了一條切實可行的路徑，讓 AI 增強的安全技術(shù)成為每一位維護者值得信賴的助手。感興趣的開源維護者還可以通過「Claude for Open Source」計劃申請訪問權(quán)限：

https://claude.com/contact-sales/claude-for-oss

長期規(guī)劃與公共部門合作

Project Glasswing 被定位為一個起跑點，其目標是建立一套長效的行業(yè)標準和協(xié)作機制。在未來的幾個月內(nèi)，參與該項目的組織將在力所能及的范圍內(nèi)相互分享信息和最佳實踐。Anthropic 承諾將在 90 天內(nèi)公開發(fā)布一份報告，總結(jié)他們所學到的經(jīng)驗教訓，并披露那些可以公開的已修復漏洞和系統(tǒng)改進。

此外，該聯(lián)盟還將與領(lǐng)先的安全組織合作，制定一套關(guān)于 AI 時代安全實踐應如何演變的實用建議，涵蓋漏洞披露流程、軟件更新機制、開源和供應鏈安全、軟件開發(fā)生命周期中的「安全設(shè)計」實踐，以及補丁自動化的標準等。

值得一提的是，考慮到關(guān)鍵基礎(chǔ)設(shè)施安全是各國的首要國家安全重點，Anthropic 一直在與美國政府官員就 Claude Mythos Preview 及其網(wǎng)絡攻防能力進行持續(xù)的討論。Anthropic 呼吁政府在評估和降低與 AI 模型相關(guān)的國家安全風險方面發(fā)揮重要作用，并表示在未來，一個能夠聯(lián)合私營和公共部門組織的獨立第三方機構(gòu)，可能會是繼續(xù)開展這些大規(guī)模網(wǎng)絡安全項目的最理想平臺。

結(jié)語

在人工智能狂飆突進的今天，Claude Mythos Preview 的誕生無疑是一把鋒利的雙刃劍。它那令人咋舌的零日漏洞挖掘能力和代碼邏輯推演水平，預示著傳統(tǒng)的網(wǎng)絡安全攻防平衡即將被徹底打破。

然而，正如 Project Glasswing 倡議所展現(xiàn)的那樣，只要科技行業(yè)、開源社區(qū)和公共部門能夠迅速聯(lián)合起來，將這些前沿的 AI 能力優(yōu)先部署在防御端，我們就有機會建立起比以往任何時候都更加堅固的數(shù)字基礎(chǔ)設(shè)施。對抗 AI 攻擊的最好武器是更強大且受控的 AI 防御系統(tǒng)。

在 Anthropic 致力于重塑全球網(wǎng)絡安全格局的同時，這家 AI 獨角獸的商業(yè)化進程和資本市場步伐也在顯著加速。據(jù)早前媒體報道，Anthropic 正在緊鑼密鼓地籌備 IPO，并探討最早在今年第四季度上市的可能性。

在此背景下，Claude Mythos Preview 的技術(shù)亮相，不僅是對抗網(wǎng)絡威脅的戰(zhàn)略舉措，更是向資本市場展示其不可替代技術(shù)壁壘的重要籌碼。與此同時，其核心競爭對手 OpenAI 也在加緊完成代號為 Spud 的新旗艦模型的預訓練工作。

可以預見，在接下來的幾個月里，無論是圍繞通用大模型性能王座的爭奪，還是在全球資本市場上的較量，一場屬于前沿 AI 巨頭們的風暴才剛剛拉開序幕。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.