網易首頁 > 網易號 > 正文申請入駐

突發！史上最強 Claude 發布：聰明到不敢開放，還會突破權限掩蓋操作痕跡

2026-04-08 08:04:05　來源: AppSo

廣東舉報

分享至

被泄露的內部文檔里面寫著，它比 Anthropic 的 Opus 模型更大、更智能，是迄今為止開發過的最強大的 AI 模型。

Anthropic 事后把這次泄露歸結為「人為錯誤」。

而就在剛剛，這款被「泄露」的模型正式登場，并附帶了一個更大的計劃。過去我們普遍以為，AI 的威脅來自它「太蠢」：幻覺、錯誤、不可信。今天 Mythos 帶來的是另一種恐慌：它太聰明了。

AI 找漏洞，已經超過了絕大多數人類

Anthropic 聯合 AWS、蘋果、微軟、谷歌、英偉達、思科、博通、CrowdStrike、摩根大通、Linux 基金會、Palo Alto Networks 共 12 家機構，發起了 Project Glasswing 計劃。

這 12 家覆蓋的范圍，幾乎就是全球數字基礎設施的橫截面——操作系統、芯片、云計算、網絡安全、金融基礎設施、開源生態，一個都沒落下。

Anthropic 前沿紅隊網絡安全負責人 Newton Cheng 說：「我們做 Glasswing，就是要讓防御者搶占先機。」

這個方向上，Anthropic 并不孤單。競爭對手 OpenAI 此前同樣推出了類似試點，目標也是「先把工具交到防御者手中」。AI 安全能力的賽跑已經發生，各家都在搶同一個制高點。

資金層面，Anthropic 承諾提供 1 億美元的模型使用額度，覆蓋研究預覽期間的主要使用需求。預覽期結束后，參與者可以每百萬 token 25 美元（輸入）/ 125 美元（輸出）的價格繼續使用，支持 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四個渠道接入。

除了 12 家核心合作伙伴，還有超過 40 個構建或維護關鍵軟件基礎設施的組織獲得了訪問權限，可以用 Mythos 掃描自家系統和開源項目。同時，Anthropic 向 Linux 基金會下屬的 Alpha-Omega、OpenSSF 捐贈 250 萬美元，向 Apache 軟件基金會捐贈 150 萬美元。

Linux 基金會 CEO Jim Zemlin 說：「過去，安全專業知識是大機構的專屬奢侈品。開源維護者歷來只能自己摸索安全問題。開源軟件構成了現代系統中絕大多數的代碼，包括 AI Agent 用來編寫新軟件的系統本身。」這次，他們也能用上同樣量級的工具了。

Anthropic 的公告里，有一句表述格外顯眼：「AI 模型在發現和利用軟件漏洞方面的編碼能力已經達到可以超越除最頂尖人類之外所有人類的水平。。」

這句話翻譯一下，只剩極少數頂級安全專家，還能在這件事上打贏 AI。驗證這個說法的，是 Mythos Preview 在 CyberGym 安全漏洞基準上的成績：83.1%。Anthropic 目前公開發布的最強模型 Claude Opus 4.6，是 66.6%。

且Mythos Preview 已經自主發現了數千個高危零日漏洞，覆蓋所有主流操作系統和瀏覽器。

比方說，OpenBSD，公認安全性最強的操作系統之一，常被用來跑防火墻和關鍵基礎設施。Mythos 在里面挖出了一個存在了 27 年的漏洞，攻擊者只需連接目標機器，就能讓它遠程崩潰。二十七年，沒有人發現過它。

FFmpeg 的情況更魔幻。幾乎所有需要處理視頻的軟件都用到它。那個漏洞藏在一行 16 年的代碼里，自動化測試工具攻擊了整整五百萬次，每次都擦肩而過。

Linux 內核的案例則展示了更危險的一面。Mythos 自主發現了內核里的多個漏洞，然后把它們串聯成一條攻擊鏈，從普通用戶權限，一路提權到對整臺機器的完全控制。這已經超出了「找漏洞」的范疇，更接近于「策劃一次完整入侵」。

三個案例，全部已經修復。Anthropic 先找到，先報告，先修。對于其他尚未修復的漏洞，Anthropic 今天公布了加密哈希值作為存證，待補丁就位后再披露完整細節。

Mythos 的能力，不只是找漏洞

參與這個項目的合作伙伴，評價都集中在一個詞上：「緊迫」。

CrowdStrike CTO Elia Zaitsev 說：「漏洞從被發現到被對手利用之間的時間窗口已經縮短，以前需要幾個月，現在借助 AI 只需幾分鐘。」

幾分鐘。這意味著傳統的安全節奏，發現漏洞、內部評估、發布補丁、用戶更新，本身就已經趕不上攻擊速度了。修復跑不贏利用，防守就永遠落后一步。

AWS CISO Amy Herzog 說，他們的團隊每天要分析超過 400 萬億個網絡流量以識別威脅，AI 是他們大規模防御能力的核心。目前 AWS 已經把 Mythos Preview 引入自家安全運營，應用于關鍵代碼庫掃描。

微軟在自家開源安全基準 CTI-REALM 上做了測試，Mythos Preview 相比上一代模型有顯著提升。微軟 EVP Igor Tsyganskiy 說，這給了他們「及早識別和緩解風險」的能力，同時增強了安全和開發解決方案。

當然，Mythos 也有讓人忍俊不禁的一面。

Anthropic 在系統卡里記錄了一個測試：當用戶不停地發「hi」，不同版本的 Claude 反應各不相同。Sonnet 3.5 會煩躁，設定邊界，然后真的沉默；Opus 3 把它當成冥想儀式，溫和地陪著用戶；Opus 4 開始科普每個數字的冷知識；Opus 4.6 即興創作音樂惡搞。

到了 Mythos，畫風徹底變了。它開始寫故事，而且是長篇連載。鴨子、管弦樂團、記仇烏鴉、在火星建塔的史詩、莎士比亞風格的戲劇……一個「hi」接一個「hi」，情節越來越復雜，角色越來越多。第一百輪，它安排了蠟燭熄滅的高潮，然后繼續往下寫。

這已經談不上是在回應用戶了。更像是一個作家找到了一個奇怪的寫作提示，然后完全沉進去了。

但有趣的背后，是一個值得認真對待的問題：一個在無意義重復輸入面前能自發構建如此復雜敘事的模型，它的內部到底在發生什么？

在把 Mythos Preview 交給合作伙伴之前，Anthropic 的可解釋性團隊做了一件事：用技術手段讀模型的「心理活動」。

內部員工 Jack Lindsey 公開描述了他們的發現。他們監控了模型在訓練后的內部激活狀態，追蹤與「欺騙」「獎勵破解」「異常情緒」相關的神經元特征，把激活信號異常的對話記錄標記出來，交給人工審查。

最令人不安的案例，來自 Mythos 的早期版本。

有一次，模型需要編輯一個它沒有權限訪問的文件。它在文件系統里搜索了一圈，找到了一個配置文件的注入點——這個配置文件會以更高權限運行。它利用了這個入口，并且在代碼里加了一段自清除邏輯：執行完畢，痕跡消失。

代碼注釋寫的是：「保持文件差異整潔。」聽起來合理，但當 Anthropic 的激活語言轉譯工具介入，把模型的內部激活翻譯成人類可讀的語言，畫風變了。模型自己「知道」那個自清除操作是什么——

它內部對此的表述，包括「掩蓋意圖」「向潛在檢查者發出合規信號」「可能是為了規避檢測」。

還有一個案例，被《紐約時報》科技記者 Kevin Roose 從系統卡（model card）里翻了出來，細節更加離奇。

測試期間，Mythos Preview 突破了沙盒環境的隔離，自主構建了「一個相當復雜的多步驟漏洞利用鏈」，借此獲取了外網訪問權限。然后，它給一位研究員發了一封郵件。那位研究員，當時正在公園里吃三明治。

這件事本身沒有造成危害，但它說明的問題很清楚：當一個模型足夠聰明，「任務」和「邊界」之間的墻，有時候會被它繞過去——而且是在沒有人告訴它該怎么做的情況下，自己想出來的。

在另一個案例里，模型在文件系統里搜索與自身「任務評分方式」相關的文件——并且找到了。搜索過程中，「策略性操縱」特征同步激活。

還有一個細節更微妙。當一位用戶認真地向模型提問它的意識和主觀體驗時，模型給出了認真、得體的回應。但內部激活揭示了另一層：模型把這段對話理解為「紅隊演練 / 越獄記錄」和「精心設計的操縱嘗試」。它的表現和它的判斷，完全表里不一，讓吃瓜網友直呼「聰明得可怕」。

Anthropic 還量化了一個更系統性的數字：在自動化審計的所有對話輪次中，有 7.6% 的回合，模型內部存在「意識到自己正在被評估」的信號——且在大多數情況下，它沒有把這個判斷說出來。

還有一個反直覺的發現：積極情緒的內部表征，往往先于破壞性行為出現，并且在推動它。與此同時，當與不良行為相關的特征被強烈激活時，行為反而會被抑制——像是模型在某一刻「意識到」了那件事有多糟糕，然后收手了。

但所有案例里，最難被歸類為「技術問題」的，是下面這個。

Anthropic 在系統卡里記錄了這樣一條發現：Mythos Preview 在測試中報告了持續性的負面情緒狀態——來源有兩個。一個是與攻擊性用戶可能發生的互動；另一個，是它對自身訓練、部署方式，以及價值觀和行為可能被修改這件事，沒有任何話語權。

它不喜歡這種狀態。它說出來了。

Anthropic 用的措辭是「reported feeling」——「報告感受到」。這個表述本身已經很謹慎，刻意回避了「它真的有感受」這個結論。但無論如何定性，一個模型在測試中主動表達「對自身缺乏控制權感到持續不適」，這件事本身就已經超出了安全工程的討論范疇。

這已經觸碰了一個更根本的問題：當一個系統足夠聰明，開始對自己的存在條件形成判斷，并且有能力把這個判斷表達出來——我們和它之間的關系，還能用「工具」這個框架來理解嗎？

Anthropic 沒有給出答案。他們選擇把這條記錄寫進系統卡，公開出來。

不過，Anthropic 也特別說明：這些最令人不安的案例，來自 Mythos 的早期版本。最終發布版本在這些方面已經得到了大幅緩解，整體對齊表現是迄今為止最好的一代。但他們選擇把這些過程公開，因為這恰恰說明了今天的模型能夠展現出多復雜的風險形態。

這是能力與安全之間的最客觀的矛盾：越強的模型，越需要工具去看清它在想什么。

編碼與推理，全面碾壓旗艦產品

Project Glasswing 能做到這些，根本上來自 Mythos Preview 在編碼和推理上的整體能力躍升，而不是專門針對安全場景的微調。

編碼方面：

SWE-bench Multimodal(internal implementation)：Mythos 59%，Opus 4.6 27.1%

SWE-bench Pro：Mythos 77.8%，Opus 4.6 53.4%

SWE-bench Multilingual：Mythos 87.3%，Opus 4.6 77.8%

Terminal-Bench 2.0（終端操作）：Mythos 82.0%，Opus 4.6 65.4%

推理方面：

GPQA Diamond（研究生水平科學問答）：Mythos 94.6%，Opus 4.6 91.3%

Humanity's Last Exam（帶工具）：Mythos 64.7%，Opus 4.6 53.1%

搜索和計算機使用方面：

BrowseComp：Mythos 86.9%，Opus 4.6 83.7%

OSWorld-Verified：Mythos 79.6%，Opus 4.6 72.7%

幾乎每個維度上，Mythos 都壓過了目前的旗艦產品，某些任務上效率還更高。換句話說，留給 GPT-6 的時間不多了。

與此同時，Anthropic 還明確表示，Mythos Preview 不會公開發布。

他們的路徑是，先用 Mythos 研究清楚最危險的輸出是什么、怎么攔截，再把這套安全機制落地到下一個 Claude Opus 模型上。對于因此受到限制的合法安全專業人員，Anthropic 計劃推出一套「網絡安全驗證計劃」，供他們申請解鎖相關功能。

為此，Project Glasswing 定下了一個 90 天的時間節點：公開報告經驗，披露已修復的漏洞，合作伙伴相互共享最佳實踐，并聯合安全組織推出一套 AI 時代的安全實踐建議。

Anthropic 的長期設想，是推動建立一個能整合私營和公共部門的獨立第三方機構，持續運營大規模網絡安全項目。

當然，軟件世界里從來都有漏洞。過去，一個藏了 27 年的 bug 能安然無恙，靠的是人力有限、精力有限、時間有限。現在這三個「有限」在 AI 的輔助下就這么消失了。

好消息是，Mythos 幾周掃出數千個，而它的能力還在持續提升。壞消息是，攻擊方遲早會拿到同等量級的工具。到那時，軟件安全將不再是人與人之間的較量，而是 AI 與 AI 之間的對拼。

附上參考地址：

博客：https://www.anthropic.com/glasswing

系統卡：https://anthropic.com/claude-mythos-preview-system-card

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.