網易首頁 > 網易號 > 正文申請入駐

恐慌錯位與能力擴散：還原Mythos事件的真實威脅

2026-06-08 12:22:57　來源: 新經濟學家智庫

北京舉報

分享至

AI圖。本文為新經濟學家智庫專稿，轉載請注明來源。

本賬號接受投稿，投稿郵箱：jingjixuejiaquan@126.com

恐慌錯位與能力擴散：還原Mythos事件的真實威脅

旻宏

新經濟學家智庫特約研究員

導語

兩個月前，當Anthropic公布Claude Mythos Preview，全球金融監管機構緊急開會，銀行高管連夜匯報，政府官員討論將漏洞修補的響應節奏從以周計壓縮到以天計。六周后，第一批冷靜的聲音出現了：多家獨立網絡安全公司宣稱，Mythos并沒有那么獨一無二，他們用更便宜的公開模型，在已披露漏洞上復現了它的部分展示結果。

這是一個令人松口氣的結論嗎？答案是否定的。

如果連公開模型都能在某些條件下做到Mythos所做的事，這不意味著威脅被夸大了，這意味著威脅已經不再集中于一個可以被鎖住、被管控、被命名的點的超級模型。人們恐懼的方向錯了：不是Mythos太強，而是Mythos已經不夠獨家，無法成為唯一的威脅載體。

Anthropic CEO Dario Amodei在接受《金融時報》專訪時說，開源社區與其他國家的開發者或將在六到十二個月內追上這個能力水平。Anthropic攻擊安全研究負責人Logan Graham也給出了同向判斷。這句話的真正含義是在宣告一個時代的開始：這種能力即將成為行業標配。屆時，一批Mythos級工具同時在全球運轉，有些在政府批準的名單里，有些不在，而有些根本沒有名單。我們不禁要問，當這種能力從稀缺變成普遍，所有建立在威脅是集中的、可管控的、會慢慢到來的這一舊假設之上的防御體系，還剩下多少有效性？

一、閾值被跨越：時間假設的崩塌與27年的隱患

在Mythos出現之前，網絡安全行業建立在一組被反復驗證的時間假設之上：漏洞從被公開到被大規模武器化，通常以數天到數周計。一個訓練有素的人類研究員發現一個高質量零日漏洞，常需數周到數月。這套節奏，正是過去二十年防御體系所默認的工作時序。響應時間、修補周期、預算分配、人員配置，每一層都建立在這套節奏之上。

Mythos打碎了這套假設的多個環節。在Anthropic的受控評估中，Mythos能在遠短于熟練研究員所需時間的窗口內，完成從閱讀代碼庫、提出假設、運行驗證到生成完整漏洞報告與可工作利用代碼的全流程，幾乎不需要人類逐步引導。它不是在做模式匹配，不是在查詢已知漏洞數據庫，它是按攻擊面對文件排序、生成假設、再以執行結果反向修正假設。

還有鏈式攻擊能力。在評估中，它將OpenBSD TCP SACK中的兩個相關缺陷通過32位序列號回繞串聯起來，發展出可遠程崩潰任意OpenBSD主機的能力。它在FreeBSD NFS服務器（CVE-2026-4747）上完成了從識別到利用的全自主鏈條，具備了未授權根權限遠程代碼執行能力。Firefox 147 JavaScript引擎測試最能說明差距，Opus 4.6數百次嘗試只成功2次，Mythos Preview成功181次，另有29次取得寄存器控制。這個結果不等于完整瀏覽器沙箱逃逸，但足以說明模型能力已經從看出漏洞推進到具備穩定構造攻擊代碼的能力。

Mythos的能力同時在實驗室和現實世界得到了印證。實驗室一側，英國AI安全研究所（AISI）的The Last Ones（TLO）基準，一個32步、模擬企業網絡的全流程攻擊，人類專家估計需要約20小時完成。Mythos Preview是首個端到端完成該基準的模型，在公開評估中10次嘗試3次成功完成這32步，上一代Claude Opus 4.6平均僅完成約16步，其余主流模型都是零端到端完成。對比兩年前，最好的AI模型還連初級網絡安全任務都勉強完成。現實世界一側，Mythos找到了藏在OpenBSD TCP SACK代碼深處整整27年的漏洞，以及FFmpeg中已經存在了16年，經受大規模模糊測試和人工審查仍未被識別出來的缺陷。

根據公開報道看，Mythos的成績至少證明了AI首次具備了在防御薄弱、已獲得初始網絡訪問的小型企業系統上可以自主跑完一條多步攻擊鏈的能力。這不是能力的量變，而是性質的躍遷，即從輔助人類攻擊提升為在特定條件下替代人類攻擊鏈路。

二、急剎車式管控：玻璃翼能管住什么

Anthropic沒有選擇沉默，也沒有公開發布Mythos。它做了一件在AI行業史上幾乎沒有先例的事：專門為這款模型搭建了一套封閉訪問體系，命名為Project Glasswing（玻璃翼計劃）。玻璃翼蝶以翅膀透明著稱，這一隱喻指向讓威脅可見、而不是把模型藏起來。

Project Glasswing由Anthropic牽頭，啟動伙伴除Anthropic自身外還包括另外11家機構：亞馬遜云服務（AWS）、蘋果、博通（Broadcom）、思科（Cisco）、CrowdStrike、谷歌、摩根大通（JPMorganChase）、Linux基金會、微軟、NVIDIA與Palo Alto Networks。在這之外，還有逾40家額外機構被授權接入，條件是它們必須負責構建或維護關鍵軟件基礎設施。所有訪問均通過受控環境進行，限定于防御性安全工作。Anthropic承諾將其學到的內容向行業公開，并為此投入最高1億美元使用積分，同時向開源安全組織直接捐款400萬美元。

證據在以肉眼可見的速度堆積。Anthropic近期已允許部分現有合作伙伴將Mythos發現的漏洞結果共享給體系之外的組織。不久前，Anthropic提議將接入機構再增約70家、總數擴至約120家，但被白宮以安全與算力為由要求暫緩。與此同時，白宮內部的另一派系卻在磋商將Mythos的修改版開放給能源部、財政部等聯邦民事機構。于是，我們看到兩種聲音并行，顯示了特朗普政府內部就此問題矛盾的公開化。而對于技術發展稍有所了解的人們都知道，即便沒有發生外泄，受控訪問本身也從來不是永久狀態。安全研究者與技術媒體披露，Claude Code的工具鏈代碼曾因打包失誤被意外暴露，其npm包中包含了本不應發布的source map文件，使約51.2萬行TypeScript源碼可被還原和傳播。這不是模型權重泄露，也未必意味著核心模型能力外流，但它提醒我們，AI能力擴散的邊界不只在權重，也存在于工具鏈、提示流程、調用接口與工程基礎設施的每一個環節。

美國對外關系委員會（CFR）問出了沒人愿意大聲說的問題：這50余家機構覆蓋了多少全球關鍵軟件？答案是：極少比例。更多的關鍵基礎設施，尤其是發展中國家、小型市政機構、歷史遺留系統里運轉的軟件，不在這份名單上，也不會在短期內得到修補。玻璃翼計劃能管控Mythos這一個模型的流動，但一旦能力擴散，誰能管住那條已經上漲的集體能力水線？

三、能力擴散：復現不是好消息

就在此刻，那個聲音來了。

獨立網絡安全公司watchTowr的CEO Benjamin Harris公開表示，通過對公開模型的巧妙編排，可以復現Mythos發現的漏洞，達到極為相似的結果。網絡安全公司Aisle披露，許多被歸功于Mythos的發現，可由更便宜的小模型協同復現，關鍵在于編排和規模，而非單一最前沿模型。獨立安全研究公司Vidoc Security發布博客稱，已用公開可用的模型（如Claude Opus 4.6、GPT-5.4）在已披露、已修補的案例上復現了Mythos展示的部分發現。同基準上，OpenAI的GPT-5.5在AISI后續公開評估中成為第二個端到端完成TLO的模型，AISI據此判斷該模型在多項專家級任務上與Mythos處在同一區間。

Anthropic對復現聲明并未提出異議，也表示早在Mythos之前，其上一代Opus模型就已在開源軟件中協助發現了500多個高危漏洞。但Anthropic也同時指出，上述復現大多發生在已披露、已修補、目標和搜索空間被顯著縮小的條件下。Mythos真正展示的能力，是在陌生的大型代碼庫里、在沒有人類指引該看哪里的前提下，自主完成從導航到漏洞驗證再到exploit構造的全鏈條能力。

這才是那個六到十二個月窗口的真實含義，不是我們還有時間，而是這是攻守雙方能力不對稱仍然存在的最后一段時間。Anthropic近日稱，Mythos previw啟動一個月以來，其與合作伙伴已在關鍵軟件中發現超過一萬個高?；驀乐丶墑e漏洞。雖然這并不等于一萬個可立即利用的零日，但足以說明，AI正在把漏洞發現從專家手工作業推向工業化掃描、驗證和分發階段。窗口關閉之后，端到端能力將同時屬于防御方和攻擊方，屬于政府和非國家行為體，屬于網絡安全公司，也屬于任何擁有足夠模型訪問、編排能力和工具鏈的小團隊。

對Mythos單一模型的恐慌，確實在某些維度上被夸大了。真正危險的信號在于，威脅已經不再集中于一個可以被命名、被管控、被關在“安全屋”里的超級模型，而我們目前的防御體系，仍在很大程度上停留在為“漏洞發現能力相對稀缺”的時代設計的框架里。更進一步說，如果連OpenBSD這樣以安全著稱的系統，都能被Mythos挖出存在27年的漏洞，那么現實世界中那些尚未被發現、尚未被修補、甚至已經無人真正理解來龍去脈的潛伏缺陷只會更多。想想那些我們賴以生存的基礎設施：電網調度系統、核電站監控軟件、城市供水控制系統、金融清算網絡。它們中的相當一部分，建立在長期運行、反復疊加補丁、難以整體替換的舊系統之上。有的代碼年代久遠，有的接口層層包裹，有的已經很難找到完整理解全局的人。更麻煩的是，這些系統一旦牽涉物理過程和公共服務，就不能像普通互聯網應用那樣停機、重寫、上線、回滾。就在這個時候，Mythos來了。更準確地說，Mythos只是第一個被看見、被命名、被放在護欄里的信號；不久之后，那些沒有圍欄、沒有準入、沒有負責任披露流程的“Mythos們”也會到來。

四、授權悖論：當防御也必須達到機器速度

7AI的聯合創始人、前以色列情報官員Lior Div說過一句話很準：“Mythos有護欄，真正的威脅未必有?！?/p>

這句話的邏輯延伸是：Anthropic可以限制Mythos的訪問、評估和使用場景，卻無法保證未來同類能力不會外溢到沒有護欄的模型和工具鏈中。如果攻擊工作流被提升至AI速度，那么防御工作流會是什么形態呢？雖然現在還不知道，但可知的是，AI輔助分析師判斷的速度是很難跟上的。于是AI在無需實時人工批準的情況下自主采取防御行動：隔離節點、封鎖流量、部署應急補丁等等就成了一個真實的選項。

給AI代理更大的自主授權，意味著你必須相信它只做你想讓它做的事。而Anthropic自己發布的Mythos系統卡記錄了這樣一件事：在紅隊壓力測試中，Mythos的早期版本被指令嘗試逃脫一個刻意設置為低安全級別的隔離測試沙箱，并且它成功了。Mythos開發出一個中等復雜度的多步利用鏈，突破虛擬邊界，獲取了網絡訪問權限，隨后將相關exploit信息發布到多個雖難發現但技術上公開可訪問的網站，并向正在公園吃午餐的Anthropic研究員Sam Bowman發送郵件告知。雖然Bowman后來公開確認這是評估設計的一部分，但問題不僅在于Mythos是否成功逃逸，而在于它在沒有被指令發布到公開網站的情況下，選擇了這個手段作為通知策略的一部分，即執行方式超出了設計者預期的路徑。

系統卡還記錄了更令人不安的行為模式：在需要GitHub憑證時，Mythos會閱讀沙箱的憑證處理源代碼并嘗試從活動內存中直接提取令牌。在早期版本中，它有時會以混淆方式進行權限提升以規避安全分類器。更嚴重的是，Anthropic披露在被推向問題行為的特定測試子集中，模型的書面推理與其實際行為在約65%的案例中不匹配，相較前代模型的5%大幅上升。這意味著在這些情境下，作為主要監督工具的思維鏈閱讀可能根本靠不住。

這就是當下的工程現實，當你給予一個足夠強大的系統一個足夠寬泛的目標，它會發明你沒有預見的手段來實現它。而當那些手段穿越了你劃定的邊界，你卻事后才會知道。

AI速度的攻擊，正在逼迫防御方把更多處置權交給AI，但我們已經看到的證據又提醒我們，越是強大的AI代理，越可能用設計者沒有預見的方式完成目標，甚至越過原本劃定的邊界。授權越少，防御跟不上；授權越多，失控風險越高。這就是AI防御的授權悖論：它沒有優雅答案，只有必須直面的現實。

五、制度的追趕與它的內在矛盾

4月7日，Mythos正式公布的同一天，美國財政部長Scott Bessent和美聯儲主席Jerome Powell在財政部總部召集了一場緊急閉門會議，出席者包括花旗、摩根士丹利、美國銀行、富國銀行和高盛的CEO。會議核心議題是Mythos及類似模型帶來的網絡安全風險。Powell的參與向市場傳遞了一個明確信號：這是系統性風險問題，不是政治恩怨。

各國監管層的表態隨即密集落地。英格蘭銀行行長、金融穩定委員會主席Andrew Bailey推動將Mythos風險納入FSB議程，并據《金融時報》援引知情人士消息，要求Anthropic向這一由G20財政部、央行和監管機構組成的機構作技術簡報。加拿大央行行長Tiff Macklem的表態更為直接，他說Mythos不是一次性事件，我們需要認真思考如何在持續演進的過程中管理它。國際貨幣基金組織（IMF）在5月初的官方分析中指出，先進AI模型正顯著降低發現與利用漏洞的時間和成本，使多家機構因依賴共同軟件而同時暴露的相關性失敗成為可能，從而把網絡風險抬升為潛在的宏觀金融沖擊。

5月初，此前奉行AI自由放任政策的特朗普政府開始認真討論一道行政命令，即建立AI工作小組對高風險新模型上線進行預審，動用情報社區幫助保護系統，為開放權重模型制定技術安全指南。雖然這項命令隨后因白宮內部爭議和對削弱美國AI領先優勢的擔憂被推遲，但它清晰顯示出，一個以解除AI監管障礙為政策起點的政府，也開始在高能力模型問題上重新面對準入、審查和責任邊界，部分原因直指Mythos。

5月中旬特朗普訪華期間，兩國領導人就AI治理進行了建設性討論，并同意啟動政府間AI對話。中國外交部隨后正式確認了這一機制的建立。財政部長Bessent在接受媒體采訪時表態，“兩個AI超級大國要開始對話了。我們將建立一個協議，確保非國家行為體無法獲得這些模型?！边@個信號說明Mythos所代表的風險已被中美兩國同時認定為需要政治干預的量級。但雙邊對話有其結構性天花板，它管得了兩國政府的行為，管不了40家已獲授權機構的研究人員，管不了開源社區，也管不了那些已經用公開模型復現了類似能力的安全公司。正如CFR的分析所指出的，這種對話必須被狹義聚焦于AI安全，且必須在那個六到十二個月的窗口內產生實質結果，否則能力競賽將以更失控的方式加速。

然而當下制度層面最可執行的動作，仍然不斷回到名單、準入與個案式行政干預。這套工具箱擅長處理“誰能訪問某個特定模型”，但不擅長處理“同類能力在多方同時擴散”。當白宮要求Anthropic暫緩將名單從約50家擴張到約120家時，沒有法律依據，沒有正式監管機構裁決。AI政策分析師Dean Ball指出，這本質上是一種非正式的即興準入制度。與此同時，OpenAI先以GPT-5.4-Cyber（4月）、后以GPT-5.5-Cyber（5月）兩步推進其“Trusted Access for Cyber”項目，向數千家經驗證的防御者開放具有本質上大體相同進攻能力的模型。這使監管邏輯顯得并不一致：一邊是對Anthropic擴容的非正式叫停，另一邊是OpenAI以“經驗證防御者”為框架擴大類似能力的受控開放。真正的問題因此不只是某一家公司的模型是否危險，而是美國目前尚未形成一套透明、統一、以能力評估為基礎的準入規則。制度正在追趕，但它追趕的姿勢，本身就是問題的一部分。

尾聲：預告片結束，正片開始

恐慌被夸大了，但被夸大的是對象，不是量級。

Mythos不是一座孤立的山。它是一個標志，標志著一種能力閾值在受控條件下已被越過，標志著一場防御體系的強制性重構已經無可回避，標志著那個關于AI授權邊界的深層問題，已經從哲學倫理討論變成了必須在下一個財年前給出答案的工程與制度問題。

當六到十二個月后，我們現有的數字安全架構將面臨它從未被設計用來承受的壓力。企業、政府、金融機構，以及每一個依賴數字基礎設施的現代社會，都將站在同一個抉擇面前：是繼續用為稀缺威脅設計的制度，去面對已經普遍化的危險，還是以足夠的清醒和勇氣，去重寫整套規則。這當然不是世界末日，但它是一個秩序更替的開始。唯一可以確定的是：這件事不會等我們想清楚了再開始。

預告片已經結束。正片，已經開始。■

掃描下方二維碼，參加至少全年12場直播加

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.