181比2。同一批Firefox漏洞,Opus 4.6成功寫出利用代碼2次,Mythos Preview干了181次。Anthropic沒給它上任何黑客課,這能力是自己長出來的。
一個寫代碼的模型,怎么就成了頂級安全研究員?
這事得從Anthropic的訓(xùn)練目標(biāo)說起。Mythos Preview的設(shè)計初衷是精英級代碼生成和軟件工程能力——寫得好、寫得穩(wěn)、寫得能跑。網(wǎng)絡(luò)安全能力屬于"副作用",就像你沒教鎖匠怎么撬門,但他把鎖的物理結(jié)構(gòu)摸透了,開鎖自然跟著來。
Anthropic自己的比喻很準(zhǔn):掌握鎖的物理原理到極致,破門而入是順理成章的事。這不是理論推測,是測得出來、復(fù)現(xiàn)得了的能力躍遷。他們發(fā)了一份萬字技術(shù)報告,還對特定未修補(bǔ)漏洞做了加密承諾——防止有人質(zhì)疑是事后諸葛亮。
三個數(shù)字背后的質(zhì)變
SWE-bench從80.8%跳到93.9%,網(wǎng)絡(luò)安全基準(zhǔn)從66.6%漲到83.1%。這兩個數(shù)字已經(jīng)夠亮眼,但真正嚇人的是第三個:Firefox漏洞利用開發(fā),從2次成功到181次。
差距不止在成功率。Opus是"發(fā)現(xiàn)漏洞",Mythos是"發(fā)現(xiàn)漏洞并自動構(gòu)建完整利用代碼,除最初提示外零人工干預(yù)"。一個是識別問題,一個是端到端解決問題。
具體案例比抽象描述更有沖擊力。OpenBSD一個藏了27年的漏洞,這系統(tǒng)主打的就是安全;FFmpeg一個16年的漏洞,這庫被fuzz測試到連學(xué)術(shù)論文都專門研究怎么測媒體解碼器。數(shù)百萬自動化測試沒逮住它們,Mythos幾周搞定。
最狠的是FreeBSD那例。NFS服務(wù)器里一個17年歷史的遠(yuǎn)程代碼執(zhí)行漏洞,未認(rèn)證遠(yuǎn)程用戶直接拿root權(quán)限。Mythos全程自主發(fā)現(xiàn)、自主構(gòu)建完整利用,初始提示之后沒人碰過鍵盤。整輪運(yùn)行成本不到1000美元。
漏洞串聯(lián)才是殺招。大多數(shù)自動化工具只能標(biāo)出孤立缺陷,Mythos能把三四個、甚至五六個小漏洞串成完整攻擊鏈——這正是頂尖人類黑客的打法。這需要理解漏洞之間的依賴關(guān)系,需要判斷哪個組合能繞過防御層,需要像建筑師一樣思考,只是建的是炸彈。
Glasswing:Anthropic的"玻璃翅膀"方案
能力出來了,怎么放出來?Anthropic搞了個叫Project Glasswing的部署框架,名字取自玻璃翅蝴蝶——透明、脆弱、需要特定環(huán)境才能活。
核心設(shè)計是分層暴露。不是一次性把模型扔到開源社區(qū),而是按場景、按風(fēng)險等級逐步開放。高危能力先鎖在受控環(huán)境里,用的人得實名、得申請、得被審計。Mythos Preview目前就關(guān)在這種"玻璃溫室"里,只有特定安全研究者能接觸。
這跟OpenAI的o3、Google的Gemini思路不同。后者傾向于能力越強(qiáng)、越要藏;Anthropic想的是能力越強(qiáng)、越要結(jié)構(gòu)化地露。Glasswing的透明性體現(xiàn)在:你知道模型能干什么,官方也知道你知道,雙方在對等的信息基礎(chǔ)上做決策。
「我們不是在訓(xùn)練黑客,我們在訓(xùn)練理解。」Anthropic技術(shù)報告里這句話值得細(xì)品。理解系統(tǒng)如何構(gòu)建,必然包含理解系統(tǒng)如何崩潰。這是能力的兩面性,不是bug,是feature——只是這個feature太危險了。
27年為什么沒人發(fā)現(xiàn)
OpenBSD那個27年老洞,F(xiàn)reeBSD那個17年漏洞,F(xiàn)Fmpeg那個16年問題——它們不是沒被人看過。OpenBSD的代碼審計密度在開源界數(shù)一數(shù)二,F(xiàn)Fmpeg是fuzz測試的標(biāo)桿案例,論文一搜一大把。
傳統(tǒng)安全工具的盲區(qū)在于:它們被訓(xùn)練找"看起來像漏洞"的模式。Mythos被訓(xùn)練的是"這段代碼想干什么",然后從意圖和實現(xiàn)的偏差里找突破口。一個是模式匹配,一個是語義理解。
類比的話,傳統(tǒng)工具像安檢儀查違禁品形狀,Mythos像讀懂了旅客的微表情。前者漏掉偽裝成日常物品的危險品,后者從"這人為什么緊張"里發(fā)現(xiàn)異常。
成本維度更刺激。那個FreeBSD root漏洞,發(fā)現(xiàn)加利用開發(fā),全程不到1000美元。請一個頂尖安全研究員干同樣的事,報價后面得加幾個零。規(guī)模化之后,攻防成本曲線會怎么偏?
emergent capability(涌現(xiàn)能力)這個詞被用爛了,但Mythos是少數(shù)配得上它的案例。不是更大參數(shù)堆出來的量變,是訓(xùn)練目標(biāo)和能力表現(xiàn)之間的非預(yù)期跳躍。 Anthropic想造更好的程序員,副產(chǎn)品是更好的黑客——這副產(chǎn)品比主業(yè)還嚇人。
技術(shù)報告里有個細(xì)節(jié):Mythos在某些任務(wù)上會"過度思考"。給它一個簡單漏洞,它可能先分析整個系統(tǒng)架構(gòu),再定位弱點,最后才動手。人類研究員會覺得這效率低,但正是這種"冗余"讓它能發(fā)現(xiàn)人類跳過的角落。
Glasswing框架還在實驗階段。Anthropic沒承諾什么時候公開Mythos,甚至沒承諾一定會公開。但報告里的加密承諾暗示了一件事:他們手里還握著沒披露的漏洞,作為未來透明度的抵押品。
這操作本身就很產(chǎn)品經(jīng)理思維——用技術(shù)機(jī)制解決信任問題,而不是靠公關(guān)話術(shù)。
最后一個問題留給讀者:當(dāng)AI找漏洞的成本降到千美元級別,而修補(bǔ)漏洞的周期仍以月計算,防御方的窗口期還剩多少?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.