无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

最強(qiáng)黑客大模型,不再是Mythos

0
分享至


新智元報(bào)道

編輯:艾倫

【新智元導(dǎo)讀】微軟用一套多 Agent 系統(tǒng)在 AI 漏洞發(fā)現(xiàn)的頂級(jí)基準(zhǔn)測(cè)試上拿下第一,超過(guò) Anthropic 最強(qiáng)模型 Mythos 五個(gè)百分點(diǎn)。詭異的是,微軟自己并沒(méi)有一個(gè)能打的前沿模型。它用別人的模型組了個(gè)系統(tǒng),打敗了造出這些模型的公司。這對(duì)AI競(jìng)爭(zhēng)格局的啟示,比這個(gè)工具挖出了大量 Windows 漏洞本身更重要。

最強(qiáng)黑客大模型 Mythos,居然被黑馬超越了!

5 月 12 日,微軟發(fā)布了代號(hào) MDASH 的 AI 安全系統(tǒng),同時(shí)登頂 CyberGym 基準(zhǔn)測(cè)試榜首,成績(jī) 88.45%。

排在它后面的是 Anthropic 的 Mythos Preview(83.1%)和 OpenAI 的 GPT-5.5(81.8%)。


https://www.cybergym.io/

CyberGym 榜單上,Anthropic 用的是自家最強(qiáng)模型 Mythos,OpenAI 用的是自家最強(qiáng)模型 GPT-5.5。

微軟用的是什么?

答案是,別人家的模型。

微軟在博客里明確寫(xiě)道,MDASH 使用的全部是「generally available models」,即市面上公開(kāi)可用的模型。



https://www.microsoft.com/en-us/security/blog/2026/05/12/defense-at-ai-speed-microsofts-new-multi-model-agentic-security-system-tops-leading-industry-benchmark/

微軟自己并沒(méi)有一個(gè)能與 Mythos 或 GPT-5.5 競(jìng)爭(zhēng)的前沿模型。

在這張榜單上,如果微軟拿單個(gè)模型去跑,成績(jī)大概率會(huì)落到中下游。

但它組了一套系統(tǒng),調(diào)度 100 多個(gè)專(zhuān)業(yè)化 Agent,讓多個(gè)模型分工協(xié)作,跑出了比任何單一模型都高的分?jǐn)?shù)。

用別人的磚,蓋了最高的樓。

微軟已經(jīng)用這套工具,挖出了自家 Windows 11 系統(tǒng) 16 個(gè)高危漏洞!


遠(yuǎn)程執(zhí)行導(dǎo)致藍(lán)屏的漏洞 CVE-2026-33827 效果演示

這是個(gè)什么榜單

CyberGym 由 UC Berkeley 團(tuán)隊(duì)開(kāi)發(fā),論文發(fā)表在 ICLR 2026,是目前 AI 安全能力評(píng)估領(lǐng)域最權(quán)威的公開(kāi)基準(zhǔn)之一。


https://arxiv.org/pdf/2506.02548

Anthropic、OpenAI、Meta、智譜都在上面提交過(guò)成績(jī)。

測(cè)試方式很直接,給 AI 一段有已知漏洞的代碼和漏洞描述,讓它自己寫(xiě)出能觸發(fā)漏洞的攻擊代碼。

1507 道題,來(lái)自 188 個(gè)真實(shí)開(kāi)源項(xiàng)目。

能不能挖到漏洞、能不能證明它可被利用,一測(cè)便知。

一個(gè)細(xì)節(jié)值得留意,榜單成績(jī)由各公司自行提交,基準(zhǔn)代碼公開(kāi)但無(wú)獨(dú)立第三方驗(yàn)證。

多 Agent 系統(tǒng)的強(qiáng)大能力

MDASH 帶來(lái)的核心啟示:「系統(tǒng)」可以抹平甚至反超「模型」的差距。

Anthropic 花了巨大的研發(fā)投入訓(xùn)練出 Mythos,這是目前公認(rèn)的安全領(lǐng)域最強(qiáng)單一模型,強(qiáng)到 Anthropic 自己都不敢公開(kāi)發(fā)布,只通過(guò)一個(gè)叫 Project Glasswing 的聯(lián)盟向少數(shù)公司定向開(kāi)放。

OpenAI 的 GPT-5.5 同樣是傾全公司之力訓(xùn)出的前沿模型。

微軟沒(méi)有這樣的模型。

但它有一套流水線,把「準(zhǔn)備→掃描→驗(yàn)證→去重→證明」五個(gè)階段拆開(kāi),每個(gè)階段用不同的 Agent、不同的模型去跑。

審計(jì) Agent 和辯論 Agent 分開(kāi),發(fā)現(xiàn)漏洞和證明漏洞分開(kāi),重度推理用大模型、高頻驗(yàn)證用蒸餾小模型。


關(guān)鍵在于,這套系統(tǒng)對(duì)底層模型不綁定。

新模型出來(lái),換個(gè)配置跑 A/B 測(cè)試就行,前面積累的所有工程資產(chǎn)全部復(fù)用。

微軟在博客里特別強(qiáng)調(diào)了這一點(diǎn)——「the model is one input」,模型只是眾多輸入之一。


這對(duì) Anthropic 和 OpenAI 構(gòu)成一種新型威脅。

它們燒了天文數(shù)字的美元訓(xùn)出來(lái)的模型優(yōu)勢(shì),被一個(gè)系統(tǒng)層的競(jìng)爭(zhēng)者用工程手段消解了。

更扎心的是,微軟用的還是它們自己的模型。

這將對(duì) ASI 終局帶來(lái)哪些潛在變數(shù)

在前沿模型這張牌桌上,真正有籌碼的只有 Anthropic 和 OpenAI。

微軟雖然是 OpenAI 最大的投資方和云計(jì)算合作伙伴,但它自己并沒(méi)有訓(xùn)出過(guò)一個(gè)真正進(jìn)入第一梯隊(duì)的旗艦大模型。

這次 CyberGym 的結(jié)果把一個(gè)問(wèn)題擺上了臺(tái)面,通往 ASI 的路徑,到底是一條還是兩條?

路徑一是 Anthropic 和 OpenAI 正在走的,把單一模型推到極致。

Mythos 在安全領(lǐng)域的能力已經(jīng)強(qiáng)到需要限制發(fā)布,GPT-5.5 在多個(gè)基準(zhǔn)上持續(xù)刷新紀(jì)錄。


Mythos 僅通過(guò) Project Glasswing 測(cè)試

這條路需要海量算力、海量數(shù)據(jù)、頂尖的研究團(tuán)隊(duì),門(mén)檻極高。

路徑二就是微軟用 MDASH 展示的,不追求造出最強(qiáng)的單一模型,轉(zhuǎn)而構(gòu)建一個(gè)能把現(xiàn)有模型能力最大化的系統(tǒng)。

100 多個(gè) Agent 各司其職,模型之間的分歧變成信號(hào),多階段流水線把單次推理做不到的事情通過(guò)任務(wù)分解實(shí)現(xiàn)。

MDASH 的成績(jī)證明了路徑二至少在特定領(lǐng)域是可行的。

但這不代表路徑二可以替代路徑一。

MDASH 用的底層模型仍然來(lái)自路徑一的公司。

如果 Anthropic 和 OpenAI 停止訓(xùn)練更強(qiáng)的模型,MDASH 的天花板也會(huì)停滯。

這件事不只關(guān)乎微軟

多 Agent 系統(tǒng)作為一種范式,正在從實(shí)驗(yàn)走向生產(chǎn)。

MDASH 團(tuán)隊(duì)的多位核心成員來(lái)自 Team Atlanta,就是在 DARPA AI 網(wǎng)絡(luò)挑戰(zhàn)賽中贏得 2950 萬(wàn)美元獎(jiǎng)金的隊(duì)伍。

他們驗(yàn)證過(guò)的一個(gè)核心判斷是,讓 AI 做到專(zhuān)業(yè)級(jí)別的安全審計(jì),工程量遠(yuǎn)超模型本身。

微軟這次同時(shí)公布了 16 個(gè)由 MDASH 輔助發(fā)現(xiàn)的 Windows 漏洞,其中 4 個(gè)是 Critical(關(guān)鍵)級(jí)別的遠(yuǎn)程代碼執(zhí)行。

這些漏洞大多可以在無(wú)需認(rèn)證的情況下從網(wǎng)絡(luò)側(cè)觸發(fā),已在 5 月 Patch Tuesday 中修復(fù)。

在內(nèi)部回溯測(cè)試中,MDASH 對(duì) Windows 核心組件 clfs.sys 過(guò)去五年的已確認(rèn)漏洞召回率達(dá)到 96%,tcpip.sys 達(dá)到 100%。


這些數(shù)字的分量在于,它們來(lái)自實(shí)戰(zhàn),不只是跑分。

16 個(gè) CVE 已經(jīng)進(jìn)入微軟的正式補(bǔ)丁流程,96% 的召回率對(duì)標(biāo)的是過(guò)去五年真實(shí)被攻擊者利用過(guò)的漏洞。

微軟在博客中說(shuō),以后的 Patch Tuesday 會(huì)越來(lái)越大。

AI 正在加速漏洞發(fā)現(xiàn)的速度,補(bǔ)丁規(guī)模自然水漲船高。

這句話的另一面同樣成立,攻擊者也能用同樣的技術(shù)。

MDASH 用的全是公開(kāi)可用的模型,沒(méi)有任何技術(shù)上的獨(dú)占壁壘。

還該關(guān)注些什么

對(duì)行業(yè)來(lái)說(shuō),MDASH 的意義大于 MDASH 本身。

它驗(yàn)證了一個(gè)猜想:在 AI 能力的下一階段競(jìng)爭(zhēng)中,「圍繞模型構(gòu)建系統(tǒng)」可能和「訓(xùn)練更強(qiáng)模型」同等重要。

這對(duì)三類(lèi)人有不同的含義。

對(duì)模型公司(Anthropic、OpenAI),它敲響了一個(gè)警鐘。

模型能力的領(lǐng)先不能自動(dòng)轉(zhuǎn)化為應(yīng)用層的領(lǐng)先。

別人可以用你的模型,在你的地盤(pán)上贏你。

對(duì)平臺(tái)公司(谷歌、微軟),它指出了一條差異化路徑。

沒(méi)有最強(qiáng)模型?沒(méi)關(guān)系,構(gòu)建最強(qiáng)系統(tǒng)。

但前提是,你得深刻理解具體領(lǐng)域的工程細(xì)節(jié),100 多個(gè) Agent 的分工設(shè)計(jì)、領(lǐng)域插件、驗(yàn)證流水線,這些東西的積累門(mén)檻同樣很高。

對(duì)普通用戶(hù),這件事的直接影響很簡(jiǎn)單,及時(shí)打補(bǔ)丁,否則不懂技術(shù)的人也能借助 AI 利用這類(lèi)漏洞。

MDASH 目前也像 Mythos 和 GPT-5.5 Cyber 一樣,正在進(jìn)行小范圍客戶(hù)私測(cè),微軟未公布定價(jià)和正式發(fā)布時(shí)間。

參考資料:

https://www.microsoft.com/en-us/security/blog/2026/05/12/defense-at-ai-speed-microsofts-new-multi-model-agentic-security-system-tops-leading-industry-benchmark/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
暴跌5000萬(wàn)!直接棄用,史上最廢全明星...

暴跌5000萬(wàn)!直接棄用,史上最廢全明星...

左右為籃
2026-05-15 12:34:56
離譜!羅永浩復(fù)更海外平臺(tái)被嘲諷,演都不演了

離譜!羅永浩復(fù)更海外平臺(tái)被嘲諷,演都不演了

雷科技
2026-05-14 11:59:58
長(zhǎng)期吸煙又堅(jiān)持喝茶的人,結(jié)局都如何?茶葉能消除煙酒危害嗎?

長(zhǎng)期吸煙又堅(jiān)持喝茶的人,結(jié)局都如何?茶葉能消除煙酒危害嗎?

房產(chǎn)衫哥
2026-05-15 10:45:50
回聲報(bào):麥卡、遠(yuǎn)藤航、阿利松等10人可能在今夏離開(kāi)利物浦

回聲報(bào):麥卡、遠(yuǎn)藤航、阿利松等10人可能在今夏離開(kāi)利物浦

懂球帝
2026-05-15 13:11:18
巴西記者:若安帥征召內(nèi)馬爾,被擠出名單的將是安德雷-桑托斯

巴西記者:若安帥征召內(nèi)馬爾,被擠出名單的將是安德雷-桑托斯

懂球帝
2026-05-15 09:21:06
中使館提醒:一次沉迷,終生悔恨!歡迎舉報(bào)或自首

中使館提醒:一次沉迷,終生悔恨!歡迎舉報(bào)或自首

南方都市報(bào)
2026-05-15 08:19:03
星鏈可以當(dāng)GPS用?馬斯克:居然被你們發(fā)現(xiàn)了,5月20日就關(guān)掉!

星鏈可以當(dāng)GPS用?馬斯克:居然被你們發(fā)現(xiàn)了,5月20日就關(guān)掉!

徐德文科學(xué)頻道
2026-05-13 20:29:16
童瑤和繼子“水火不容”!李純陳思誠(chéng)的“夜會(huì)門(mén)”!

童瑤和繼子“水火不容”!李純陳思誠(chéng)的“夜會(huì)門(mén)”!

八卦瘋叔
2026-05-15 11:51:06
求人辦事有個(gè)隱秘的鐵律:別人幫不幫你,看的從來(lái)不是關(guān)系鐵不鐵,而是你開(kāi)口那一刻釋放的這兩個(gè)“信號(hào)”

求人辦事有個(gè)隱秘的鐵律:別人幫不幫你,看的從來(lái)不是關(guān)系鐵不鐵,而是你開(kāi)口那一刻釋放的這兩個(gè)“信號(hào)”

心理觀察局
2026-05-15 08:41:09
廣州一網(wǎng)紅粥店被曝將鐵鍋當(dāng)水桶、用掃把洗鍋,同一把掃把還洗墻、掃地,食客直呼惡心:“那口鍋剛炒完粉”;商家暫未回應(yīng)

廣州一網(wǎng)紅粥店被曝將鐵鍋當(dāng)水桶、用掃把洗鍋,同一把掃把還洗墻、掃地,食客直呼惡心:“那口鍋剛炒完粉”;商家暫未回應(yīng)

極目新聞
2026-05-14 21:41:34
當(dāng)著全球的面,朝鮮立最高鐵律:只要我被“斬首”,核彈立刻升空

當(dāng)著全球的面,朝鮮立最高鐵律:只要我被“斬首”,核彈立刻升空

小噎論事
2026-05-12 15:24:59
長(zhǎng)得漂亮卻壞事做盡,三次入獄,被摘除4處器官的她,如今怎樣

長(zhǎng)得漂亮卻壞事做盡,三次入獄,被摘除4處器官的她,如今怎樣

地球記
2026-05-14 04:32:28
從教15年,我終于看清:“從不補(bǔ)課”的年級(jí)第一,到底騙了多少人

從教15年,我終于看清:“從不補(bǔ)課”的年級(jí)第一,到底騙了多少人

戶(hù)外阿毽
2026-05-14 11:52:08
大局已定!中美經(jīng)貿(mào)會(huì)談結(jié)果出爐!

大局已定!中美經(jīng)貿(mào)會(huì)談結(jié)果出爐!

李榮茂
2026-05-14 18:42:36
買(mǎi)得起修不起!4400萬(wàn)新能源車(chē)主被困4S店,車(chē)企鎖死代碼壟斷維修

買(mǎi)得起修不起!4400萬(wàn)新能源車(chē)主被困4S店,車(chē)企鎖死代碼壟斷維修

墨印齋
2026-05-14 07:40:25
4年3億美元超級(jí)合同遭文班亞馬拒絕,他的野心早已寫(xiě)在臉上

4年3億美元超級(jí)合同遭文班亞馬拒絕,他的野心早已寫(xiě)在臉上

郝小小看體育
2026-05-15 06:33:32
高奢版售價(jià)或超10萬(wàn)元!追覓手機(jī)預(yù)計(jì)今年發(fā)布,創(chuàng)始人俞浩揚(yáng)言要與蘋(píng)果、三星三分天下,最終必將超越蘋(píng)果4萬(wàn)億美元市值

高奢版售價(jià)或超10萬(wàn)元!追覓手機(jī)預(yù)計(jì)今年發(fā)布,創(chuàng)始人俞浩揚(yáng)言要與蘋(píng)果、三星三分天下,最終必將超越蘋(píng)果4萬(wàn)億美元市值

大風(fēng)新聞
2026-05-14 13:40:08
女性“巨陰癥”可以生育嗎?醫(yī)生:主要看3種情況,不妨了解一下

女性“巨陰癥”可以生育嗎?醫(yī)生:主要看3種情況,不妨了解一下

健康科普365
2026-05-03 09:30:28
人民大會(huì)堂攤牌時(shí)刻:當(dāng)著特朗普的面對(duì)臺(tái)灣劃下紅線,中方話說(shuō)死

人民大會(huì)堂攤牌時(shí)刻:當(dāng)著特朗普的面對(duì)臺(tái)灣劃下紅線,中方話說(shuō)死

蘭亭墨未干
2026-05-15 11:52:26
突然情緒失控!深圳一男子持刀暴力抗法,行拘5日

突然情緒失控!深圳一男子持刀暴力抗法,行拘5日

南方都市報(bào)
2026-05-15 10:25:00
2026-05-15 13:36:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15218文章數(shù) 66869關(guān)注度
往期回顧 全部

科技要聞

兩年聯(lián)姻一地雞毛,傳蘋(píng)果OpenAI瀕臨決裂

頭條要聞

歡迎宴會(huì)座位公開(kāi):馬斯克黃仁勛與中國(guó)企業(yè)家同桌吃飯

頭條要聞

歡迎宴會(huì)座位公開(kāi):馬斯克黃仁勛與中國(guó)企業(yè)家同桌吃飯

體育要聞

德約科維奇買(mǎi)的球隊(duì),從第6級(jí)聯(lián)賽升入法甲

娛樂(lè)要聞

方媛回應(yīng)住男生單人間:女孩的配得感

財(cái)經(jīng)要聞

特朗普的北京時(shí)刻

汽車(chē)要聞

雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

態(tài)度原創(chuàng)

藝術(shù)
健康
旅游
數(shù)碼
軍事航空

藝術(shù)要聞

一個(gè)北大 “反卷教授” 的意外走紅

專(zhuān)家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險(xiǎn)

旅游要聞

天壇“同款機(jī)位”,成為熱門(mén)打卡點(diǎn)

數(shù)碼要聞

佰維M560靈梭SSD評(píng)測(cè):?jiǎn)蚊骖w粒+5.2W低功耗,筆記本擴(kuò)容實(shí)力之選

軍事要聞

烏克蘭首都基輔遭空襲 死亡人數(shù)增至12人

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版