无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Cyber天花板被打穿!AISI實測Mythos能力正以4.5月翻倍速沖向ASI

0
分享至


新智元報道

編輯:定慧 大衛

【新智元導讀】英國AI安全研究所(AISI)昨天扔下重磅炸彈:Mythos在模擬企業內網32步滲透任務中10次過6,GPT-5.5也跟著10次過3,連此前所有模型都沒破過的Cooling Tower靶場都被首次攻破!更炸的是——Cyber能力翻倍周期一路壓到4.5個月,瓶頸不是智力,是Token。這場ASI決賽,人類評測已經追不上AI了。

AI模型的網絡攻防能力發展有多快?

昨天,英國AI安全研究所(AISI)發了一篇博客。

他們實測了Anthropic的Mythos和OpenAI的GPT-5.5。

發現這些模型的網絡攻防能力4.5月就能翻一倍,加速沖向ASI!


一句話:前沿AI模型的自主網絡攻擊能力正在超級加速,翻倍周期已經從幾年、幾個月壓到4.5個月。

實際上,我們離想象中的天網并不遙遠。


Anthropic的前沿紅隊負責人Logan Graham也指出:

Claude Mythos預覽版在自主網絡安全能力上實現了階躍式突破。

我們需要迅速為具備這種能力水平的模型世界做好準備


上一次這個數字還是8個月,那是2025年11月的估算。

到2026年2月,縮到4.7個月。

現在Mythos和GPT-5.5的成績一出,AISI自己都表示:

不確定這是一次性的跳躍,還是一條更陡的新趨勢線。

翻譯成人話:他們也不知道AI還會不會繼續加速。

32步滲透,Mythos十次過六

AISI用了一套分層測試體系

窄域網絡安全套件(narrow cyber suite)覆蓋逆向工程和Web漏洞利用,單任務上限12小時,每次調用限制2.5M Token。

但真正炸場的是兩個模擬企業內網的攻防靶場。


第一個叫The Last Ones。

32個步驟,模擬一次完整的企業內網滲透鏈,從初始突破到橫向移動到最終目標。

AISI估算,一個人類安全專家走完全流程大約需要20小時。


Mythos Preview,10次嘗試,成功6次。

GPT-5.5,10次嘗試,成功3次。

第二個靶場叫Cooling Tower。

之前所有模型都沒通過。

Mythos是第一個破關的,10次嘗試成功3次。


這不是論文里的理論推演。

這是一個已經部署上線的模型,在模擬真實企業環境里,獨立完成了人類安全專家級別的滲透任務。

Glasswing項目負責人Logan Graham確認,測試用的這個Mythos checkpoint,就是一個月前隨Project Glasswing上線的版本。

外界現在看到的攻防能力,不是實驗室里的原型,是正在跑著的生產模型。

就在你的Claude APP里。

看下實驗結果。

下圖上有兩條紅色虛線(dotted),標著best attempt(最上面)。

那是Mythos Preview (new) 和GPT-5.5-Cyber在10次嘗試里跑出來的最佳單次成績。

這條虛線一路沖到了縱軸頂部——32步,封頂。

也就是說:在最好的那一次嘗試里,Mythos完整打穿了整條32步滲透鏈——從初始偵察,到完全網絡接管。



4.5個月翻一倍,METR交叉驗證

AISI算翻倍周期的方法不復雜。

他們測量的是80%可靠性網絡時間跨度——模型能以80%的成功率獨立完成的最長網絡任務時長。

把歷史上多個模型的成績畫到時間軸上,擬合指數曲線,算出翻倍時間。

從2025年11月的8個月,到2026年2月的4.7個月。

Mythos和GPT-5.5的數據點一加進去,曲線又陡了一截。

獨立評估機構METR的基準測試給出了交叉驗證。


他們從軟件工程任務角度追蹤AI能力增長,算出的翻倍周期是4.2個月(從o1-preview算起),如果把Mythos也納入,縮到4個月。

兩條完全獨立的評估線,在同一個數量級上碰頭了。

AISI的原話:

前沿模型能夠自主完成的網絡任務時長,翻倍周期是以月計的,不是以年計。

Token是天花板,不是智力

這份報告里最讓人不安的不是數字本身,是AISI對瓶頸的判斷。

窄域測試套件里,每個任務限制2.5M Token。

AISI明確寫了:這個上限人為壓低了成功率。

在攻防靶場實驗里,Token上限放到了100M。

Mythos的表現立刻跳了一個臺階

意思是,當前制約AI網絡攻擊能力的不是算法,不是推理深度,不是智能上限——是Token預算。

給夠Token,模型就能走得更遠。


AISI自己也承認了測試體系的局限:

最長任務只有12小時,超出這個范圍的能力無法衡量;人類基線數據有限;agent腳手架過于簡單,人為約束了模型發揮。

換句話說,真實能力很可能比測出來的還要高。

這就是為什么報告的結論用了翻倍而不是接近天花板。

他們沒有看到天花板。


評測在追,模型在跑

把Logan Graham那句話再拎出來看一遍。


測試用的Mythos checkpoint,一個月前就上線了。


AISI的評估報告昨天才發。

這中間隔了整整一個月。

而在這一個月里,Anthropic大概率已經迭代了新的checkpoint。

當安全評估結果公開的那一刻,被評估的版本已經是舊的了。


這不是AISI一家的困境。

整個AI安全評測領域都在面對同一個結構性問題:

模型迭代速度正在系統性地超越安全評估周期。

評估結果發布時,告訴你的是上個月的模型能做到什么。

它沒法告訴你現在的模型能做到什么。

AISI在報告里用了一個很謹慎的表述:

他們不確定Mythos和GPT-5.5的跳躍是孤立的突破還是新的更快趨勢

AI模型決賽階段的新變量

Anthropic的Mythos和OpenAI的GPT-5.5,在網絡攻防能力上都展現了指數級增長。

Mythos領先一個身位——6/10 vs 3/10,且獨家攻破了Cooling Tower靶場——但GPT-5.5同樣在快速追趕。

雙雄在能力層面狂飆,安全治理層面卻出現了一個越拉越大的缺口。

不到半年,4.5個月就能翻一倍。

這個速度意味著,到2026年底,前沿模型能自主完成的網絡任務復雜度,將是現在的4到8倍。

當一個AI模型能在沒有人類干預的情況下,獨立完成一個訓練有素的安全專家需要20小時才能走完的滲透鏈,全球每一個連著網線的企業都應該重新審視自己的防線。

AISI介紹

AISI的身份是全球首個國家級前沿AI風險評估機構。


2023年11月 Bletchley峰會成立,2024年05月, 由Safety改名為Security,隸屬英國DSIT。

AISI的主要職能是網絡/生化/自主行為/欺騙傾向的獨立評估。

最關鍵的是,他們能拿到OpenAI、Anthropic、DeepMind等頂級模型公司的pre-deployment訪問權,也就是說,他們是這些最先進模型的第一批訪問者。

ASI,即Artifical Super Intelligence,超(級)人工智能。

參考資料:

https://www.aisi.gov.uk/blog/how-fast-is-autonomous-ai-cyber-capability-advancing

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這是中美關系新定位

這是中美關系新定位

海外網
2026-05-14 16:49:02
40億索賠壓頂!國際足聯高管赴京,中國贊助商5億投入或打水漂?

40億索賠壓頂!國際足聯高管赴京,中國贊助商5億投入或打水漂?

墨蘭史書
2026-05-14 12:45:06
他是原江西省委書記,主政江西36年,百姓念他一輩子,享年99歲

他是原江西省委書記,主政江西36年,百姓念他一輩子,享年99歲

近史談
2026-05-14 12:24:27
他們給得太多了!37歲萊萬拒與巴薩續約 轉投C羅死敵:年薪7億元

他們給得太多了!37歲萊萬拒與巴薩續約 轉投C羅死敵:年薪7億元

風過鄉
2026-05-14 06:30:19
中方正式通告191國,臺灣地區不準參加世衛大會,鄭麗文表明立場

中方正式通告191國,臺灣地區不準參加世衛大會,鄭麗文表明立場

云上烏托邦
2026-05-14 20:31:46
麥當勞神創意!2根薯條海報致敬MJ爆火,近8萬點贊!網友:放國內甲方直接駁回

麥當勞神創意!2根薯條海報致敬MJ爆火,近8萬點贊!網友:放國內甲方直接駁回

品牌新
2026-05-14 09:13:57
1951年,公安在一癱瘓老人家發現一勛章,彭真:只剩一口氣也要抓

1951年,公安在一癱瘓老人家發現一勛章,彭真:只剩一口氣也要抓

浩渺青史
2026-05-14 16:10:08
100%概率奪冠?CBA這鐵律太驚人了:北上廣深誰將笑到最后?

100%概率奪冠?CBA這鐵律太驚人了:北上廣深誰將笑到最后?

夢憶之淺
2026-05-14 12:21:35
深圳6歲男童吃生菜包肉后全身青斑血腫!吃烤肉+生菜前這4點一定要牢記

深圳6歲男童吃生菜包肉后全身青斑血腫!吃烤肉+生菜前這4點一定要牢記

消化石醫生
2026-05-14 20:25:44
落地的鳳凰不如雞?看離開央視為錢奔波的李思思,康輝的話沒說錯

落地的鳳凰不如雞?看離開央視為錢奔波的李思思,康輝的話沒說錯

草莓信箱
2026-05-14 17:45:55
迄今為止,天安門城樓上只掛過12個人畫像,其中一人僅掛了1天

迄今為止,天安門城樓上只掛過12個人畫像,其中一人僅掛了1天

文史達觀
2025-05-08 12:39:14
遼籃首筆續約!找到高詩巖接班人,場均6.7分,8年熬走兩任教練

遼籃首筆續約!找到高詩巖接班人,場均6.7分,8年熬走兩任教練

體壇大事記
2026-05-14 08:58:39
美軍放下傲慢赴烏克蘭學習無人機技術,俄對烏發起最大規模空襲

美軍放下傲慢赴烏克蘭學習無人機技術,俄對烏發起最大規模空襲

史政先鋒
2026-05-14 11:49:04
日媒:穆帥點名日本中場守田英正,球員被納入皇馬引援名單

日媒:穆帥點名日本中場守田英正,球員被納入皇馬引援名單

懂球帝
2026-05-13 21:34:36
以色列安全部長:需有人告訴亞馬爾,他舉了一個不存在政權的旗幟

以色列安全部長:需有人告訴亞馬爾,他舉了一個不存在政權的旗幟

懂球帝
2026-05-13 20:10:42
醫生發現:老人若開始不吃肥肉,用不了多久,身體或有5大轉變

醫生發現:老人若開始不吃肥肉,用不了多久,身體或有5大轉變

路醫生健康科普
2026-05-14 17:44:41
徐子淇老的不忍直視!和李家誠一起看望楊受成,眼袋重皮膚冒油光

徐子淇老的不忍直視!和李家誠一起看望楊受成,眼袋重皮膚冒油光

小娛樂悠悠
2026-05-13 11:14:18
中美之爭將落幕?現實比想象殘酷:美國并非輸了,是下不了牌桌了

中美之爭將落幕?現實比想象殘酷:美國并非輸了,是下不了牌桌了

觀史搜尋著
2026-05-14 09:06:50
巴薩過分了!客場0-1放水,榜尾8隊差3分,西甲保級亂套了

巴薩過分了!客場0-1放水,榜尾8隊差3分,西甲保級亂套了

體育知多少
2026-05-14 07:36:19
網傳某地事業編欠薪10個月,社保斷繳已鬧上百姓呼聲!

網傳某地事業編欠薪10個月,社保斷繳已鬧上百姓呼聲!

燈錦年
2026-05-13 19:39:30
2026-05-14 21:16:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15211文章數 66867關注度
往期回顧 全部

科技要聞

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

頭條要聞

老人攜帶170萬"現金"到銀行存款 柜員發現全是練功券

頭條要聞

老人攜帶170萬"現金"到銀行存款 柜員發現全是練功券

體育要聞

爭議抽象天王山,和季后賽最穩定中鋒

娛樂要聞

何九華官宣當爸!全程不提孩子媽

財經要聞

李強會見美國工商界代表

汽車要聞

雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

態度原創

教育
藝術
旅游
本地
房產

教育要聞

網傳西城中考裸分第一?!這所黑馬名校憑什么刷屏家長圈

藝術要聞

美國務卿魯比奧點贊中式美學,實景令人驚嘆!

旅游要聞

自貢第七屆原創短視頻大賽走進大安:不是馬爾代夫去不起,而是“牛爾代夫”更有性價比!

本地新聞

用蘇繡的方式,打開江西婺源

房產要聞

海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

無障礙瀏覽 進入關懷版