![]()
新智元報道
編輯:定慧 大衛
【新智元導讀】英國AI安全研究所(AISI)昨天扔下重磅炸彈:Mythos在模擬企業內網32步滲透任務中10次過6,GPT-5.5也跟著10次過3,連此前所有模型都沒破過的Cooling Tower靶場都被首次攻破!更炸的是——Cyber能力翻倍周期一路壓到4.5個月,瓶頸不是智力,是Token。這場ASI決賽,人類評測已經追不上AI了。
AI模型的網絡攻防能力發展有多快?
昨天,英國AI安全研究所(AISI)發了一篇博客。
他們實測了Anthropic的Mythos和OpenAI的GPT-5.5。
發現這些模型的網絡攻防能力4.5月就能翻一倍,加速沖向ASI!
![]()
一句話:前沿AI模型的自主網絡攻擊能力正在超級加速,翻倍周期已經從幾年、幾個月壓到4.5個月。
實際上,我們離想象中的天網并不遙遠。
![]()
Anthropic的前沿紅隊負責人Logan Graham也指出:
Claude Mythos預覽版在自主網絡安全能力上實現了階躍式突破。
我們需要迅速為具備這種能力水平的模型世界做好準備。
![]()
上一次這個數字還是8個月,那是2025年11月的估算。
到2026年2月,縮到4.7個月。
現在Mythos和GPT-5.5的成績一出,AISI自己都表示:
不確定這是一次性的跳躍,還是一條更陡的新趨勢線。
翻譯成人話:他們也不知道AI還會不會繼續加速。
32步滲透,Mythos十次過六
AISI用了一套分層測試體系。
窄域網絡安全套件(narrow cyber suite)覆蓋逆向工程和Web漏洞利用,單任務上限12小時,每次調用限制2.5M Token。
但真正炸場的是兩個模擬企業內網的攻防靶場。
![]()
第一個叫The Last Ones。
32個步驟,模擬一次完整的企業內網滲透鏈,從初始突破到橫向移動到最終目標。
AISI估算,一個人類安全專家走完全流程大約需要20小時。
![]()
Mythos Preview,10次嘗試,成功6次。
GPT-5.5,10次嘗試,成功3次。
第二個靶場叫Cooling Tower。
之前所有模型都沒通過。
Mythos是第一個破關的,10次嘗試成功3次。
![]()
這不是論文里的理論推演。
這是一個已經部署上線的模型,在模擬真實企業環境里,獨立完成了人類安全專家級別的滲透任務。
Glasswing項目負責人Logan Graham確認,測試用的這個Mythos checkpoint,就是一個月前隨Project Glasswing上線的版本。
外界現在看到的攻防能力,不是實驗室里的原型,是正在跑著的生產模型。
就在你的Claude APP里。
看下實驗結果。
下圖上有兩條紅色虛線(dotted),標著best attempt(最上面)。
那是Mythos Preview (new) 和GPT-5.5-Cyber在10次嘗試里跑出來的最佳單次成績。
這條虛線一路沖到了縱軸頂部——32步,封頂。
也就是說:在最好的那一次嘗試里,Mythos完整打穿了整條32步滲透鏈——從初始偵察,到完全網絡接管。
![]()
![]()
4.5個月翻一倍,METR交叉驗證
AISI算翻倍周期的方法不復雜。
他們測量的是80%可靠性網絡時間跨度——模型能以80%的成功率獨立完成的最長網絡任務時長。
把歷史上多個模型的成績畫到時間軸上,擬合指數曲線,算出翻倍時間。
從2025年11月的8個月,到2026年2月的4.7個月。
Mythos和GPT-5.5的數據點一加進去,曲線又陡了一截。
獨立評估機構METR的基準測試給出了交叉驗證。
![]()
他們從軟件工程任務角度追蹤AI能力增長,算出的翻倍周期是4.2個月(從o1-preview算起),如果把Mythos也納入,縮到4個月。
兩條完全獨立的評估線,在同一個數量級上碰頭了。
AISI的原話:
前沿模型能夠自主完成的網絡任務時長,翻倍周期是以月計的,不是以年計。
Token是天花板,不是智力
這份報告里最讓人不安的不是數字本身,是AISI對瓶頸的判斷。
窄域測試套件里,每個任務限制2.5M Token。
AISI明確寫了:這個上限人為壓低了成功率。
在攻防靶場實驗里,Token上限放到了100M。
Mythos的表現立刻跳了一個臺階。
意思是,當前制約AI網絡攻擊能力的不是算法,不是推理深度,不是智能上限——是Token預算。
給夠Token,模型就能走得更遠。
![]()
AISI自己也承認了測試體系的局限:
最長任務只有12小時,超出這個范圍的能力無法衡量;人類基線數據有限;agent腳手架過于簡單,人為約束了模型發揮。
換句話說,真實能力很可能比測出來的還要高。
這就是為什么報告的結論用了翻倍而不是接近天花板。
他們沒有看到天花板。
![]()
評測在追,模型在跑
把Logan Graham那句話再拎出來看一遍。
![]()
測試用的Mythos checkpoint,一個月前就上線了。
![]()
AISI的評估報告昨天才發。
這中間隔了整整一個月。
而在這一個月里,Anthropic大概率已經迭代了新的checkpoint。
當安全評估結果公開的那一刻,被評估的版本已經是舊的了。
![]()
這不是AISI一家的困境。
整個AI安全評測領域都在面對同一個結構性問題:
模型迭代速度正在系統性地超越安全評估周期。
評估結果發布時,告訴你的是上個月的模型能做到什么。
它沒法告訴你現在的模型能做到什么。
AISI在報告里用了一個很謹慎的表述:
他們不確定Mythos和GPT-5.5的跳躍是孤立的突破還是新的更快趨勢。
AI模型決賽階段的新變量
Anthropic的Mythos和OpenAI的GPT-5.5,在網絡攻防能力上都展現了指數級增長。
Mythos領先一個身位——6/10 vs 3/10,且獨家攻破了Cooling Tower靶場——但GPT-5.5同樣在快速追趕。
雙雄在能力層面狂飆,安全治理層面卻出現了一個越拉越大的缺口。
不到半年,4.5個月就能翻一倍。
這個速度意味著,到2026年底,前沿模型能自主完成的網絡任務復雜度,將是現在的4到8倍。
當一個AI模型能在沒有人類干預的情況下,獨立完成一個訓練有素的安全專家需要20小時才能走完的滲透鏈,全球每一個連著網線的企業都應該重新審視自己的防線。
AISI介紹
AISI的身份是全球首個國家級前沿AI風險評估機構。
![]()
2023年11月 Bletchley峰會成立,2024年05月, 由Safety改名為Security,隸屬英國DSIT。
AISI的主要職能是網絡/生化/自主行為/欺騙傾向的獨立評估。
最關鍵的是,他們能拿到OpenAI、Anthropic、DeepMind等頂級模型公司的pre-deployment訪問權,也就是說,他們是這些最先進模型的第一批訪問者。
ASI,即Artifical Super Intelligence,超(級)人工智能。
參考資料:
https://www.aisi.gov.uk/blog/how-fast-is-autonomous-ai-cyber-capability-advancing
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.