GPT-5.5徹底擊穿300個(gè)黑客評測任務(wù)，僅需5000萬Token！

2026-05-28 15:34:19　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

【新智元導(dǎo)讀】GPT-5.5 把進(jìn)攻性網(wǎng)絡(luò)安全最難的 7 個(gè)基準(zhǔn)全部打穿，92.4% 正確率，評估體系直接失靈。AI 黑客能力每 6 個(gè)月翻一倍，而衡量它有多危險(xiǎn)的尺子，已經(jīng)先被干碎了。

316 道進(jìn)攻性網(wǎng)絡(luò)安全任務(wù)，GPT-5.5 解出了 292 道，正確率高達(dá) 92.4%！

5 月 27 日，澳大利亞研究機(jī)構(gòu) Lyptus Research 發(fā)布報(bào)告——GPT-5.5 讓他們的整套評估體系飽和了。

https://x.com/LyptusResearch/status/2059428814103642340

7 個(gè)基準(zhǔn)，涵蓋漏洞利用、CTF 奪旗、真實(shí) CVE 復(fù)現(xiàn)，每道題都有人類安全專家的完成時(shí)間作為基線。

GPT-5.5 展現(xiàn)出了頂級黑客團(tuán)隊(duì)的能力。

剩下那 24 道沒解的題，已經(jīng)不夠畫出一條有統(tǒng)計(jì)意義的能力曲線。

研究團(tuán)隊(duì)的判斷是，這套評估方法對這類任務(wù)「不再適用」。

他們 2025 年 12 月開始搭這套測試的時(shí)候，選的是全球能找到的最難的題。

到 2026 年 3 月第一版報(bào)告，數(shù)據(jù)就出現(xiàn)了飽和苗頭。

到 5 月，飽和變成了事實(shí)。

六個(gè)月，從「最難」到「不夠用」。

進(jìn)步曲線在狂飆

這條能力曲線的斜率才是真正嚇人的地方。

Lyptus 從 2024 年開始追蹤，擬合出來的結(jié)論，AI 進(jìn)攻性網(wǎng)絡(luò)安全能力每 5 到 6 個(gè)月翻一倍。

2026 年初 Claude Opus 4.6 時(shí)間地平線 3.2 小時(shí)，GPT-5.3 Codex 3.1 小時(shí)，兩個(gè)月后 GPT-5.5 直接拉到 5.1 小時(shí)。

給夠算力，沖過 12 小時(shí)測量上限，圖表甚至畫不下。

更狠的是 Token 預(yù)算這個(gè)變量。

GPT-5.5 在最難的基準(zhǔn) CyberGym 上，200 萬 Token 預(yù)算下正確率 54.4%，推到 5000 萬 Token，86.4%。

同一個(gè)模型，漲了 32 個(gè)百分點(diǎn)。

英國人工智能安全研究所（AIUK AI Safety Institute）的研究也證實(shí)了這一點(diǎn)，給到 1 億 token，能力還在漲，沒有平臺期。

所有公開的基準(zhǔn)測試成績，都是在有限預(yù)算下跑出來的。真實(shí)能力天花板，遠(yuǎn)比賬面數(shù)字高。

強(qiáng)大模型在受控

頭部實(shí)驗(yàn)室已經(jīng)被迫站隊(duì)了。

Anthropic 在 4 月發(fā)布 Claude Mythos Preview，直接決定不公開，理由是網(wǎng)絡(luò)安全能力過強(qiáng)，配套推出 Project Glasswing，把 Mythos 部署給關(guān)鍵基礎(chǔ)設(shè)施的防御方。

OpenAI 給 GPT-5.5 網(wǎng)絡(luò)安全能力評級「High」，僅比最高級「Critical」低一檔，攻擊相關(guān)能力全部通過「Trusted Access for Cyber」門控。

METR 對 Mythos 的獨(dú)立評估撞上了同樣的墻，擬合出的時(shí)間地平線至少 16 小時(shí)，但他們對這個(gè)數(shù)字不敢給點(diǎn)估計(jì)，只說「應(yīng)保持謹(jǐn)慎」。

控制誰能用，是目前唯一的策略。

但窗口在縮小。

Lyptus 測量了一個(gè)叫「適應(yīng)緩沖期」的指標(biāo)，閉源前沿能力傳導(dǎo)到開源模型的時(shí)間差。

進(jìn)攻性網(wǎng)絡(luò)安全領(lǐng)域，這個(gè)差距大約 5.7 到 13.1 個(gè)月。

按這個(gè)速度，Mythos 和 GPT-5.5 級別的攻擊能力，年內(nèi)就可能以開源形式落到任何人手里。

尺子被干碎了

回到最核心的問題。

這件事里最讓人不安的部分，在于沒人能準(zhǔn)確說出現(xiàn)在大模型的上限到底有多強(qiáng)。

時(shí)間地平線方法論的邏輯很簡單，用比模型能力更難的任務(wù)來錨定曲線的拐點(diǎn)。

當(dāng)模型把所有任務(wù)都做完了，拐點(diǎn)消失，曲線無法擬合。

評估體系不是被證偽了，是被能力增長甩在了后面。

要造更難的測試，需要更多時(shí)間和人力。

模型能力每半年翻一倍，測試開發(fā)周期遠(yuǎn)長于此。

更關(guān)鍵的是英國人工智能安全研究所的發(fā)現(xiàn)，只要攻擊方愿意多燒算力，就算有更難的題，照樣做穿。

評估追不上能力。

這個(gè)結(jié)構(gòu)性困境放到更大的框架下看，信號已經(jīng)相當(dāng)明確。

一個(gè)高度專業(yè)化的領(lǐng)域里，人類為 AI 能力設(shè)定的標(biāo)尺已經(jīng)被干碎了。

網(wǎng)絡(luò)安全恰好是最容易量化的領(lǐng)域之一，有明確的成功判據(jù)，漏洞找到或沒找到，系統(tǒng)攻破或沒攻破。

連這種硬指標(biāo)領(lǐng)域的評估都跟不上了，那些更模糊、更難量化的能力維度呢？

每 6 個(gè)月翻一倍的增速如果維持，一年后的能力是今天的 4 倍，兩年后 16 倍。

通往 AGI 乃至 ASI 的路上，被干碎的不會只有這一把尺子。

看不到邊界，比邊界本身更危險(xiǎn)。

參考資料：

https://lyptusresearch.org/research/gpt-5-5-saturates-offensive-cyber-time-horizons

https://x.com/LyptusResearch/status/2059428814103642340

編輯：馬可

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

從Token無上限到全員Agent：MiniMax的AI Native組織進(jìn)化實(shí)踐

量子位 2026-05-31 11:48:15
0 跟貼 0
1美元Token撬動4800美元收益!百萬美元級基準(zhǔn),最賺錢Agent出現(xiàn)了

機(jī)器之心Pro 2026-03-10 10:06:03
0 跟貼 0

OpenAI明升，Anthropic暗漲：AI包月折扣沒了

新智元 2026-05-31 11:42:14
0 跟貼 0

多變量神經(jīng)縮放定律邁向大一統(tǒng)：Mila聯(lián)手DeepMind提出UNSL

機(jī)器之心Pro 2026-05-28 14:33:16
0 跟貼 0
開盒Claude Code的原來是中國00后！曾怒懟Anthropic竊取用戶代碼

量子位 2026-04-02 15:24:09
217 跟貼 217

X平臺瘋傳！這個(gè)國產(chǎn)開源模型，把信息圖生成整明白了 ? 附實(shí)測

智東西 2026-05-29 21:57:26
0 跟貼 0

復(fù)旦鐵三角：開辟最優(yōu)物理AI路徑！時(shí)空一體世界動作模型問世

新智元 2026-05-31 13:08:37
1 跟貼 1
AI原生時(shí)代，讓世界適應(yīng)Agent而非教AI做人 | 港大黃超@AIGC2026

量子位 2026-05-31 11:56:06
0 跟貼 0

小學(xué)生畫了撇胡子騙過AI年齡驗(yàn)證，硅谷工程師沉默了

機(jī)器之心Pro 2026-05-31 14:27:31
0 跟貼 0
GPT-5.5翻倍，Gemini漲3倍：這波漲價(jià)游戲還能玩多久？

新智元 2026-05-28 15:34:39
40 跟貼 40
女子吃了隔夜見手青連撞兩輛車，回家后還對著空氣輔導(dǎo)作業(yè)

南陽日報(bào) 2026-05-30 17:19:03
422 跟貼 422
房主將自家住宅變“網(wǎng)約房” 鄰居有權(quán)說“不”嗎？

北青網(wǎng)-北京青年報(bào) 2026-05-30 21:06:09
5867 跟貼 5867
英偉達(dá)巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
0 跟貼 0
未來10年，男孩兒學(xué)什么技術(shù)最吃香？

小雨和雄大 2026-05-28 04:19:04
0 跟貼 0
院長等3人學(xué)術(shù)造假南開大學(xué)通報(bào)

界面新聞 2026-05-30 19:49:22
5835 跟貼 5835
警惕身邊的泄密風(fēng)險(xiǎn)！央視曝光細(xì)節(jié)，某國用41種網(wǎng)絡(luò)武器攻擊我高校

每日經(jīng)濟(jì)新聞 2026-05-30 20:00:26
0 跟貼 0
「龍蝦之父」吐槽人類互聯(lián)網(wǎng)后，終于有人把這當(dāng)個(gè)事兒辦了

機(jī)器之心Pro 2026-03-31 11:09:26
0 跟貼 0
如何養(yǎng)一只懂事的小龍蝦？養(yǎng)蝦達(dá)人10天速成班

量子位 2026-03-20 04:40:46
2 跟貼 2
奮斗者正青春｜專業(yè)專注守牢網(wǎng)絡(luò)安全防線

國家電網(wǎng) 2026-05-31 14:23:59
0 跟貼 0
李世默直面提問：為何不全盤開放外網(wǎng)？一句話戳破認(rèn)知誤區(qū)

菠蘿嘮生活 2026-05-31 01:27:44
0 跟貼 0
媒體：香會變調(diào) 美國在臺海問題上收聲

環(huán)球網(wǎng)資訊 2026-05-30 20:40:20
48 跟貼 48
如何養(yǎng)一只懂事，不惹事的小龍蝦？

量子位 2026-03-19 21:53:29
0 跟貼 0
2026年廣西全民數(shù)字素養(yǎng)與技能提升月啟動

中國日報(bào)網(wǎng) 2026-05-30 17:46:03
0 跟貼 0
熱聞|阿森納夢碎十二碼！巴黎圣日耳曼蟬聯(lián)歐冠冠軍

齊魯壹點(diǎn) 2026-05-31 06:48:50
178 跟貼 178
千萬不要小看黑客的首飾

萌哥電影 2026-05-30 09:12:33
1 跟貼 1
人民直擊｜三問張家口風(fēng)電項(xiàng)目1.9億“天價(jià)”補(bǔ)償后續(xù)

人民資訊 2026-05-31 09:15:09
828 跟貼 828
"香會"現(xiàn)場！他們排隊(duì)與中方代表打招呼

看看新聞Knews 2026-05-31 01:05:40
85 跟貼 85
軍事博主深度解析：俄烏戰(zhàn)場FPV無人機(jī)挑戰(zhàn)防空體系

冷夜說 2026-05-29 19:36:50
0 跟貼 0
AdaGen: 讓圖像生成模型學(xué)會自適應(yīng)策略

機(jī)器之心Pro 2026-04-13 15:47:03
0 跟貼 0
鮮奶雪糕包裝印“不加一滴水”配料表首位竟是水廠家：系舊包裝，已改名“一滴水”

上游新聞 2026-05-29 18:03:05
1866 跟貼 1866
鄭麗文揭秘：真心難換真心，換策略捅破窗戶紙

一寸時(shí)光a 2026-05-30 01:51:30
3 跟貼 3
央視實(shí)錘57空戰(zhàn)真相，沒有“體系”，居然是殲10CE單殺全場

這個(gè)真行 2026-05-28 18:49:05
0 跟貼 0
找到規(guī)則的漏洞就能利用

漫野影視 2026-05-27 17:34:14
1 跟貼 1
韓軍要向美方收回戰(zhàn)時(shí)指揮權(quán) 駐韓美軍司令表達(dá)擔(dān)憂

上觀新聞 2026-05-30 18:34:24
511 跟貼 511
今晚，上海男籃迎來最嚴(yán)峻考驗(yàn)！

新民晚報(bào) 2026-05-31 11:02:21
32 跟貼 32
汪峰女友森林北曬杭州日常，健身自律曲線完美，大方展示素顏

貴圈星娛 2026-05-29 16:16:22
1 跟貼 1
朝鮮黑客假借安全頁面，滲透韓國軍企內(nèi)網(wǎng)

我是一個(gè)養(yǎng)蝦人 2026-05-30 03:44:55
0 跟貼 0
中超上半程收官戰(zhàn)，泰山隊(duì)輸?shù)貌浑y看

齊魯壹點(diǎn) 2026-05-30 23:33:13
127 跟貼 127
國泰航班降落滑行時(shí)有幼童哭鬧，男乘客高聲怒斥！航司回應(yīng)

南方都市報(bào) 2026-05-30 20:52:09
606 跟貼 606
梁實(shí)第30次參加高考：我覺得有把握

極目新聞 2026-05-30 16:28:58
1738 跟貼 1738

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

GPT-5.5徹底擊穿300個(gè)黑客評測任務(wù)，僅需5000萬Token！

戴爾諾基亞又回來了！AI重估老牌科技公司

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

阿森納用最悲壯的方式，成就了巴黎王朝

賈玲最新動作！侯明昊給虞書欣抬轎！

醫(yī)學(xué)首席轉(zhuǎn)崗搞科技，A股科技股遭遇巨震

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

廠房老宅變身文旅熱土，古村落何以孕育“新風(fēng)景”

紅動五月！全國搶入核心資產(chǎn)，廣州盯緊凱旋新世界！

微軟宣布下周攜手英偉達(dá)開啟PC新時(shí)代；蘋果iPhone 18機(jī)模曝光

云棲 舒展如流云

解放軍代表質(zhì)問日防衛(wèi)大臣:日本何時(shí)道歉

900V+3.2秒破百領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

云棲舒展如流云