无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.5徹底擊穿300個(gè)黑客評測任務(wù),僅需5000萬Token!

0
分享至


新智元報(bào)道


【新智元導(dǎo)讀】GPT-5.5 把進(jìn)攻性網(wǎng)絡(luò)安全最難的 7 個(gè)基準(zhǔn)全部打穿,92.4% 正確率,評估體系直接失靈。AI 黑客能力每 6 個(gè)月翻一倍,而衡量它有多危險(xiǎn)的尺子,已經(jīng)先被干碎了。

316 道進(jìn)攻性網(wǎng)絡(luò)安全任務(wù),GPT-5.5 解出了 292 道,正確率高達(dá) 92.4%!

5 月 27 日,澳大利亞研究機(jī)構(gòu) Lyptus Research 發(fā)布報(bào)告——GPT-5.5 讓他們的整套評估體系飽和了。


https://x.com/LyptusResearch/status/2059428814103642340

7 個(gè)基準(zhǔn),涵蓋漏洞利用、CTF 奪旗、真實(shí) CVE 復(fù)現(xiàn),每道題都有人類安全專家的完成時(shí)間作為基線。

GPT-5.5 展現(xiàn)出了頂級黑客團(tuán)隊(duì)的能力。

剩下那 24 道沒解的題,已經(jīng)不夠畫出一條有統(tǒng)計(jì)意義的能力曲線。

研究團(tuán)隊(duì)的判斷是,這套評估方法對這類任務(wù)「不再適用」。

他們 2025 年 12 月開始搭這套測試的時(shí)候,選的是全球能找到的最難的題。

到 2026 年 3 月第一版報(bào)告,數(shù)據(jù)就出現(xiàn)了飽和苗頭。

到 5 月,飽和變成了事實(shí)。

六個(gè)月,從「最難」到「不夠用」。

進(jìn)步曲線在狂飆

這條能力曲線的斜率才是真正嚇人的地方。


Lyptus 從 2024 年開始追蹤,擬合出來的結(jié)論,AI 進(jìn)攻性網(wǎng)絡(luò)安全能力每 5 到 6 個(gè)月翻一倍。

2026 年初 Claude Opus 4.6 時(shí)間地平線 3.2 小時(shí),GPT-5.3 Codex 3.1 小時(shí),兩個(gè)月后 GPT-5.5 直接拉到 5.1 小時(shí)。

給夠算力,沖過 12 小時(shí)測量上限,圖表甚至畫不下。


更狠的是 Token 預(yù)算這個(gè)變量。

GPT-5.5 在最難的基準(zhǔn) CyberGym 上,200 萬 Token 預(yù)算下正確率 54.4%,推到 5000 萬 Token,86.4%。


同一個(gè)模型,漲了 32 個(gè)百分點(diǎn)。


英國人工智能安全研究所(AIUK AI Safety Institute)的研究也證實(shí)了這一點(diǎn),給到 1 億 token,能力還在漲,沒有平臺期。

所有公開的基準(zhǔn)測試成績,都是在有限預(yù)算下跑出來的。真實(shí)能力天花板,遠(yuǎn)比賬面數(shù)字高。

強(qiáng)大模型在受控

頭部實(shí)驗(yàn)室已經(jīng)被迫站隊(duì)了。

Anthropic 在 4 月發(fā)布 Claude Mythos Preview,直接決定不公開,理由是網(wǎng)絡(luò)安全能力過強(qiáng),配套推出 Project Glasswing,把 Mythos 部署給關(guān)鍵基礎(chǔ)設(shè)施的防御方。


OpenAI 給 GPT-5.5 網(wǎng)絡(luò)安全能力評級「High」,僅比最高級「Critical」低一檔,攻擊相關(guān)能力全部通過「Trusted Access for Cyber」門控。

METR 對 Mythos 的獨(dú)立評估撞上了同樣的墻,擬合出的時(shí)間地平線至少 16 小時(shí),但他們對這個(gè)數(shù)字不敢給點(diǎn)估計(jì),只說「應(yīng)保持謹(jǐn)慎」。

控制誰能用,是目前唯一的策略。

但窗口在縮小。

Lyptus 測量了一個(gè)叫「適應(yīng)緩沖期」的指標(biāo),閉源前沿能力傳導(dǎo)到開源模型的時(shí)間差。

進(jìn)攻性網(wǎng)絡(luò)安全領(lǐng)域,這個(gè)差距大約 5.7 到 13.1 個(gè)月。

按這個(gè)速度,Mythos 和 GPT-5.5 級別的攻擊能力,年內(nèi)就可能以開源形式落到任何人手里。

尺子被干碎了

回到最核心的問題。

這件事里最讓人不安的部分,在于沒人能準(zhǔn)確說出現(xiàn)在大模型的上限到底有多強(qiáng)。

時(shí)間地平線方法論的邏輯很簡單,用比模型能力更難的任務(wù)來錨定曲線的拐點(diǎn)。

當(dāng)模型把所有任務(wù)都做完了,拐點(diǎn)消失,曲線無法擬合。

評估體系不是被證偽了,是被能力增長甩在了后面。


要造更難的測試,需要更多時(shí)間和人力。

模型能力每半年翻一倍,測試開發(fā)周期遠(yuǎn)長于此。

更關(guān)鍵的是英國人工智能安全研究所的發(fā)現(xiàn),只要攻擊方愿意多燒算力,就算有更難的題,照樣做穿。

評估追不上能力。

這個(gè)結(jié)構(gòu)性困境放到更大的框架下看,信號已經(jīng)相當(dāng)明確。

一個(gè)高度專業(yè)化的領(lǐng)域里,人類為 AI 能力設(shè)定的標(biāo)尺已經(jīng)被干碎了。


網(wǎng)絡(luò)安全恰好是最容易量化的領(lǐng)域之一,有明確的成功判據(jù),漏洞找到或沒找到,系統(tǒng)攻破或沒攻破。

連這種硬指標(biāo)領(lǐng)域的評估都跟不上了,那些更模糊、更難量化的能力維度呢?

每 6 個(gè)月翻一倍的增速如果維持,一年后的能力是今天的 4 倍,兩年后 16 倍。

通往 AGI 乃至 ASI 的路上,被干碎的不會只有這一把尺子。

看不到邊界,比邊界本身更危險(xiǎn)。

參考資料:

https://lyptusresearch.org/research/gpt-5-5-saturates-offensive-cyber-time-horizons

https://x.com/LyptusResearch/status/2059428814103642340

編輯:馬可


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
打不得也放不得!越南在南海大肆填海造島,中方究竟在顧慮什么?

打不得也放不得!越南在南海大肆填海造島,中方究竟在顧慮什么?

領(lǐng)悟看世界
2026-05-25 01:15:23
重磅!利物浦官宣47歲斯洛特下課:投入5億僅排第5 創(chuàng)2大恥辱紀(jì)錄

重磅!利物浦官宣47歲斯洛特下課:投入5億僅排第5 創(chuàng)2大恥辱紀(jì)錄

風(fēng)過鄉(xiāng)
2026-05-30 19:33:04
一汽官宣:獨(dú)立新能源汽車品牌,正式發(fā)布!

一汽官宣:獨(dú)立新能源汽車品牌,正式發(fā)布!

新浪財(cái)經(jīng)
2026-05-31 00:54:41
鐵了心要滅掉中國?一股可怕力量來了!

鐵了心要滅掉中國?一股可怕力量來了!

回京歷史夢
2026-05-29 18:33:48
南開大學(xué)通報(bào)論文數(shù)據(jù)存疑問題情況

南開大學(xué)通報(bào)論文數(shù)據(jù)存疑問題情況

新京報(bào)
2026-05-30 19:57:05
從1-2至3-2!北京國安絕境大逆轉(zhuǎn),法比奧創(chuàng)紀(jì)錄,重慶3分鐘丟2球

從1-2至3-2!北京國安絕境大逆轉(zhuǎn),法比奧創(chuàng)紀(jì)錄,重慶3分鐘丟2球

汪星人喲
2026-05-30 22:02:12
103-111!雷霆搶七惜敗,最大罪人揪出,葬送好局,無可爭議

103-111!雷霆搶七惜敗,最大罪人揪出,葬送好局,無可爭議

體育見習(xí)官
2026-05-31 14:01:23
美警告未落,俄導(dǎo)彈砸基輔F-16基地,普京決戰(zhàn)已至

美警告未落,俄導(dǎo)彈砸基輔F-16基地,普京決戰(zhàn)已至

真的好愛你
2026-05-30 19:05:21
綠營想用牢飯鎖定馬英九?臺商集體倒戈鄭麗文,這才是致命反殺!

綠營想用牢飯鎖定馬英九?臺商集體倒戈鄭麗文,這才是致命反殺!

國際阿嘗
2026-05-29 16:34:35
梭哈字母哥!開拓者豪賭籌碼曝光:楊瀚森等4人+3首輪 歸還互換權(quán)

梭哈字母哥!開拓者豪賭籌碼曝光:楊瀚森等4人+3首輪 歸還互換權(quán)

林子說事
2026-05-31 12:17:41
老師膠槍燙幼兒“社會性死亡”!正臉被扒無遮擋,過往曝光是慣犯

老師膠槍燙幼兒“社會性死亡”!正臉被扒無遮擋,過往曝光是慣犯

流云隨風(fēng)去遠(yuǎn)方
2026-05-30 23:58:53
劉洵逝去,“為這個(gè)沒名沒姓的年頭干一杯”

劉洵逝去,“為這個(gè)沒名沒姓的年頭干一杯”

張佳瑋寫字的地方
2026-05-30 15:54:37
一針見血!詹俊犀利點(diǎn)評戳破阿森納致命短板,大巴黎盡顯冠軍底蘊(yùn)

一針見血!詹俊犀利點(diǎn)評戳破阿森納致命短板,大巴黎盡顯冠軍底蘊(yùn)

田先生籃球
2026-05-31 10:39:20
日媒:日本想當(dāng)東亞“老二”?中方給出了答案,從根兒上就不可能

日媒:日本想當(dāng)東亞“老二”?中方給出了答案,從根兒上就不可能

春日筆記
2026-05-31 13:38:43
馬斯克22歲“女兒”內(nèi)衣出鏡,聲稱和父親劃清界限,卻次次捆綁

馬斯克22歲“女兒”內(nèi)衣出鏡,聲稱和父親劃清界限,卻次次捆綁

譯言
2026-05-31 06:24:46
98歲老僧一句話,點(diǎn)醒了我:你為何不再覺得活著

98歲老僧一句話,點(diǎn)醒了我:你為何不再覺得活著

有態(tài)度網(wǎng)友ytd2993
2026-05-28 00:48:53
1958年蕭華上將回鄉(xiāng),失散23年終見親妹,相見時(shí)哽咽說出一句話

1958年蕭華上將回鄉(xiāng),失散23年終見親妹,相見時(shí)哽咽說出一句話

磊子講史
2026-03-06 10:35:20
我供小叔子考上北大,他畢業(yè)后只匯款不回家,我去北京一看愣住了

我供小叔子考上北大,他畢業(yè)后只匯款不回家,我去北京一看愣住了

千秋文化
2026-05-18 20:02:10
我臟?!誤會一場!文班是被媒體冤枉的!!

我臟?!誤會一場!文班是被媒體冤枉的!!

柚子說球
2026-05-31 12:29:46
99年我回村葬母無人搭理,只有1戶人家熱心幫忙,15年后我去報(bào)恩

99年我回村葬母無人搭理,只有1戶人家熱心幫忙,15年后我去報(bào)恩

千秋文化
2025-09-05 11:30:00
2026-05-31 14:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
15349文章數(shù) 66894關(guān)注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

頭條要聞

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財(cái)經(jīng)要聞

醫(yī)學(xué)首席轉(zhuǎn)崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

旅游
房產(chǎn)
手機(jī)
家居
軍事航空

旅游要聞

廠房老宅變身文旅熱土,古村落何以孕育“新風(fēng)景”

房產(chǎn)要聞

紅動五月!全國搶入核心資產(chǎn),廣州盯緊凱旋新世界!

手機(jī)要聞

微軟宣布下周攜手英偉達(dá)開啟PC新時(shí)代;蘋果iPhone 18機(jī)模曝光

家居要聞

云棲 舒展如流云

軍事要聞

解放軍代表質(zhì)問日防衛(wèi)大臣:日本何時(shí)道歉

無障礙瀏覽 進(jìn)入關(guān)懷版