網易首頁 > 網易號 > 正文 申請入駐

GPT-5.5 發布,詳細解讀

0
分享至

OpenAI Release

凌晨,OpenAI 發布 GPT-5.5,是 GPT-5 系列迄今最大更新


下面這個,是介紹視頻

https://openai.com/index/introducing-gpt-5-5/

本次核心變化:用更少的 token,干更難的活

在 Artificial Analysis 的 Coding Agent Index 上,GPT-5.5 達到了最高智能水平,成本是同級別競品的一半


GPT-5.5 這個模型,目前已向 ChatGPT 付費用戶開放

更高級別的 GPT-5.5 Pro,則向 Pro、Business、Enterprise 用戶開放

API 即將上線,價格大幅上漲,為 $5/$30 (每百萬Token),比 5.4 翻了 3 倍


能力總覽

OpenAI 拿出了一張 9 項核心指標的對比表,橫向對比 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro


核心 Benchmark 總覽

在 Artificial Analysis Intelligence Index(第三方,10 項 eval 加權平均)上,GPT-5.5 在同等輸出 token 量下智能得分最高,token 總消耗明顯低于其他模型


Terminal-Bench 2.0復雜命令行工作流:82.7%,vs GPT-5.4 的 75.1%,vs Claude Opus 4.7 的 69.4%

SWE-Bench Pro真實 GitHub issue 解決:58.6%,vs GPT-5.4 的 57.7%。Claude Opus 4.7 報了 64.3%,但 Anthropic 承認部分問題存在記憶化

Expert-SWE內部長周期編碼任務,中位人類完成時間 20 小時:73.1%,vs GPT-5.4 的 68.5%


在 Codex 里,GPT-5.5 可以接手從實現、重構到調試、測試的完整工程工作。上下文窗口 400K

知識工作

coding 之外,GPT-5.5 在日常電腦操作和知識工作上的提升同樣明顯

GDPval44 個職業知識工作測試,勝出或平手率 84.9%,vs GPT-5.4 的 83.0%,vs Claude Opus 4.7 的 80.3%

OSWorld-Verified模型獨立操作真實電腦環境:78.7%,vs GPT-5.4 的 75.0%

Tau2-bench Telecom復雜客服工作流,無 prompt 調優:98.0%,vs GPT-5.4 的 92.8%

GPT-5.5 Pro 也有提升。早期測試者覺得 GPT-5.5 Pro 在業務、法律、教育、數據科學方向上比 GPT-5.4 Pro 更全面、更準確


財務建模 demo,手動替換:https://player.vimeo.com/video/1185616826

OpenAI 內部用例

OpenAI 公司超過 85% 的員工每周都在用 Codex,覆蓋工程、財務、市場、公關、數據科學、產品管理

公關團隊分析了 6 個月的演講邀請數據,建了打分和風險框架,低風險請求自動處理,高風險請求交人審核

財務團隊審了 24,771 份 K-1 稅表,共 71,637 頁,比去年提前兩周完成

GTM 團隊自動生成周報,每周省 5-10 小時

科學研究

GeneBench 是 OpenAI 新推出的 eval,測試多階段遺傳學和定量生物學數據分析。這些任務通常對應科研專家幾天到幾周的工作量。GPT-5.5 得分 25.0%,GPT-5.4 是 19.0%,GPT-5.5 Pro 達到 33.2%

BixBench(真實生物信息學和數據分析 benchmark):GPT-5.5 得分 80.5%,GPT-5.4 是 74.0%


Academic 評測數據

Ramsey 數新證明

GPT-5.5 的內部版本配合自定義工具鏈,發現了關于 Ramsey 數的一個新證明。Ramsey 數是組合數學的核心對象,研究結果稀少且技術難度高。這個證明后來在 Lean 中完成了形式化驗證


推理效率

GPT-5.5 更大更強,但實際延遲和 GPT-5.4 一樣

此前,OpenAI 用固定數量的靜態分區來平衡 GPU 上的計算負載

而在新版本中,Codex 分析了數周的生產流量數據,寫了自定義的啟發式分區算法。這一項改進讓 token 生成速度提升了超過 20%


模型幫忙優化了自己運行的基礎設施

網絡安全

GPT-5.5 的網絡安全能力被 OpenAI Preparedness Framework 評為 High(生物/化學能力同為 High)。沒有達到 Critical 級別

CyberGym81.8%,vs GPT-5.4 的 79.0%,vs Claude Opus 4.7 的 73.1%

CTF 挑戰任務內部擴展版:88.1%,vs GPT-5.4 的 83.7%

與此同時,GPT-5.5 也發布同時推出了一個新項目:生物安全漏洞賞金


規則是這樣,OpenAI 準備了 5 個生物安全問題,參與者需要找到一條「通用越獄 prompt」,在 Codex Desktop 的干凈對話里,一次性通過全部 5 個問題,且不觸發審核,就算越獄成功

參與地址在這:https://openai.com/index/gpt-5-5-bio-bug-bounty/

第一個成功的通用越獄,獎金 $25,000。部分突破可能獲得較小獎勵

申請窗口2026 年 4 月 23 日開放,6 月 22 日截止,滾動審核

測試窗口2026 年 4 月 28 日至 7 月 27 日

準入條件需要現有 ChatGPT 賬號,簽署 NDA

保密要求所有 prompt、輸出和發現均受保密協議覆蓋

面向有 AI 紅隊、安全或生物安全經驗的研究者

可用性與定價 ChatGPT

GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用戶。GPT-5.5 Pro 面向 Pro、Business、Enterprise 用戶

Codex

GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 計劃,400K 上下文窗口。Fast 模式 token 生成速度提升 1.5 倍,成本 2.5 倍

API(即將上線)

gpt-5.5$5/1M input tokens,$30/1M output tokens,1M 上下文窗口

gpt-5.5-pro$30/1M input tokens,$180/1M output tokens

Batch / Flex標準價的一半

Priority標準價的 2.5 倍

GPT-5.5 單價比 GPT-5.4 高,但 token 效率也更高

OpenAI 表示在 Codex 里,GPT-5.5 對大多數用戶來說,實際消耗的 token 比 GPT-5.4 更少

完整 Benchmark 數據

以下是 OpenAI 公布的全部評測數據,按類別整理。所有 GPT 評測在 reasoning effort 設為 xhigh 的研究環境中進行


Coding 評測表


Professional 評測表


Computer Use and Vision 評測表


Tool Use 評測表


Academic 評測表


Cybersecurity 評測表


Long Context 評測表


Abstract Reasoning 評測表


Abstract Reasoning 評測表

短板

SWE-Bench Pro 上 Claude Opus 4.7 報了 64.3%(GPT-5.5 是 58.6%),但 Anthropic 承認部分問題存在記憶化

MCP Atlas 上 Claude Opus 4.7(79.1%)和 Gemini 3.1 Pro(78.2%)均高于 GPT-5.5(75.3%)

Humanity's Last Exam(帶工具)上 GPT-5.4 Pro 的 58.7% 高于 GPT-5.5 Pro 的 57.2%

長上下文 256K 以上,Claude Opus 4.7 在部分指標上仍有優勢

參考材料

→ 官方博客:openai.com/index/introducing-gpt-5-5/

→ System Card:deploymentsafety.openai.com/gpt-5-5

→ Bio Bug Bounty 申請:https://openai.com/index/gpt-5-5-bio-bug-bounty/

→ BixBench 論文:arxiv.org/abs/2503.00096

→ Artificial Analysis 方法論:artificialanalysis.ai/methodology/intelligence-benchmarking

→ API 定價:openai.com/api/pricing/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1-0 登頂英超!阿森納險翻車,頭號核心全場災難拖后腿

1-0 登頂英超!阿森納險翻車,頭號核心全場災難拖后腿

瀾歸序
2026-04-26 05:51:40
足壇狂歡夜!曼城世界波絕殺,阿森納重奪英超榜首,熱刺終于贏了

足壇狂歡夜!曼城世界波絕殺,阿森納重奪英超榜首,熱刺終于贏了

阿超他的體育圈
2026-04-26 05:57:32
工體恥辱一敗!遭副班長瘋狂按地摩擦,國安別再拿裁判當遮羞布了

工體恥辱一敗!遭副班長瘋狂按地摩擦,國安別再拿裁判當遮羞布了

獅王亂彈
2026-04-26 07:01:17
東方甄選元老集體離場,yoyo迎來一姐時刻

東方甄選元老集體離場,yoyo迎來一姐時刻

東方不敗然多多
2026-04-26 07:07:01
上海樓市,開始變得離譜了

上海樓市,開始變得離譜了

暮色史觀
2026-04-26 01:43:49
第三艘美國航母抵達,外媒:不需要開火,僅僅抵達就可給伊朗壓力

第三艘美國航母抵達,外媒:不需要開火,僅僅抵達就可給伊朗壓力

小蘭聊歷史
2026-04-26 07:38:47
甘肅天水一佳人好漂亮, 身高168cm,體重48kg 美的讓人移不開眼

甘肅天水一佳人好漂亮, 身高168cm,體重48kg 美的讓人移不開眼

鄉野小珥
2026-04-08 00:48:57
張萌穿成這樣去海邊還讓不讓人玩了?

張萌穿成這樣去海邊還讓不讓人玩了?

時間巡查
2026-04-23 15:30:25
普京被迫打開金庫,俄羅斯黃金連夜運往中國,中方發話果斷接盤

普京被迫打開金庫,俄羅斯黃金連夜運往中國,中方發話果斷接盤

潘蠸旅行浪子
2026-04-25 17:36:17
內塔被上百國通緝,中方打破沉默,在安理會動手,明牌清算以色列

內塔被上百國通緝,中方打破沉默,在安理會動手,明牌清算以色列

焦點集結號
2026-04-26 06:50:54
兩家孩子被醫院抱錯5年,家長含淚換子,孩子的回答看哭了!

兩家孩子被醫院抱錯5年,家長含淚換子,孩子的回答看哭了!

莫地方
2026-04-26 02:00:03
孫楊機場驚問:行李箱真的需要打膜嗎?秦昊一臉懵懂

孫楊機場驚問:行李箱真的需要打膜嗎?秦昊一臉懵懂

科學發掘
2026-04-26 00:10:07
9中7!東部庫里神準!NBA準備誕生黑八奇跡

9中7!東部庫里神準!NBA準備誕生黑八奇跡

籃球實戰寶典
2026-04-26 05:47:45
內塔尼亞胡下令“猛烈打擊”黎巴嫩真主黨目標

內塔尼亞胡下令“猛烈打擊”黎巴嫩真主黨目標

澎湃新聞
2026-04-26 02:48:02
支持盧秀燕競選2028?蔣萬安正式交底,趙少康不裝了

支持盧秀燕競選2028?蔣萬安正式交底,趙少康不裝了

說歷史的老牢
2026-04-25 08:13:50
我敢打賭99%的男人會選白衣服女孩做老婆,看腿型就知道

我敢打賭99%的男人會選白衣服女孩做老婆,看腿型就知道

匹夫來搞笑
2026-04-24 12:20:31
民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
網友稱被臺球助教仙人跳,轉賬兩千摸了之后對方就報警索賠

網友稱被臺球助教仙人跳,轉賬兩千摸了之后對方就報警索賠

映射生活的身影
2026-04-25 16:25:10
重慶銅梁龍VS西海岸:阿馬杜坐鎮,向余望領銜前場,海歸新星沖鋒

重慶銅梁龍VS西海岸:阿馬杜坐鎮,向余望領銜前場,海歸新星沖鋒

零度眼看球
2026-04-26 06:59:40
四川成都一小區火災致5死2傷,深圳電動車早就不能進樓棟了

四川成都一小區火災致5死2傷,深圳電動車早就不能進樓棟了

九方魚論
2026-04-25 14:29:53
2026-04-26 08:36:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
404文章數 50關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

小伙被困隧道給母親留遺言:我救了個人可能出不去了

頭條要聞

小伙被困隧道給母親留遺言:我救了個人可能出不去了

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

旅游
親子
本地
公開課
軍事航空

旅游要聞

安徽黃山:呈坎古村嬉魚燈

親子要聞

總感覺她們兩是上輩子的情人!

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版