網易首頁 > 網易號 > 正文申請入駐

GPT-5.5 發布，詳細解讀

2026-04-24 04:14:02　來源: 賽博禪心

北京舉報

分享至

OpenAI Release

凌晨，OpenAI 發布 GPT-5.5，是 GPT-5 系列迄今最大更新

下面這個，是介紹視頻

https://openai.com/index/introducing-gpt-5-5/

本次核心變化：用更少的 token，干更難的活

在 Artificial Analysis 的 Coding Agent Index 上，GPT-5.5 達到了最高智能水平，成本是同級別競品的一半

GPT-5.5 這個模型，目前已向 ChatGPT 付費用戶開放

更高級別的 GPT-5.5 Pro，則向 Pro、Business、Enterprise 用戶開放

API 即將上線，價格大幅上漲，為 $5/$30 (每百萬Token)，比 5.4 翻了 3 倍

能力總覽

OpenAI 拿出了一張 9 項核心指標的對比表，橫向對比 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro

核心 Benchmark 總覽

在 Artificial Analysis Intelligence Index（第三方，10 項 eval 加權平均）上，GPT-5.5 在同等輸出 token 量下智能得分最高，token 總消耗明顯低于其他模型

Terminal-Bench 2.0復雜命令行工作流：82.7%，vs GPT-5.4 的 75.1%，vs Claude Opus 4.7 的 69.4%

SWE-Bench Pro真實 GitHub issue 解決：58.6%，vs GPT-5.4 的 57.7%。Claude Opus 4.7 報了 64.3%，但 Anthropic 承認部分問題存在記憶化

Expert-SWE內部長周期編碼任務，中位人類完成時間 20 小時：73.1%，vs GPT-5.4 的 68.5%

在 Codex 里，GPT-5.5 可以接手從實現、重構到調試、測試的完整工程工作。上下文窗口 400K

知識工作

coding 之外，GPT-5.5 在日常電腦操作和知識工作上的提升同樣明顯

GDPval44 個職業知識工作測試，勝出或平手率 84.9%，vs GPT-5.4 的 83.0%，vs Claude Opus 4.7 的 80.3%

OSWorld-Verified模型獨立操作真實電腦環境：78.7%，vs GPT-5.4 的 75.0%

Tau2-bench Telecom復雜客服工作流，無 prompt 調優：98.0%，vs GPT-5.4 的 92.8%

GPT-5.5 Pro 也有提升。早期測試者覺得 GPT-5.5 Pro 在業務、法律、教育、數據科學方向上比 GPT-5.4 Pro 更全面、更準確

財務建模 demo，手動替換：https://player.vimeo.com/video/1185616826

OpenAI 內部用例

OpenAI 公司超過 85% 的員工每周都在用 Codex，覆蓋工程、財務、市場、公關、數據科學、產品管理

公關團隊分析了 6 個月的演講邀請數據，建了打分和風險框架，低風險請求自動處理，高風險請求交人審核

財務團隊審了 24,771 份 K-1 稅表，共 71,637 頁，比去年提前兩周完成

GTM 團隊自動生成周報，每周省 5-10 小時

科學研究

GeneBench 是 OpenAI 新推出的 eval，測試多階段遺傳學和定量生物學數據分析。這些任務通常對應科研專家幾天到幾周的工作量。GPT-5.5 得分 25.0%，GPT-5.4 是 19.0%，GPT-5.5 Pro 達到 33.2%

BixBench（真實生物信息學和數據分析 benchmark）：GPT-5.5 得分 80.5%，GPT-5.4 是 74.0%

Academic 評測數據

Ramsey 數新證明

GPT-5.5 的內部版本配合自定義工具鏈，發現了關于 Ramsey 數的一個新證明。Ramsey 數是組合數學的核心對象，研究結果稀少且技術難度高。這個證明后來在 Lean 中完成了形式化驗證

推理效率

GPT-5.5 更大更強，但實際延遲和 GPT-5.4 一樣

此前，OpenAI 用固定數量的靜態分區來平衡 GPU 上的計算負載

而在新版本中，Codex 分析了數周的生產流量數據，寫了自定義的啟發式分區算法。這一項改進讓 token 生成速度提升了超過 20%

模型幫忙優化了自己運行的基礎設施

網絡安全

GPT-5.5 的網絡安全能力被 OpenAI Preparedness Framework 評為 High（生物/化學能力同為 High）。沒有達到 Critical 級別

CyberGym81.8%，vs GPT-5.4 的 79.0%，vs Claude Opus 4.7 的 73.1%

CTF 挑戰任務內部擴展版：88.1%，vs GPT-5.4 的 83.7%

與此同時，GPT-5.5 也發布同時推出了一個新項目：生物安全漏洞賞金

規則是這樣，OpenAI 準備了 5 個生物安全問題，參與者需要找到一條「通用越獄 prompt」，在 Codex Desktop 的干凈對話里，一次性通過全部 5 個問題，且不觸發審核，就算越獄成功

參與地址在這：https://openai.com/index/gpt-5-5-bio-bug-bounty/

第一個成功的通用越獄，獎金 $25,000。部分突破可能獲得較小獎勵

申請窗口2026 年 4 月 23 日開放，6 月 22 日截止，滾動審核

測試窗口2026 年 4 月 28 日至 7 月 27 日

準入條件需要現有 ChatGPT 賬號，簽署 NDA

保密要求所有 prompt、輸出和發現均受保密協議覆蓋

面向有 AI 紅隊、安全或生物安全經驗的研究者

可用性與定價 ChatGPT

GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用戶。GPT-5.5 Pro 面向 Pro、Business、Enterprise 用戶

Codex

GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 計劃，400K 上下文窗口。Fast 模式 token 生成速度提升 1.5 倍，成本 2.5 倍

API（即將上線）

gpt-5.5$5/1M input tokens，$30/1M output tokens，1M 上下文窗口

gpt-5.5-pro$30/1M input tokens，$180/1M output tokens

Batch / Flex標準價的一半

Priority標準價的 2.5 倍

GPT-5.5 單價比 GPT-5.4 高，但 token 效率也更高

OpenAI 表示在 Codex 里，GPT-5.5 對大多數用戶來說，實際消耗的 token 比 GPT-5.4 更少

完整 Benchmark 數據

以下是 OpenAI 公布的全部評測數據，按類別整理。所有 GPT 評測在 reasoning effort 設為 xhigh 的研究環境中進行

Coding 評測表

Professional 評測表

Computer Use and Vision 評測表

Tool Use 評測表

Academic 評測表

Cybersecurity 評測表

Long Context 評測表

Abstract Reasoning 評測表

短板

SWE-Bench Pro 上 Claude Opus 4.7 報了 64.3%（GPT-5.5 是 58.6%），但 Anthropic 承認部分問題存在記憶化

MCP Atlas 上 Claude Opus 4.7（79.1%）和 Gemini 3.1 Pro（78.2%）均高于 GPT-5.5（75.3%）

Humanity's Last Exam（帶工具）上 GPT-5.4 Pro 的 58.7% 高于 GPT-5.5 Pro 的 57.2%

長上下文 256K 以上，Claude Opus 4.7 在部分指標上仍有優勢

參考材料

→ 官方博客：openai.com/index/introducing-gpt-5-5/

→ System Card：deploymentsafety.openai.com/gpt-5-5

→ Bio Bug Bounty 申請：https://openai.com/index/gpt-5-5-bio-bug-bounty/

→ BixBench 論文：arxiv.org/abs/2503.00096

→ Artificial Analysis 方法論：artificialanalysis.ai/methodology/intelligence-benchmarking

→ API 定價：openai.com/api/pricing/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

OpenAI發表Nature論文：揭開AI模型總“說謊”的真相，人類對AI準確性的評估促使其產生幻覺

生物世界 2026-04-25 16:32:54
0 跟貼 0
谷歌豪擲400億鎖定Anthropic，OpenAI慌不慌？

華爾街見聞官方 2026-04-25 19:31:27
2 跟貼 2

硬剛GPT-Image-2！國產AI生圖“天花板”又被捅破了？

量子位 2026-04-25 15:01:42
14 跟貼 14

字節養的“蝦”與1500億賬本背后

鈦媒體APP 2026-04-25 16:44:18
0 跟貼 0
谷歌400億美金投資Anthropic，算力成AI巨頭資本游戲的砝碼

DeepTech深科技 2026-04-25 21:26:08
8 跟貼 8

DeepSeek-V4報告亮了！V4發布延遲的秘密，終于曝光了

新智元 2026-04-25 13:42:06
33 跟貼 33

AI自主監測寵物健康，涂鴉Hey Tuya打造全屋智能“超級入口”

量子位 2026-04-25 13:39:02
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

DeepSeek靠近華為，英特爾先別樂

虎嗅APP 2026-04-26 01:17:06
2 跟貼 2
Token消耗砍半！神州數碼端出“養蝦”三件套，專治AI打工人

雷科技 2026-04-25 22:18:36
0 跟貼 0
這屆流量的情緒密碼是什么？

虎嗅APP 2026-04-26 03:46:12
0 跟貼 0
GPT-Image-2 人物一致性！在視頻制作中的核心優勢！與實戰價值！

AI次世代 2026-04-24 20:41:27
0 跟貼 0
DeepSeek過于樸素了

虎嗅APP 2026-04-25 17:32:05
105 跟貼 105
烏克蘭前線士兵骨瘦如柴照片披露被指最長斷糧17天

澎湃新聞 2026-04-25 14:48:31
26182 跟貼 26182
致敬“DNA之母”，OpenAI推出首個生命科學AI模型GPT-Rosalind，加速藥物研發和基因組學研究

生物世界 2026-04-17 14:42:02
0 跟貼 0
“手搓”應用全民化，大廠打響新一輪卡位戰

鈦媒體APP 2026-04-24 17:23:25
8 跟貼 8
今天起，GPT Image 2要把全體設計師送走了

新智元 2026-04-23 19:04:16
1 跟貼 1
半掛模型玩具車買菜，要是超重了怎么辦，雷軍都不敢這么設計！

宇宙搞笑生活 2026-04-23 14:10:00
4 跟貼 4
霹靂15嚇壞印度！電視臺專門訪談，專家直呼這破壞了空戰規則！

曉哲舞蹈課 2026-04-25 13:38:31
10 跟貼 10
美國富豪非洲打獵被5頭大象踩死

看看新聞Knews 2026-04-25 19:38:18
3478 跟貼 3478
美能源出口創新高二戰以來首次接近成為原油凈出口國

紅星新聞 2026-04-25 12:32:20
8691 跟貼 8691
制作直升機遙控模型，阿帕奇AH-64

制造科技 2026-04-22 16:29:03
0 跟貼 0
簡直是霸王條款！男子花21999元網購三星三折疊手機被要求必須當面激活才能簽收

閃電新聞 2026-04-25 08:55:39
2217 跟貼 2217
GPT-5.5來了！全榜第一碾壓Opus 4.7，OpenAI今夜雪恥

新智元 2026-04-24 15:51:50
0 跟貼 0
Steam新手柄偷跑評測，99刀值不值？

IT之家 2026-04-25 23:31:17
5 跟貼 5
商務部：取消對歐盟兩家金融機構相關反制措施

界面新聞 2026-04-24 22:08:41
568 跟貼 568
內地旅客買6000港元蟲草磨粉后結賬竟變成7.1萬

看看新聞Knews 2026-04-25 19:24:12
2991 跟貼 2991
救人的哥走了50余輛出租車自發送行

極目新聞 2026-04-25 15:18:34
2441 跟貼 2441
花唄、白條、月付等面臨重大調整

第一財經資訊 2026-04-25 12:45:38
120 跟貼 120
泡泡瑪特：4月30日發售兩款Labubu冰箱，售價5999元，每款全球限量發售999臺

魯中晨報 2026-04-24 20:08:07
3245 跟貼 3245
索尼新規落地！所有數字版游戲都要強制30天聯網驗權

游民星空 2026-04-25 18:12:04
7 跟貼 7
自然界不遵循直線規則

奇奇趣世界 2026-04-25 09:46:04
3 跟貼 3
ACL 2026 | 不訓練LLM也能支持未見語言問答？中科院計算所團隊讓多語言能力「外掛式」加載

新浪財經 2026-04-25 18:13:53
0 跟貼 0
從攤位被擋到全網撐腰，長沙后湖這個煎餅攤前隊伍越排越長，女攤主有個樸素簡單的愿望

瀟湘晨報 2026-04-25 21:02:19
1 跟貼 1
GPT最強圖片模型來了，網友已玩瘋！

極果酷玩 2026-04-25 20:24:39
0 跟貼 0
“月薪1.6萬招放羊工”走紅，老板最新發聲→

中國青年報 2026-04-25 08:56:27
2138 跟貼 2138
無錫一高校食堂的巧克力香蕉火了，被指外形抽象！回應：不切才能體現新鮮

南寧新聞網 2026-04-26 07:19:00
12 跟貼 12
“記者臥底桂林六日游低價團”后續：地接旅行社被罰30萬并停業整頓

極目新聞 2026-04-24 08:03:58
550 跟貼 550
雪中送碳！中國向古巴捐贈超1.4萬件體育物資

看看新聞Knews 2026-04-25 10:44:15
18 跟貼 18
尾號9999999手機號將以26.6833萬起拍價再次拍賣，月租僅9元，2個月前51萬余元起拍無人接盤

極目新聞 2026-04-25 18:36:08
1593 跟貼 1593

賽博禪心

拜AI古佛，修賽博禪心

404文章數 50關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

親子

本地

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

GPT-5.5 發布，詳細解讀

DeepSeek V4發布！黃仁勛預言的"災難"降臨

小伙被困隧道給母親留遺言：我救了個人可能出不去了

小伙被困隧道給母親留遺言：我救了個人可能出不去了

那一刻開始，兩支球隊的命運悄然改變了

《我們的爸爸2》第一季完美爸爸翻車了

90%訂單消失，中東旺季沒了

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

安徽黃山：呈坎古村嬉魚燈

總感覺她們兩是上輩子的情人！

云游中國｜逛世界風箏都 留學生探秘中國傳統文化

伊朗總統：不會在壓力、威脅下進行談判

2026款樂道L90亮相北京車展樂道L80正式官宣

云游中國｜逛世界風箏都留學生探秘中國傳統文化