網易首頁 > 網易號 > 正文 申請入駐

GPT5.5深夜炸場,這次OpenAI又行了

0
分享至


出品|虎嗅科技組

作者|趙致格

編輯|苗正卿

頭圖|視覺中國

曾經,OpenAI CEO奧特曼用“嚇暈癱坐在椅子上,彷佛看到原子彈爆炸”來形容自己初次使用GPT5的體驗。然而,當人們最終發現這次更新遠沒有期待中的驚艷時,這段夸張的描述反而成為了人們反復嘲諷OpenAI的網梗。

然而在4月24日,OpenAI在事前并沒有進行預告鋪墊的情況下半夜發布的GPT5.5,卻帶來了不小的驚喜。官方稱GPT5.5是一種面向實際工作和智能體的新型智能,主打Agent編程、知識工作、科學研究等。目前,GPT5.5已經面向ChatGPT和Codex的Plus、Business、Enterprise用戶推出,API也將隨后發布。

雖然沒人被“嚇癱”,但從各類第三方網站的評分看,GPT5.5的綜合表現確實優異,不僅比GPT5.4大幅進步,也在多個領域超越了Claude Opus 4.7、Gemini 3.1 Pro等主要競爭對手。可以說,在過去一段時間里飽受質疑的OpenAI今天打了個漂亮的翻身仗。

在OpenAI內部設立的,針對20小時長周期軟件工程的Expert-SWE測評中,GPT-5.5的成功率來到了驚人的73.1%,顯著高于上一代GPT5.4的68.5%。

在衡量復雜命令行工作流的Terminal-Bench2.0的測試中,GPT5.5的評分達到82.7%,遠高于Claude的69.4%。在知識工作任務GDPval、高級數學測試FrontierMath、衡量真實電腦操作能力的OSWorld-Verified等維度,GPT5.5的評分均高出競爭對手一截。

GPT5.5的編程能力較為出色,但Opus4.7在SweetBench Pro測試中的表現依然保持領先地位。GPT5.5在測試中的得分為58.6%,低于Opus4.7的64.3%。但是對于這個成績,OpenAI也進行了進一步說明,稱行業內已有報告指出該評測存在過擬合現象,無法代表真實的編程能力。

GPT還有一個顯著提升的維度就是網絡安全。在CyberGym測試中,GPT5.5的得分為81.8%,高過了Opus 4.7的73.1%。在CTF“奪旗”挑戰中,GPT5.5的得分為881%,高于GPT5.4的83.7%。

雖然GPT在多個領域正在變得更聰明,但OpenAI更樂于強調這是一個專為真實工作和智能體任務打造的模型。OpenAI的X官方賬號稱,GPT5.5“旨在理解復雜目標、使用工具、檢查其工作,并將更多任務進行到底”,而它的出現“標志著完成計算機工作的全新方式”。

用更直白的話說,這次升級讓GPT有了能自己干活的能力,從輔助決策變成了參與執行。人類直接把一個亂糟糟的復雜任務丟給GPT5.5,它就可以通過理解目標、拆解步驟、調用工具、修正過程的流程交付出最終結果。

為了更好說明這一點,OpenAI還公布了公司內部對產品的使用情況。目前,OpenAI有超過85%的員工每周跨部門使用搭載GPT5.5的Codex。而公司的財務團隊已經用GPT5.5完成了24771份,共計7萬余頁的稅表審核,比往年提前兩年完工。

不過,這次升級似乎還沒有一步到位,讓人們可以完全放手。多個第三方評測都提到了GPT-5.5對任務邊界的依賴更強。當人們的需求描述不清楚時,它不會主動幫你補全,而是會按現有信息執行。這種“服從”在某些場景是優點,在另一些場景反而是缺陷。

AI大模型的智慧和速度往往被視為不可兼得,更大的模型和更多的參數就意味著更長的思考時間。但在這次更新中,OpenAI官方稱GPT5.5在智能水平大幅提高的同時,真實服務中的速度與GPT5.4保持了一致。

GPT5.5的另一大特征就是更加節省Token,將Token消耗降低到了前一代的36分之一。在同類的Codex任務里,GPT5.5也只需要更少的Token就能完成。這也意味著,雖然此次API的價格大幅上漲至每百萬Token 5美元,pro版30美元,但因為效率的提升和Token消耗的減少,實際增加的成本不多。

OpenAI聯合創始人兼總裁格雷格·布羅克曼(Greg Brockman)提到這一點時表示,“讓企業和普通用戶都能用上更前沿的AI能力”是公司的目標之一。

當OpenAI帶著新模型重回巔峰時,Anthropic最近卻比較煩。長期主打安全牌卻爆出了安全丑聞、對重度付費用戶嚴厲限流、大面積無差別封號等事件都引發了巨大爭議,日益高企的Token費用和Token消耗也讓很多人直呼“用不起”。

此前OpenAI在內部郵件中說自己相對于Anthropic的優勢是算力。現在,隨著算力充足的OpenAI大秀肌肉,而Anthropic在算力吃緊中體驗不斷打折,這兩位一度“貼身肉搏”的死對頭似乎又有了拉開差距的趨勢。

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4853572.html?f=wyxwapp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
72歲林青霞現身香港中文大學,頭發濃密,發際線也沒上移狀態超好

72歲林青霞現身香港中文大學,頭發濃密,發際線也沒上移狀態超好

點點細語
2026-04-25 20:15:26
恒大集團與特朗普合作往事

恒大集團與特朗普合作往事

地產微資訊
2026-04-24 18:09:33
凈利暴增68902%!多家A股公司,一季度盈利翻倍

凈利暴增68902%!多家A股公司,一季度盈利翻倍

21世紀經濟報道
2026-04-25 20:13:35
小玥兒12歲生日冷清!汪小菲馬筱梅毫無表示,往年大排場反差刺眼

小玥兒12歲生日冷清!汪小菲馬筱梅毫無表示,往年大排場反差刺眼

人間煙火記事本
2026-04-25 06:25:08
斯諾克戰報:世界第2轟六連鞭,仍7-9恐爆冷!中國冠軍黑球大血洗

斯諾克戰報:世界第2轟六連鞭,仍7-9恐爆冷!中國冠軍黑球大血洗

林子說事
2026-04-25 17:39:13
人民日報發聲:優秀孩子從來不是放養出來的,而是嚴格管教出來的

人民日報發聲:優秀孩子從來不是放養出來的,而是嚴格管教出來的

王姐懶人家常菜
2026-04-23 21:52:46
奔馳快養不起北京汽車了

奔馳快養不起北京汽車了

汽車K線
2026-04-24 07:30:06
新款大眾ID. Buzz官圖發布!網友:價格25萬起,肯定排隊

新款大眾ID. Buzz官圖發布!網友:價格25萬起,肯定排隊

汽車網評
2026-04-23 23:00:31
金莎備孕成功刷屏,原來3年前就凍了7枚胚胎!高齡懷孕不再憑運氣

金莎備孕成功刷屏,原來3年前就凍了7枚胚胎!高齡懷孕不再憑運氣

一盅情懷
2026-04-25 19:31:31
ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

芯火相承
2026-04-23 17:33:03
四川成都一小區火災致5死2傷,深圳電動車早就不能進樓棟了

四川成都一小區火災致5死2傷,深圳電動車早就不能進樓棟了

九方魚論
2026-04-25 14:29:53
美國人為啥不買中國車?福特CEO:自己開中國車,讓美國人買破車

美國人為啥不買中國車?福特CEO:自己開中國車,讓美國人買破車

賤議你讀史
2026-04-25 10:20:03
斯諾克最新排名,斯佳輝出局丁俊暉跌至15,趙心童有望世界第二

斯諾克最新排名,斯佳輝出局丁俊暉跌至15,趙心童有望世界第二

林子說事
2026-04-25 08:07:51
被罰16分逆轉!韋克林1-4到4-4,追平羅伯遜,趙心童再戰丁俊暉!

被罰16分逆轉!韋克林1-4到4-4,追平羅伯遜,趙心童再戰丁俊暉!

劉姚堯的文字城堡
2026-04-25 21:19:50
陳賡把386旅經營的鐵板一塊,劉伯承十分羨慕:你還算是129師的不

陳賡把386旅經營的鐵板一塊,劉伯承十分羨慕:你還算是129師的不

史之銘
2026-04-25 20:01:27
“窮人炫富,難掩心酸!”男大學生炫耀坐高鐵一等座,因長相被嘲

“窮人炫富,難掩心酸!”男大學生炫耀坐高鐵一等座,因長相被嘲

妍妍教育日記
2026-04-24 09:05:03
一天4個瓜!出軌劈腿、知三當三、昔日夫妻反目,一個比一個炸裂

一天4個瓜!出軌劈腿、知三當三、昔日夫妻反目,一個比一個炸裂

小噎論事
2026-04-24 19:13:08
上海一市民通過12345“隨申拍”舉報地鐵站臺吸煙者,收到答復:巡視員未發現,若發現會制止,不配合會報警,市民:理解但希望加強巡視

上海一市民通過12345“隨申拍”舉報地鐵站臺吸煙者,收到答復:巡視員未發現,若發現會制止,不配合會報警,市民:理解但希望加強巡視

縱相新聞
2026-04-25 01:04:05
剛發布就落伍!DeepSeek V4竟坦承不如GPT-5.4

剛發布就落伍!DeepSeek V4竟坦承不如GPT-5.4

電腦報少年派
2026-04-24 14:34:49
因為大鼻子又火了!北大校友會副會長給泰華中學做宣傳,鼻子太搶眼

因為大鼻子又火了!北大校友會副會長給泰華中學做宣傳,鼻子太搶眼

趣筆談
2026-04-23 12:35:03
2026-04-25 22:35:00
虎嗅APP incentive-icons
虎嗅APP
個性化商業資訊與觀點交流平臺
26182文章數 687689關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

房產
數碼
本地
游戲
公開課

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

數碼要聞

蘋果視頻特效怎么做的?

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

《魔獸世界》更新翻車:暴雪官方緊急致歉!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版