網易首頁 > 網易號 > 正文 申請入駐

GPT5.5深夜炸場,這次OpenAI又行了

0
分享至


出品|虎嗅科技組

作者|趙致格

編輯|苗正卿

頭圖|視覺中國

曾經,OpenAI CEO奧特曼用“嚇暈癱坐在椅子上,彷佛看到原子彈爆炸”來形容自己初次使用GPT5的體驗。然而,當人們最終發現這次更新遠沒有期待中的驚艷時,這段夸張的描述反而成為了人們反復嘲諷OpenAI的網梗。

然而在4月24日,OpenAI在事前并沒有進行預告鋪墊的情況下半夜發布的GPT5.5,卻帶來了不小的驚喜。官方稱GPT5.5是一種面向實際工作和智能體的新型智能,主打Agent編程、知識工作、科學研究等。目前,GPT5.5已經面向ChatGPT和Codex的Plus、Business、Enterprise用戶推出,API也將隨后發布。

雖然沒人被“嚇癱”,但從各類第三方網站的評分看,GPT5.5的綜合表現確實優異,不僅比GPT5.4大幅進步,也在多個領域超越了Claude Opus 4.7、Gemini 3.1 Pro等主要競爭對手。可以說,在過去一段時間里飽受質疑的OpenAI今天打了個漂亮的翻身仗。

在OpenAI內部設立的,針對20小時長周期軟件工程的Expert-SWE測評中,GPT-5.5的成功率來到了驚人的73.1%,顯著高于上一代GPT5.4的68.5%。

在衡量復雜命令行工作流的Terminal-Bench2.0的測試中,GPT5.5的評分達到82.7%,遠高于Claude的69.4%。在知識工作任務GDPval、高級數學測試FrontierMath、衡量真實電腦操作能力的OSWorld-Verified等維度,GPT5.5的評分均高出競爭對手一截。

GPT5.5的編程能力較為出色,但Opus4.7在SweetBench Pro測試中的表現依然保持領先地位。GPT5.5在測試中的得分為58.6%,低于Opus4.7的64.3%。但是對于這個成績,OpenAI也進行了進一步說明,稱行業內已有報告指出該評測存在過擬合現象,無法代表真實的編程能力。

GPT還有一個顯著提升的維度就是網絡安全。在CyberGym測試中,GPT5.5的得分為81.8%,高過了Opus 4.7的73.1%。在CTF“奪旗”挑戰中,GPT5.5的得分為881%,高于GPT5.4的83.7%。

雖然GPT在多個領域正在變得更聰明,但OpenAI更樂于強調這是一個專為真實工作和智能體任務打造的模型。OpenAI的X官方賬號稱,GPT5.5“旨在理解復雜目標、使用工具、檢查其工作,并將更多任務進行到底”,而它的出現“標志著完成計算機工作的全新方式”。

用更直白的話說,這次升級讓GPT有了能自己干活的能力,從輔助決策變成了參與執行。人類直接把一個亂糟糟的復雜任務丟給GPT5.5,它就可以通過理解目標、拆解步驟、調用工具、修正過程的流程交付出最終結果。

為了更好說明這一點,OpenAI還公布了公司內部對產品的使用情況。目前,OpenAI有超過85%的員工每周跨部門使用搭載GPT5.5的Codex。而公司的財務團隊已經用GPT5.5完成了24771份,共計7萬余頁的稅表審核,比往年提前兩年完工。

不過,這次升級似乎還沒有一步到位,讓人們可以完全放手。多個第三方評測都提到了GPT-5.5對任務邊界的依賴更強。當人們的需求描述不清楚時,它不會主動幫你補全,而是會按現有信息執行。這種“服從”在某些場景是優點,在另一些場景反而是缺陷。

AI大模型的智慧和速度往往被視為不可兼得,更大的模型和更多的參數就意味著更長的思考時間。但在這次更新中,OpenAI官方稱GPT5.5在智能水平大幅提高的同時,真實服務中的速度與GPT5.4保持了一致。

GPT5.5的另一大特征就是更加節省Token,將Token消耗降低到了前一代的36分之一。在同類的Codex任務里,GPT5.5也只需要更少的Token就能完成。這也意味著,雖然此次API的價格大幅上漲至每百萬Token 5美元,pro版30美元,但因為效率的提升和Token消耗的減少,實際增加的成本不多。

OpenAI聯合創始人兼總裁格雷格·布羅克曼(Greg Brockman)提到這一點時表示,“讓企業和普通用戶都能用上更前沿的AI能力”是公司的目標之一。

當OpenAI帶著新模型重回巔峰時,Anthropic最近卻比較煩。長期主打安全牌卻爆出了安全丑聞、對重度付費用戶嚴厲限流、大面積無差別封號等事件都引發了巨大爭議,日益高企的Token費用和Token消耗也讓很多人直呼“用不起”。

此前OpenAI在內部郵件中說自己相對于Anthropic的優勢是算力。現在,隨著算力充足的OpenAI大秀肌肉,而Anthropic在算力吃緊中體驗不斷打折,這兩位一度“貼身肉搏”的死對頭似乎又有了拉開差距的趨勢。

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4853572.html?f=wyxwapp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2015年,97歲溥任離世,溥儀永遠不知,弟弟的三個兒子有多厲害

2015年,97歲溥任離世,溥儀永遠不知,弟弟的三個兒子有多厲害

邊城少爺
2026-04-25 00:20:31
赴美簽證更難了?美國使館要求:申請人需公開社交媒體賬戶

赴美簽證更難了?美國使館要求:申請人需公開社交媒體賬戶

緬甸中文網
2026-04-24 18:17:44
上海殘陣都能掀翻山東!8人輪換各個發揮,這陣容厚度太恐怖了!

上海殘陣都能掀翻山東!8人輪換各個發揮,這陣容厚度太恐怖了!

籃球資訊達人
2026-04-24 23:39:49
廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

今日搞笑分享
2026-04-06 17:55:16
知名歌手因搶不到五一高鐵票取消演唱會!

知名歌手因搶不到五一高鐵票取消演唱會!

深圳晚報
2026-04-23 19:29:44
中央定調,2026年養老金或變動,低于3600,補發7個月能漲700嗎?

中央定調,2026年養老金或變動,低于3600,補發7個月能漲700嗎?

云鵬敘事
2026-04-24 10:22:17
人社部、財政部通知:支持大學畢業生“回爐”讀技校

人社部、財政部通知:支持大學畢業生“回爐”讀技校

深度報
2026-04-23 22:43:47
假空姐大鬧亞航后續:賬號被扒出,曾穿地勤制服,十級美顏認不出

假空姐大鬧亞航后續:賬號被扒出,曾穿地勤制服,十級美顏認不出

離離言幾許
2026-04-24 21:38:49
體制內硬剛領導會是什么下場?網友"鐵頭娃"式回答,大徹大悟

體制內硬剛領導會是什么下場?網友"鐵頭娃"式回答,大徹大悟

夜深愛雜談
2026-04-24 07:32:39
斯諾克世錦賽:8強出第2席,4月25日賽程,丁俊暉vs趙心童2階段

斯諾克世錦賽:8強出第2席,4月25日賽程,丁俊暉vs趙心童2階段

郝小小看體育
2026-04-25 01:28:24
姆巴佩浪費良機,熊皇破門難救主!遭94分鐘絕平,皇馬功虧一簣

姆巴佩浪費良機,熊皇破門難救主!遭94分鐘絕平,皇馬功虧一簣

我的護球最獨特
2026-04-25 05:08:23
英媒:誰在伊朗戰爭中精準押注獲利?

英媒:誰在伊朗戰爭中精準押注獲利?

參考消息
2026-04-23 20:52:20
上海公司一“超級勞模”,每天最早到最晚走!做的事卻把老板氣哭……

上海公司一“超級勞模”,每天最早到最晚走!做的事卻把老板氣哭……

環球網資訊
2026-04-24 18:37:02
千年難遇的美人,太漂亮了,沒有一點毛病,太完美了

千年難遇的美人,太漂亮了,沒有一點毛病,太完美了

情感大頭說說
2026-04-24 12:46:24
女優排行榜揭曉,河北彩花位列第一,你認得幾位女演員?

女優排行榜揭曉,河北彩花位列第一,你認得幾位女演員?

孤獨的獨角獸影視
2026-04-24 10:30:09
李嘉欣現身倫敦街頭被路人偶遇,頂級骨相美到發光完全不像55歲

李嘉欣現身倫敦街頭被路人偶遇,頂級骨相美到發光完全不像55歲

喜歡歷史的阿繁
2026-04-24 11:57:41
吳法憲出獄后,安置在濟南,同時告訴他有四個安排

吳法憲出獄后,安置在濟南,同時告訴他有四個安排

歷史甄有趣
2026-04-24 07:25:10
家長曬“10歲女兒臭腳”,網友:父母童年凄慘,女兒也會養得很差

家長曬“10歲女兒臭腳”,網友:父母童年凄慘,女兒也會養得很差

妍妍教育日記
2026-04-16 08:00:07
600億訂單引爆A股!創新藥板塊強勢崛起,價值重估窗口已打開?

600億訂單引爆A股!創新藥板塊強勢崛起,價值重估窗口已打開?

小白鴿財經
2026-04-24 20:30:03
最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
2026-04-25 09:20:49
虎嗅APP incentive-icons
虎嗅APP
個性化商業資訊與觀點交流平臺
26177文章數 687691關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

兩屆奧運冠軍、中國羽協主席張軍"失聯" 知情人士發聲

頭條要聞

兩屆奧運冠軍、中國羽協主席張軍"失聯" 知情人士發聲

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強一季

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

旅游
本地
時尚
手機
公開課

旅游要聞

去景區走野路挖筍鼻梁被筍戳穿 竟起訴景區賠償

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

朱珠到底為什么接這部劇?

手機要聞

iQOO 15T首曝:天璣9500+144Hz 2K直屏+200MP主攝,主打一個堆料

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版