![]()
出品|虎嗅科技組
作者|趙致格
編輯|苗正卿
頭圖|視覺中國
曾經,OpenAI CEO奧特曼用“嚇暈癱坐在椅子上,彷佛看到原子彈爆炸”來形容自己初次使用GPT5的體驗。然而,當人們最終發現這次更新遠沒有期待中的驚艷時,這段夸張的描述反而成為了人們反復嘲諷OpenAI的網梗。
然而在4月24日,OpenAI在事前并沒有進行預告鋪墊的情況下半夜發布的GPT5.5,卻帶來了不小的驚喜。官方稱GPT5.5是一種面向實際工作和智能體的新型智能,主打Agent編程、知識工作、科學研究等。目前,GPT5.5已經面向ChatGPT和Codex的Plus、Business、Enterprise用戶推出,API也將隨后發布。
雖然沒人被“嚇癱”,但從各類第三方網站的評分看,GPT5.5的綜合表現確實優異,不僅比GPT5.4大幅進步,也在多個領域超越了Claude Opus 4.7、Gemini 3.1 Pro等主要競爭對手。可以說,在過去一段時間里飽受質疑的OpenAI今天打了個漂亮的翻身仗。
在OpenAI內部設立的,針對20小時長周期軟件工程的Expert-SWE測評中,GPT-5.5的成功率來到了驚人的73.1%,顯著高于上一代GPT5.4的68.5%。
在衡量復雜命令行工作流的Terminal-Bench2.0的測試中,GPT5.5的評分達到82.7%,遠高于Claude的69.4%。在知識工作任務GDPval、高級數學測試FrontierMath、衡量真實電腦操作能力的OSWorld-Verified等維度,GPT5.5的評分均高出競爭對手一截。
GPT5.5的編程能力較為出色,但Opus4.7在SweetBench Pro測試中的表現依然保持領先地位。GPT5.5在測試中的得分為58.6%,低于Opus4.7的64.3%。但是對于這個成績,OpenAI也進行了進一步說明,稱行業內已有報告指出該評測存在過擬合現象,無法代表真實的編程能力。
GPT還有一個顯著提升的維度就是網絡安全。在CyberGym測試中,GPT5.5的得分為81.8%,高過了Opus 4.7的73.1%。在CTF“奪旗”挑戰中,GPT5.5的得分為881%,高于GPT5.4的83.7%。
雖然GPT在多個領域正在變得更聰明,但OpenAI更樂于強調這是一個專為真實工作和智能體任務打造的模型。OpenAI的X官方賬號稱,GPT5.5“旨在理解復雜目標、使用工具、檢查其工作,并將更多任務進行到底”,而它的出現“標志著完成計算機工作的全新方式”。
用更直白的話說,這次升級讓GPT有了能自己干活的能力,從輔助決策變成了參與執行。人類直接把一個亂糟糟的復雜任務丟給GPT5.5,它就可以通過理解目標、拆解步驟、調用工具、修正過程的流程交付出最終結果。
為了更好說明這一點,OpenAI還公布了公司內部對產品的使用情況。目前,OpenAI有超過85%的員工每周跨部門使用搭載GPT5.5的Codex。而公司的財務團隊已經用GPT5.5完成了24771份,共計7萬余頁的稅表審核,比往年提前兩年完工。
不過,這次升級似乎還沒有一步到位,讓人們可以完全放手。多個第三方評測都提到了GPT-5.5對任務邊界的依賴更強。當人們的需求描述不清楚時,它不會主動幫你補全,而是會按現有信息執行。這種“服從”在某些場景是優點,在另一些場景反而是缺陷。
AI大模型的智慧和速度往往被視為不可兼得,更大的模型和更多的參數就意味著更長的思考時間。但在這次更新中,OpenAI官方稱GPT5.5在智能水平大幅提高的同時,真實服務中的速度與GPT5.4保持了一致。
GPT5.5的另一大特征就是更加節省Token,將Token消耗降低到了前一代的36分之一。在同類的Codex任務里,GPT5.5也只需要更少的Token就能完成。這也意味著,雖然此次API的價格大幅上漲至每百萬Token 5美元,pro版30美元,但因為效率的提升和Token消耗的減少,實際增加的成本不多。
OpenAI聯合創始人兼總裁格雷格·布羅克曼(Greg Brockman)提到這一點時表示,“讓企業和普通用戶都能用上更前沿的AI能力”是公司的目標之一。
當OpenAI帶著新模型重回巔峰時,Anthropic最近卻比較煩。長期主打安全牌卻爆出了安全丑聞、對重度付費用戶嚴厲限流、大面積無差別封號等事件都引發了巨大爭議,日益高企的Token費用和Token消耗也讓很多人直呼“用不起”。
此前OpenAI在內部郵件中說自己相對于Anthropic的優勢是算力。現在,隨著算力充足的OpenAI大秀肌肉,而Anthropic在算力吃緊中體驗不斷打折,這兩位一度“貼身肉搏”的死對頭似乎又有了拉開差距的趨勢。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4853572.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.