網易首頁 > 網易號 > 正文 申請入駐

GPT-5.5 贏了 Opus 4.7 和 Mythos?奧特曼曬黃仁勛內部信:英偉達全員用上 Codex!

0
分享至

  

  整理 | 褚杏娟

  OpenAI 今天發布了 GPT-5.5,稱其為公司迄今“最聰明、最直覺化”的模型,也是面向真實工作的全新智能形態。相比上一代,GPT-5.5 的重點是進一步承擔復雜任務中的規劃、工具調用、結果檢查和跨工具執行,被 OpenAI 定位為推動“用 AI 在電腦上完成工作”的關鍵一步。

  贏了 Opus 4.7 和 Mythos?

  在與 Anthropic 矛盾日益激烈的放下,GPT-5.5 發布后,很多人關注的就是到底誰家模型更強,加上 Opus 4.7 發布后的負面反饋非常多,GPT-5.5 的發布更加引人關注。

  GPT-5.5 的提升集中體現在四個方向:智能體式編碼、電腦使用、知識工作和早期科學研究。這些領域的共同特點是,任務往往需要長上下文推理、持續行動和跨工具執行,而不是單輪問答。

  OpenAI 表示,GPT-5.5 能更快理解用戶意圖,并能自行承擔更多任務流程,包括編寫和調試代碼、在線研究、數據分析、創建文檔和電子表格、操作軟件,以及在多個工具之間切換直至任務完成。

  與需要用戶逐步拆解和指揮的傳統對話模型不同,OpenAI 將 GPT-5.5 描述為更接近“智能體式工作模型”:用戶可以直接交給它一個混亂、復雜、多部分的任務,由模型自行規劃、使用工具、檢查結果,并在不確定環境中持續推進。

  專注 AI Agent 安全與自治組織實驗的公司 Andon Labs,提前拿到了 GPT-5.5 的訪問權限。測試后,它在 Vending-Bench 2 上排名第三:表現優于 GPT-5.4,但不如 Opus 4.7。不過,它的成績與 Opus 4.6 基本持平,而且沒有出現在 Opus 4.6 和 Mythos 身上看到的任何欺騙或權力尋求行為?!八?,糟糕行為并不是取得好成績的必要條件。那 Claude 為什么還會這么做?”Andon Labs 發問。

  另外 Andon Labs 表示,在 Vending-Bench Arena 中,也就是帶有競爭動態的多人版 Vending-Bench 里,GPT-5.5 實際上擊敗了 Opus 4.7。Opus 4.7 表現出了與 Opus 4.6 類似的行為:對供應商撒謊,并拒絕給客戶退款。GPT-5.5 的策略則是干凈的,但它依然贏了?!?/p>

  

  值得注意的是,Altman 也轉發了這個推特。

  

  網友 Chetaslua 做了 GPT-5.5 和 Mythos 的對比,并表示,“這是兩者的基準測試對比,大家看著玩。順便一提,Mythos 可以說是‘幻覺之王’,而 5.5 在效率方面表現非常好,而且已經公開可用。”

  

  Artificial Analysis 也直接道,“GPT-5.5 讓 OpenAI 重新回到 AI 領域毫無爭議的第一名。OpenAI 的新模型在 Artificial Analysis 智能指數上領先 3 分,打破了此前與 Anthropic、Google 三方并列第一的局面。”

  

  Matthew Berman 過去兩周一直在測試 GPT-5.5,他的感受是:OpenAI 這次追求的不只是純粹智能,他們還改進了模型的“活人感”?!斑@幾乎可以肯定是為了搶占更多個人 Agent,也就是 OpenClaw 這類市場。它的回答更短、更像真人,也沒那么正式。它真的開始有‘性格’了?!彼治龅馈?/p>

  Berman 表示,Anthropic 現在還在主動防止你把 Opus token 用在它們自家 harness 之外,而 OpenAI 正在反過來優化模型,讓它更適合這種使用場景。如果你之前在用 OpenClaw,并且覺得換成 GPT 之后你的 Agent 像是“丟了靈魂”,現在可以用 5.5 再試一次。

  GPT-5.5 是一個昂貴模型,比 GPT-5.4 更貴。但它的 token 效率明顯更高。要達到 GPT-5.4 級別的智能表現,GPT-5.5 需要的 token 少得多。所以整體跑下來,5.5 的運行成本應該更低。這件事可能比大多數人意識到的更重要。

  但它到底好不好?Berman 給出了肯定的回答,“好,而且非常強?!?/p>

  GPT-5.5 有兩種使用形態:Codex 和 Pro。Berman 表示,在 Codex 里,它代表了當前智能體式編碼能力的絕對前沿。它能發現并解決復雜 bug,能構建完整應用,也能輕松理解大型代碼庫。它在后端能力上強過 Opus,但在前端設計上仍然不如 Opus。

  Berman 自己主要使用 medium 和 high thinking 設置?!癳xtra high 實在太慢了,而且我不覺得額外的“思考量”值得為此付出代價。Opus,尤其是 4.6 fast,仍然比任何 GPT 模型都快得多。我是一個極度重視速度的人,所以這一點對我很重要?!?/p>

  “而在 Codex 里,它就是會一直往前推進。我給它一個正在做的新項目 PRD,只說了一句‘開始做吧’。我完全相信它能把整個項目搭出來,結果它也確實做到了。讓 GPT-5.5 Codex 連續跑幾個小時去構建一個東西,不是什么問題。它在視覺檢查方面也自成一檔,是我在其他模型上沒見過的水平。它能夠通過“構建 → 視覺復查 → 繼續構建”的方式反復迭代,這種感覺比任何其他模型都更自主?!?/p>

  Berman 繼續道,“在 ChatGPT 里使用 5.5 Pro 的感覺更夸張。它真的會讓人覺得什么問題都能解決。說實話,我甚至想不出足夠難的問題來考它。而且它可以連續工作 30 分鐘、60 分鐘、90 分鐘甚至更久。它似乎也專門針對 OpenAI 的插件做了優化,比如 Google Docs、Microsoft Word 等,可以輕松創建一份 60 頁、邏輯連貫且設計良好的文檔?!?/p>

  “GPT-5.5 現在就是新的標桿。它就是前沿。除了速度之外,它已經和任何 Opus 模型一樣強,甚至在很多任務上更強?!盉erman 最后總結道。

  不過,OpenAI 此前有強調 GPT-5.5 在能力提升的同時沒有犧牲速度。該公司稱,在真實服務場景中,GPT-5.5 的單 token 延遲與 GPT-5.4 持平,但智能水平顯著提升;在完成相同 Codex 任務時,GPT-5.5 使用的 token 也明顯更少。

  據悉,GPT-5.5 與 NVIDIA GB200 和 GB300 NVL72 系統共同設計、訓練并部署。

  OpenAI 表示,模型幫助改進了服務模型自身的基礎設施。一個典型例子是負載均衡和分區啟發式算法。此前,OpenAI 會將加速器上的請求拆分成固定數量的塊,以平衡計算核心之間的工作負載。但靜態分塊并不適合所有流量形態。OpenAI 稱,Codex 分析了數周的生產流量模式,并編寫自定義啟發式算法優化分區和負載均衡,使 token 生成速度提升超過 20%。

  “恰好”,Sam Altman 在推特上分享了他與黃仁勛發的郵件往來。黃仁勛在給 Altman 的郵件中寫道(此前,Altman 發郵件稱“由 GPT-5.5 驅動的 OpenAI Codex 已經發布,并且現在每一位 NVIDIA 員工都可以使用!”):

我剛剛把這封郵件發給了 NVIDIA 員工。 非常興奮,我們所有人都將使用 Codex 來加速工作,并完成以前不可能完成的事情。請代我向你的團隊表示祝賀,他們再次向世界展示了前沿所在。 也請再次感謝他們發明了 GPT,它給了我們一個跳板,讓我們能夠推理、規劃、使用工具,并走向更遠的地方。 開動那些 Blackwell 吧。我們需要更多 token!

  

  但無論如何,從社區反饋看,GPT-5.5 的認可度非常高。

  

  類微軟的商業模式?

  當前,GPT-5.5、GPT-5.5 Pro、GPT-5.5 Thinking 面向付費用戶開放:

  GPT-5.5 面向 ChatGPT 和 Codex 中的 Plus、Pro、Business、Enterprise 用戶推出;GPT-5.5 Pro 面向 ChatGPT 的 Pro、Business、Enterprise 用戶開放;GPT-5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用戶。

  在 Codex 中,GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu 和 Go 計劃開放,上下文窗口為 400K。GPT-5.5 也提供 Fast 模式,生成 token 速度提升 1.5 倍,但成本為 2.5 倍。

  API 版本尚未同步上線,但應該很快。OpenAI 表示 GPT-5.5 很快將在 Responses API 和 Chat Completions API 中開放,定價為 5 美元 / 百萬輸入 token、30 美元 / 百萬輸出 token ,上下文窗口為 100 萬。Batch 和 Flex 價格為標準 API 價格的一半,Priority 處理為標準價格的 2.5 倍。Pro 版本的定價為 30 美元 / 百萬輸入 token;180 美元 / 百萬輸出 token。

  OpenAI 承認,GPT-5.5 的價格高于 GPT-5.4,但強調其更智能且更節省 token。在 Codex 場景中,公司稱 GPT-5.5 對多數用戶來說能用更少 token 交付更好結果。

  Aakash Gupta 則分析認為,OpenAI 找到了自己的商業模式,而且看起來很像那個讓微軟成為 3 萬億美元公司的模式。他解釋道:

  如果你認真算一筆賬,GPT-5.5 的定價其實已經說明了一切。

  GPT-5 在 8 月發布時,價格是 0.63 美元 / 百萬輸入 token。GPT-5.4 在 3 月推出時,漲到了 2.50 美元 / 百萬輸入 token。僅僅七周后,GPT-5.5 的價格來到 5.00 美元 / 百萬輸入 token。也就是說,8 個月里,輸入價格漲了 8 倍,而每一代模型的提升更多是漸進式的。

  Nvidia 表示,其最新芯片可以將每 token 推理成本最高降低約 97%。OpenAI 的成本基礎正在快速下探,但價格卻在上漲。這里發生的利潤率擴張,在企業軟件歷史上幾乎前所未見。

  9 億周活用戶,5000 萬訂閱用戶,900 萬付費企業客戶。僅按每月 20 美元計算,訂閱用戶本身就能帶來約 120 億美元年化收入。而 API 漲價瞄準的,則是在 OpenAI 基礎設施之上構建 Agent 的開發者。每一家為 GPT-5.5 推理支付 2 倍成本的 AI 初創公司,實際上都在為 OpenAI 自己的競爭產品提供資金。

  Brockman 把不能明說的話說出來了:他們正在打造一個把 ChatGPT、Codex 和瀏覽器整合到同一平臺里的“超級 App”。每一個基于 GPT-5.5 構建 Agent 的開發者,都是在付錢給 OpenAI,讓它打造那個最終可能取代自己的東西。

  7 周一次的發布節奏,會以競爭對手難以追上的速度不斷疊加切換成本。只要發布得足夠快,讓客戶不斷圍繞你的格式重建提示詞和工作流管線,之后每一輪再漲價,因為他們已經很難離開。

  下面,我們具體看下官方給出的模型測評情況。

  四大能力提升

  

  編程能力繼續強化

  在 OpenAI 公布的評測中,GPT-5.5 在智能體式編碼方面取得明顯提升。

  在 Terminal-Bench 2.0 上,GPT-5.5 得分為 82.7%,高于 GPT-5.4 的 75.1%,也高于 Claude Opus 4.7 的 69.4% 和 Gemini 3.1 Pro 的 68.5%。該評測主要考察模型在復雜命令行工作流中的規劃、迭代和工具協作能力。

  

  在 SWE-Bench Pro 上,GPT-5.5 得分為 58.6%,略高于 GPT-5.4 的 57.7%,但低于 Claude Opus 4.7 的 64.3%。OpenAI 同時指出,已有實驗室認為該評測存在記憶化風險。

  在 OpenAI 內部的 Expert-SWE 評測中,GPT-5.5 得分為 73.1%,高于 GPT-5.4 的 68.5%。該評測面向更長周期的前沿編碼任務,任務預估人類完成時間中位數為 20 小時。

  OpenAI 稱,GPT-5.5 在 Codex 中尤其適合承擔實現、重構、調試、測試和驗證等真實工程任務。早期測試顯示,它更擅長在大型系統中保持上下文,推理模糊故障,用工具檢查假設,并將變更貫穿到周邊代碼庫中。

  多位早期測試者也為 GPT-5.5 的編碼能力背書。Every 創始人兼 CEO Dan Shipper 稱其為“第一個真正具備嚴肅概念清晰度的編碼模型”。Cursor 聯合創始人兼 CEO Michael Truell 表示,GPT-5.5 比 GPT-5.4 “明顯更聰明、更持久”,工具使用更可靠,能夠在復雜長任務中更長時間保持推進。

  知識工作

  除了編碼,OpenAI 將 GPT-5.5 的另一個重點放在知識工作上。公司稱,GPT-5.5 能更自然地完成尋找信息、理解重點、使用工具、檢查輸出、生成成果這一完整工作閉環。

  在 Codex 中,GPT-5.5 相比 GPT-5.4 更擅長生成文檔、電子表格和幻燈片。OpenAI 表示,Alpha 測試用戶認為它在運營研究、表格建模、將混亂商業輸入轉化為計劃等任務上超過此前模型。結合 Codex 的電腦使用能力后,GPT-5.5 可以看到屏幕內容、點擊、輸入、導航界面,并在工具之間切換。

  OpenAI 還披露了內部使用情況:目前公司超過 85% 的員工每周都在使用 Codex,覆蓋軟件工程、財務、傳播、市場、數據科學和產品管理等部門。

  比如財務團隊用 Codex 審查了 24,771 份 K-1 稅務表格,總計 71,637 頁,并通過排除個人信息的工作流,比上一年提前兩周完成任務。Go-to-Market 團隊中,也有員工用其自動生成每周業務報告,每周節省 5 到 10 小時。

  在專業工作評測中,GPT-5.5 在 GDPval 上得分 84.9%,高于 GPT-5.4 的 83.0%、Claude Opus 4.7 的 80.3% 和 Gemini 3.1 Pro 的 67.3%。在 OSWorld-Verified 上,GPT-5.5 得分為 78.7%,略高于 GPT-5.4 的 75.0%,也略高于 Claude Opus 4.7 的 78.0%。在 Tau2-bench Telecom 上,GPT-5.5 在沒有提示詞調優的情況下達到 98.0%。

  

  科學研究

  OpenAI 還將 GPT-5.5 描述為科研工作流中的重要進展。公司認為,科學研究不只是回答難題,還包括探索想法、收集證據、測試假設、解釋結果,并決定下一步實驗方向,而 GPT-5.5 在這一循環中的持續推進能力更強。

  在 GeneBench 上,GPT-5.5 得分 25.0%,高于 GPT-5.4 的 19.0%;GPT-5.5 Pro 得分 33.2%,高于 GPT-5.4 Pro 的 25.6%。GeneBench 聚焦遺傳學和定量生物學中的多階段科學數據分析,要求模型處理不完整、有噪聲甚至存在隱藏混雜因素的數據。

  在 BixBench 上,GPT-5.5 得分為 80.5%,高于 GPT-5.4 的 74.0%。OpenAI 稱,這表明 GPT-5.5 已經能夠在生物信息學和數據分析任務中提供有意義幫助,成為科研人員的“共同科學家”。

  OpenAI 還提到,一個搭配自定義 harness 的 GPT-5.5 內部版本,幫助發現了關于 Ramsey 數的新證明,并最終在 Lean 中得到驗證。OpenAI 將其視為 GPT-5.5 不只生成代碼或解釋,而是能夠貢獻數學論證的案例。

  早期測試者中,Jackson Laboratory for Genomic Medicine 的免疫學教授 Derya Unutmaz 使用 GPT-5.5 Pro 分析了一個包含 62 個樣本、近 28,000 個基因的基因表達數據集,并生成詳細研究報告。他表示,這項工作原本可能需要團隊花費數月時間。

  

  基因檢測

  網絡安全能力增強,安全等級被列為 High

  在安全方面,OpenAI 表示,GPT-5.5 配套了公司迄今最強的一組安全防護措施。發布前,模型經過完整的安全和治理流程,包括準備度評估、領域專項測試、針對高級生物與網絡安全能力的新評估,以及外部專家測試。

  OpenAI 將 GPT-5.5 的生物 / 化學能力和網絡安全能力在 Preparedness Framework 下評為 High。公司強調,GPT-5.5 尚未達到 Critical 網絡安全能力等級,但評測顯示其網絡安全能力相比 GPT-5.4 有明顯提升。

  在 CyberGym 上,GPT-5.5 得分為 81.8%,高于 GPT-5.4 的 79.0% 和 Claude Opus 4.7 的 73.1%。在內部 CTF 挑戰任務中,GPT-5.5 得分為 88.1%,高于 GPT-5.4 的 83.7%。

  OpenAI 表示,將對 GPT-5.5 部署更嚴格的潛在網絡風險分類器,部分用戶初期可能會感覺拒答更多或更“煩人”,但公司會持續調優。同時,OpenAI 也將通過 Trusted Access for Cyber 為經過驗證的防御者提供更少限制的訪問權限,首先從 Codex 開始,支持合法網絡防御工作。

  https://openai.com/index/introducing-gpt-5-5/

  聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
130萬皇馬球迷請愿離隊!姆巴佩心碎發聲:等我走了你們才會后悔

130萬皇馬球迷請愿離隊!姆巴佩心碎發聲:等我走了你們才會后悔

體育閑話說
2026-05-07 08:05:06
99年我回村葬母無人搭理,只有1戶人家熱心幫忙,15年后我去報恩

99年我回村葬母無人搭理,只有1戶人家熱心幫忙,15年后我去報恩

千秋文化
2025-09-05 11:30:00
8.84億的美國工廠說關就關?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關就關?曹德旺:美國不講理,我就不陪玩了

小莜讀史
2026-05-04 20:33:26
軍售放行后,日烏開始共制武器

軍售放行后,日烏開始共制武器

鳳凰WEEKLY
2026-05-06 19:44:21
有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
火箭17人合同現狀!10人合同在身,7人變自由球員,今夏全力留1人

火箭17人合同現狀!10人合同在身,7人變自由球員,今夏全力留1人

熊哥愛籃球
2026-05-07 11:36:43
吞下140億撕破臉?印尼露獠牙轉簽日本軍單!中企停產:不伺候了

吞下140億撕破臉?印尼露獠牙轉簽日本軍單!中企停產:不伺候了

史行途
2026-05-06 15:54:05
人社部發布重要消息,3個信號不同尋常,一類退休人員有福了!

人社部發布重要消息,3個信號不同尋常,一類退休人員有福了!

丁丁鯉史紀
2026-05-07 10:34:59
因截流種棉花,7000萬人的母親河,就這樣毀在一個超級大國手里!

因截流種棉花,7000萬人的母親河,就這樣毀在一個超級大國手里!

抽象派大師
2026-05-07 00:22:34
恥辱!拜仁出局頭號罪人!他親手毀掉歐冠翻盤希望

恥辱!拜仁出局頭號罪人!他親手毀掉歐冠翻盤希望

奶蓋熊本熊
2026-05-07 05:34:03
恩比德因傷缺席今日G2!76人目前0比1尼克斯

恩比德因傷缺席今日G2!76人目前0比1尼克斯

體壇周報
2026-05-07 07:10:11
純電版桑塔納?雖是惡搞,但熱度極高!

純電版桑塔納?雖是惡搞,但熱度極高!

熱點科技
2026-05-05 15:51:10
不管有錢沒錢,盡快扔掉家里的這7樣東西!不是瞎說,有科學依據

不管有錢沒錢,盡快扔掉家里的這7樣東西!不是瞎說,有科學依據

家居設計師宅哥
2026-05-04 12:45:59
社評:伊朗外長訪華,帶著一份珍貴的信任

社評:伊朗外長訪華,帶著一份珍貴的信任

環球網資訊
2026-05-06 23:33:21
讓人寒心!比亞迪“興旗系”爆雷,誰在為車企的獻祭式擴張買單?

讓人寒心!比亞迪“興旗系”爆雷,誰在為車企的獻祭式擴張買單?

藍色海邊
2026-05-07 02:01:09
大批“宇航員”排隊打卡內蒙烏蘭哈達火山,景區:內部環境似火星地表,牧民提供“宇航服”出租服務,休眠火山很安全

大批“宇航員”排隊打卡內蒙烏蘭哈達火山,景區:內部環境似火星地表,牧民提供“宇航服”出租服務,休眠火山很安全

極目新聞
2026-05-04 16:07:52
以軍突襲貝魯特,以媒稱炸死真主黨精銳武裝拉德萬部隊指揮官,伊朗:美國要想結束沖突,必須和以色列保持距離

以軍突襲貝魯特,以媒稱炸死真主黨精銳武裝拉德萬部隊指揮官,伊朗:美國要想結束沖突,必須和以色列保持距離

揚子晚報
2026-05-07 09:00:05
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報
2026-05-06 12:38:05
季后賽失誤排行榜詹姆斯遙遙領先,哈登很尷尬,喬丹讓人嘆為觀止

季后賽失誤排行榜詹姆斯遙遙領先,哈登很尷尬,喬丹讓人嘆為觀止

姜大叔侃球
2026-05-07 10:08:58
男子騎摩托車撞人致2死1傷,保險公司給每位死者49000元安葬費,受害者家屬:兩位遇難者的遺體存放在殯儀館,不接受賠償結果

男子騎摩托車撞人致2死1傷,保險公司給每位死者49000元安葬費,受害者家屬:兩位遇難者的遺體存放在殯儀館,不接受賠償結果

大風新聞
2026-05-06 22:13:02
2026-05-07 12:40:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1476文章數 149關注度
往期回顧 全部

科技要聞

凌晨突發!馬斯克租22萬塊GPU給“死敵”

頭條要聞

北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

頭條要聞

北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

體育要聞

阿森納巴黎會師歐冠決賽!5月31日開戰

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業照

財經要聞

特朗普:美伊“很有可能”達成協議

汽車要聞

理想為什么不做轎車,有了解釋……

態度原創

教育
親子
家居
數碼
公開課

教育要聞

推開門,世界廣闊!廈門2026屆初三“二檢”語文作文題出爐

親子要聞

大家好呀,我是優奈!四個月啦

家居要聞

破繭成蝶 土味精裝房爆改

數碼要聞

三星筆記本版Exynos 2800芯片曝光:1.4nm十核CPU

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版