文 | 強調Next
昨天(4月23日),OpenAI發布了GPT-5.5,內部代號“Spud”。距離GPT-5.4發布,只有七周。
七周一個大版本,放在行業里已經是相當高的頻率。OpenAI的策略是用持續的發布密度,讓對手的每一次重磅推出都迅速失去窗口期。Anthropic剛在本月發布了Claude Opus 4.7和Mythos Preview,不到兩周,話題就被搶回來了。
![]()
1 · 能力全景
這一版本的核心進步,集中在兩個維度:長上下文理解和多步驟自主完成任務。
長上下文是實質性突破。在MRCR v2這個測試長文本信息檢索的基準上,512K到1M token區間的得分從 36.6% 跳到了 74.0%,翻了一倍。類似地,Graphwalks BFS(百萬token下的圖遍歷測試)從 9.4% 漲到 45.4%,這是質變級的升級。對于需要處理大型代碼庫、長文檔、跨會話上下文的工程和研究場景,這意味著少踩很多坑。
多步驟自主性也在Codex上有可感知的改善。官方的描述是“給它一個亂糟糟的任務,它自己拆解、用工具、檢查結果、繼續跑”,以前這套流程經常在中途卡住,需要你手動推一把;現在卡住的頻率明顯降低。OSWorld-Verified(測試模型獨立操作真實電腦界面的能力)得分78.7%,和Anthropic Opus 4.7 的 78%基本持平,computer use場景的兩強格局已經形成。
![]()
2 · 用戶真實反饋
Early access測試者的反饋比跑分有意思。一位開發者說,GPT-5.5 在三分鐘內解決了他卡了四個小時的bug。另一位獨立開發者描述得更直接:他在同一個Codex會話里跨越了 iOS App、后端服務、MCP集成、客服回復起草等完全不同類型的工作。之前的模型在切換任務時經常需要重新鋪墊上下文,現在它記得住。“它從代碼工具跨過了產品工具的界限”。
NVIDIA是目前最大規模的企業內測方,超過一萬名員工在工程、法務、市場、財務等部門同時使用Codex + GPT-5.5。他們報告的變化是:原來需要數天的調試周期,現在壓縮到了幾個小時。
另外有一個細節,GPT-5.5幫助OpenAI 分析了自己的生產流量,并重新編寫了負載均衡的啟發式算法,最終讓服務自身的token生成速度提升了20%以上。模型參與優化了運行自己的基礎設施。
不過,“感覺”和“測評”之間還有落差。Every的獨立評測指出:GPT-5.5在速度上明顯快于Opus 4.7,處理有結構化輸出需求的任務(報告、課程大綱、會議紀要)表現出色;但在從零開始的創意產品設計上,“細節好但整體感覺隨機”,還沒到能完全替代Claude的程度。兩款模型目前各有擅長的場景,并非簡單的誰碾壓誰。
![]()
3 · 中國開發者的真實處境
對中國開發者來說,GPT-5.5的發布帶來的首先是定價問題。
![]()
GPT-5.5輸出端單價$30,DeepSeek V3.2是$0.42。差距是71倍。GPT-5.4時代已經存在的35倍差距,這次直接翻了一番。
截至2026年4月初,OpenRouter平臺調用量前十的模型里,有六個來自中國:小米MiMo-V2-Pro、階躍星辰、MiniMax、DeepSeek V3.2、智譜、MiniMax。自今年2月以來,中國模型在該平臺的周調用量已經超過美國模型。a16z的數據也顯示,選擇開源技術路線的美國AI初創公司里,約八成在用中國模型。
這說明價格差距已經大到足以讓決策變形。真實的企業實踐是“分層調用”:簡單任務、高頻場景交給中國開源模型,復雜推理、高精度任務才上GPT或Claude。GPT-5.5進一步拉高了頂端價格,會強化這個分層邏輯。
但不是所有人都能分層。有相當一部分中國開發者干脆沒有穩定可用的GPT訪問渠道,GPT-5.5的發布對他們是一道觀賞性新聞。國產模型在編程能力上正在逼近,DeepSeek V3.2、Qwen3.6在LMArena編程榜單上已經躋身前十;但在復雜推理、頂層科研場景上,FrontierMath Tier 4國產最優解尚不在同一量級,但差距在收窄。
4 · 結語
GPT-5.5 不是顛覆性升級,但也不是“擠牙膏”。長上下文質變、代理編程改善、多職業知識工作接近上限。
不用過于關注它比上個版本強多少,而是在你的具體場景里。當前這一代模型的能力邊界在哪里,你是在能力上限之內工作,還是已經在等待下一版本解鎖什么新能力?如果你是后者,GPT-5.5 值得試一試試;如果你是前者,可以等 API 正式開放后再說。
至于“新類別的智能”這個說法,Greg Brockman 下次可能還會說。留意 GDPval 的數字就好,那個變化才是真正的拐點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.