網易首頁 > 網易號 > 正文 申請入駐

OpenAI一周四連發

0
分享至

這周 OpenAI 打了一套密集到離譜的組合拳——4天4個重磅發布

模型、應用、桌面端、企業工具全面鋪開,看得人目不暇接

一、GPT-5.3 Instant:不"cringe"了

3月3日上線,替代 GPT-5.2 Instant 成為 ChatGPT 的默認日常模型。

這次改了什么?一句話:說人話了

之前的 GPT-5.2 Instant 有個毛病——動不動就來一句"讓我們停下來,深呼吸",或者在你問個正常問題時給你貼一堆免責聲明。用戶吐槽這叫"cringe"(尬),OpenAI 這次直接把這個當核心問題來修。

關鍵數據:

  • 高風險領域(醫療、法律、金融)幻覺率降低 **26.8%**(聯網模式)

  • 用戶反饋場景幻覺率降低 **22.5%**(聯網模式)

  • 大幅削減不必要的拒答和說教式開場白

  • 寫作能力也有提升,小說、潤色這些創意場景更好用了

二、Codex 登陸 Windows:50萬人等的那個

3月4日,Codex 桌面應用正式上線 Windows

之前只有 macOS 版,上線第一周下載量就破了100萬,目前周活160萬

50萬人排隊等 Windows 版,這次終于來了。

核心亮點:

  • 原生沙盒:和微軟合作打造,操作系統級隔離,不需要退回 WSL 或虛擬機。沙盒已開源

  • 多智能體并行:多個 Agent 同時跑,各自在獨立工作樹里干活,互不沖突

  • 技能系統(Skills):把 Figma 設計稿轉代碼、Linear 項目管理、一鍵部署到 Cloudflare/Vercel,甚至用 GPT 圖像生成做游戲素材——全打包成可復用的技能包

  • 自動化:設好時間表,Agent 在后臺自動跑 bug 分流、CI 總結、發布簡報

  • IDE 支持:新增 Visual Studio、Rider、PhpStorm、Git Bash、GitHub Desktop、Sublime Text

有個演示案例挺瘋的:僅憑一個初始提示,Agent 獨立消耗超過700萬個 Token構建了一款賽車游戲。

定價:ChatGPT Free 用戶也能試用。付費用戶在4月2日前速率額度翻倍。不過說實話,AI 編程 Agent 吃 Token 的速度,Plus 的額度可能撐不了多久。

三、ChatGPT for Excel:AI 進入金融腹地

同一天,OpenAI 放出了 ChatGPT for Excel(Beta),直接把 ChatGPT 嵌入到 Excel 工作簿里。

這不是那種幫你寫個 VLOOKUP 的簡單助手。它能:

  • 自然語言建模:你說"幫我做一個三年期的 DCF 估值模型",它直接在工作簿里建

  • 跨工作簿推理:理解 Sheet 之間的公式關聯,追蹤假設如何在模型中流動

  • 透明可審計:每一步操作都解釋在做什么,鏈接到具體單元格,修改前請求許可

ChatGPT for Excel 界面

配套的金融數據集成更猛:FactSet、Moody's、MSCI、S&P Global、Dow Jones Factiva全接進來了。咨詢合作伙伴包括麥肯錫、貝恩、BCG、埃森哲、普華永道。

在內部投行基準測試上,模型從 GPT-5 的 43.7% 飆到 GPT-5.4 Thinking 的 **87.3%**。這意味著初級分析師的電子表格建模工作,AI 已經能做到接近九成的水平。

目前限美國、加拿大、澳大利亞的 Business/Enterprise/Pro/Plus 用戶

Google Sheets 版即將推出

四、GPT-5.4:真正的重頭戲

3月5日,GPT-5.4 正式發布

這是 OpenAI 目前最強的模型,也是這波密集發布的壓軸

一句話概括:編碼能力 + 推理能力 + 計算機操控,三合一。

核心升級

  • 100萬 Token 上下文窗口:API 版本支持最高 1M tokens,OpenAI 有史以來最大

  • 原生 Computer Use:能通過 Playwright 寫代碼操控電腦,也能看截圖發鼠標鍵盤指令。這是 OpenAI 第一次在通用模型里做原生計算機操控

  • Tool Search:不再把所有工具定義都塞進提示詞,按需查找。在 Scale MCP Atlas 基準上減少47% token 用量,準確率不變

  • 事實準確性:單條錯誤降低 33%,完整回復含錯誤降低 18%

Benchmark 炸場

基準

GPT-5.4

GPT-5.2

OSWorld(計算機操控)

75.0%

47.3%

人類表現 72.4%,GPT-5.4 超越人類

GDPval(知識工作)

83.0%

70.9%

在44個職業中匹配/超過行業專家

ARC-AGI-2(抽象推理)

73.3%

52.9%

+20.4%

BrowseComp(網絡搜索)

82.7%

65.8%

Pro版達到 89.3%

IB 建模(投行任務)

87.3%

68.4%

+18.9%

SWE-Bench Pro(編碼)

57.7%

55.6%

整合了 5.3-Codex 的編碼能力

MMMU Pro(視覺理解)

81.2%

79.5%

超過 Gemini 3.1 Pro 的 80.5%

OSWorld 超越人類表現這個事,我覺得是這次發布最值得關注的數據點。計算機操控這個領域,從"能用"到"超過人",GPT-5.4 邁了一大步。

定價

模型

輸入

輸出

gpt-5.4

$2.50/M tokens

$15/M tokens

gpt-5.4-pro

$30/M tokens

$180/M tokens

比 GPT-5.2 貴了一點點(輸入 2.50),但考慮到 token 效率提升,實際成本可能差不多。

安全評估

OpenAI 同步發布了詳細的安全評估報告。幾個值得關注的點:

  • 網絡安全能力被評為 High:這是第一個部署了 High 級別網絡安全緩解措施的通用模型

  • 生物/化學能力也是 High:超過中位數專家基準

  • 思維鏈可監控性在下降:這被標記為需要持續關注的脆弱性

  • 思維鏈可控性仍然很低:模型很難故意混淆自己的推理過程,對安全而言是好事

背景:為什么這么急?

說完產品,聊聊背景。

根據36氪報道,Anthropic(Claude)的年化收入已接近200億美元,兩周內增長50億。Claude Code 單產品年化收入突破25億美元。更夸張的是,2026年2月 Anthropic 在美國市場份額飆升至近 70%,OpenAI 降到約 30%。一年前這個比例還是反的。

API 花費方面,Anthropic 占據90%份額。全球 GitHub 上4%的公開代碼提交由 Claude Code 生成。

所以你能理解 OpenAI 為什么一周四連發了——市場份額在流失,必須快速刷存在感。GPT-5.4 + Codex 桌面端 + Excel 插件 + 金融數據生態,這套組合拳打的就是"從模型到應用到生態"的全棧覆蓋。

有意思的是,與此同時 Anthropic 因為堅持 AI 安全準則被美國國防部封殺,被定性為"供應鏈風險"。OpenAI 則迅速填補了這個缺口。全球已有約250萬人加入了 QuitGPT 抵制運動,社交媒體相關帖子播放量突破3600萬。奧特曼自己都承認"吃相難看"。

一邊是產品力的狂飆,一邊是輿論場的反噬。2026年的 AI 競爭,比以往任何時候都更像一場多維度的戰爭。

總結

這周 OpenAI 的發布密度確實罕見。簡單排個優先級:

  • 最該關注的:GPT-5.4 的 Computer Use 能力和 1M 上下文,這代表下一代 AI Agent 的基礎設施

  • 最實用的:Codex Windows 客戶端,如果你是 Windows 開發者,現在就可以用了

  • 最有想象力的:ChatGPT for Excel + 金融數據集成,這是 AI 深入垂直行業的信號

  • 最被低估的:GPT-5.3 Instant 的"反cringe"更新,日常使用體驗提升明顯

OpenAI 能不能靠這波追回來?還是說 Claude 的勢頭已經不可逆?我覺得短期看產品力,長期看生態。這場仗,遠沒打完。

.4

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

夢想總會變成真
2026-04-23 01:11:47
回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

胡一舸南游y
2026-04-04 15:41:43
經過伊朗這一戰,中美之間可能至少50年內不會爆發戰爭

經過伊朗這一戰,中美之間可能至少50年內不會爆發戰爭

流史歲月
2026-04-17 23:20:03
格力回應鋁線電機爭議:相關工程機已停產,海信稱靠多三兩銅多500元時代已終結

格力回應鋁線電機爭議:相關工程機已停產,海信稱靠多三兩銅多500元時代已終結

紅星資本局
2026-04-21 20:40:16
DeepSeek V4震撼發布!實現全球開源領先

DeepSeek V4震撼發布!實現全球開源領先

新智元
2026-04-24 12:11:03
只要有陌生電話問你“您是不是本人”,這樣反問一句,防騙超實用

只要有陌生電話問你“您是不是本人”,這樣反問一句,防騙超實用

今日搞笑分享
2026-04-23 18:21:05
因為大鼻子又火了!北大校友會副會長給泰華中學做宣傳,鼻子太搶眼

因為大鼻子又火了!北大校友會副會長給泰華中學做宣傳,鼻子太搶眼

趣筆談
2026-04-23 12:35:03
女子買12萬黃金首飾,金店為何報警?起底退費騙局

女子買12萬黃金首飾,金店為何報警?起底退費騙局

環球網資訊
2026-04-23 16:39:17
黃仁勛警告:若DeepSeek率先適配華為,對美國是"極其愚蠢"的結果

黃仁勛警告:若DeepSeek率先適配華為,對美國是"極其愚蠢"的結果

新浪財經
2026-04-23 20:52:12
震驚!廣州一互聯網公司招5名文員,收到4000余份簡歷,HR慌了…

震驚!廣州一互聯網公司招5名文員,收到4000余份簡歷,HR慌了…

火山詩話
2026-04-23 16:46:58
中美開啟新一輪大熊貓保護合作研究

中美開啟新一輪大熊貓保護合作研究

新京報
2026-04-24 08:26:05
孟子曰:“男女授受不親”,其實后半句才是真相,老祖宗可不保守

孟子曰:“男女授受不親”,其實后半句才是真相,老祖宗可不保守

鶴羽說個事
2026-04-23 22:16:52
正式確定!開拓者中鋒加盟深圳男籃,攜手賀希寧,沖擊總冠軍

正式確定!開拓者中鋒加盟深圳男籃,攜手賀希寧,沖擊總冠軍

體壇瞎白話
2026-04-24 09:22:57
黃曉明媽媽生日!小海綿出鏡,照片和窗戶玻璃都被打碼,太小心了

黃曉明媽媽生日!小海綿出鏡,照片和窗戶玻璃都被打碼,太小心了

小椰的奶奶
2026-04-24 08:02:35
大數據分析,在中國,找個身高1米7年入20萬的老公,到底有多難?

大數據分析,在中國,找個身高1米7年入20萬的老公,到底有多難?

深度報
2026-04-18 23:37:27
直播調整!丁俊暉戰趙心童有變,肖國棟危險,美女裁判抽煙惹爭議

直播調整!丁俊暉戰趙心童有變,肖國棟危險,美女裁判抽煙惹爭議

曹說體育
2026-04-24 13:05:42
內斗嚴重?現在的伊朗到底誰說了算?

內斗嚴重?現在的伊朗到底誰說了算?

極目新聞
2026-04-24 10:40:55
銀行收縮潮來了

銀行收縮潮來了

讀懂財經研究所
2026-04-24 10:51:21
2:1!約基奇被打成玩具!狂輸44正負值!!

2:1!約基奇被打成玩具!狂輸44正負值!!

柚子說球
2026-04-24 13:18:57
全世界都被騙了:亞馬遜產全球20%氧氣?人類幾乎一口都分不到!

全世界都被騙了:亞馬遜產全球20%氧氣?人類幾乎一口都分不到!

半解智士
2026-04-22 14:26:26
2026-04-24 13:59:02
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3349文章數 11139關注度
往期回顧 全部

科技要聞

剛剛,DeepSeek-V4 預覽版發布 百萬上下文

頭條要聞

華誼兄弟被申請破產:曾坐擁百位明星 如今還不起千萬

頭條要聞

華誼兄弟被申請破產:曾坐擁百位明星 如今還不起千萬

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

王思聰被綠!戀愛期間女友被金主包養

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

全景iDrive 續航近800km 新款寶馬7系/i7亮相

態度原創

手機
健康
數碼
本地
公開課

手機要聞

國產上一代Ultra銷量比比看,華為還是最強,小米第二

干細胞如何讓燒燙傷皮膚"再生"?

數碼要聞

專訪巴可王紅波:顯示行業競爭下半場,深耕八大垂直行業與構建共贏生態

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版