无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<span id="yrziz"><tt id="yrziz"><noscript id="yrziz"></noscript></tt></span>

<ins id="yrziz"></ins>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-5.4發布，AI的最強之爭已經結束了！

2026-03-06 13:58:13　來源: AI進化論花生

北京舉報

0

分享至

GPT-5.4發布了。

說實話，我猶豫了半天要不要寫這篇。真的被模型發布搞疲了。隔幾周一個新版本，每次都是「史上最強」，但你真用起來，體感差異越來越小。靠跑一兩個benchmark，已經越來越難測出模型的真實能力了，需要更長時間的日常使用才有體感。
而且就拿我最常用的agentic能力和coding能力來說，我不太相信GPT一個小版本的更新能超過Claude。所以對我日常使用最多的模型，其實沒什么影響。

但看完GPT-5.4的數據之后，我還是決定寫。不是因為它有多強，而是因為我發現了一個更有意思的事。我打開了三個網頁：OpenAI的博客、Anthropic的定價頁、Google的Gemini文檔，把三家的數據攤在一起看。

結論讓我有點意外：它們已經不在同一條賽道上了。

先說結論：不再有「最好的AI」

一年前，「哪個AI最好」還是個合理的問題。各家模型能力分布還比較均勻，都在同一條賽道上跑。

現在這個問題過時了。

想操控電腦、做PPT、跑知識工作？GPT-5.4。想寫代碼、跑Agent、做復雜開發？Claude Opus 4.6。想要最強推理、圖片視頻理解、最大上下文、最低價格？Gemini 3.1 Pro。

我自己就是這么用的。平時寫代碼，左邊開著Codex做審查，中間跑Claude Code寫實際代碼，右邊還有個Cursor兜底。Codex的上下文工程優化比Claude Code好不少，能在一個窗口下不停布置任務不用擔心上下文撐爆。但Opus的天花板更高，獨立解決復雜問題的能力沒有對手。所以日常就是混著用，各取所長。

說個更直觀的數據：我今年和ChatGPT的對話量比去年減少了90%以上。不是ChatGPT變差了，是我的需求被Claude Code、Cursor、Gemini分走了。不同任務交給不同模型，你不會拿錘子去擰螺絲。

之前有人問我：「花叔，你推薦哪個AI？」

我的回答是：這取決于你是誰。

產品經理或分析師，日常做報告、處理數據？ChatGPT Plus大概率是你的最優解，GPT-5.4的知識工作能力確實強。

開發者，寫代碼是主要需求？Claude Code + Opus 4.6，目前沒有對手。YC剛公布的Winter 26批次數據也印證了這一點：Anthropic占比52%，首次超過OpenAI。去年OpenAI還占90%以上，一年完全逆轉了。

對價格敏感，或者需要處理超長文本、音視頻分析？Gemini。$2/$12的價格加2M token上下文，性價比無敵。

如果你是資深用戶，可能最終會像我一樣：三個都用，看菜下鍋。

結論說完了。下面看看GPT-5.4到底做了什么，以及三家是怎么走到這一步的。

GPT-5.4到底做了什么

先過一遍GPT-5.4的數據。說實話，有幾個確實讓我眼前一亮。

Computer Use，就是讓AI直接操控你的電腦。GPT-5.4在OSWorld基準測試上拿到75.0%，超過了人類基準的72.4% 。這是所有AI模型第一次在這個測試上超越人類。上一代GPT-5.2才47.3%，一個版本漲了快一倍，這個提升幅度我覺得是這次最值得關注的。

知識工作也很猛。GDPval達到83.0%，意思是在44個職業的專業任務里，GPT-5.4有八成以上能打平或超越行業專家。投行建模從68.4%跳到87.3%，做PPT時人類評審有68%的概率更喜歡GPT-5.4的版本。這個數據要是真的，華爾街的junior analyst該緊張了。

上下文窗口拉到了100萬token，OpenAI迄今最大。還出了個叫Tool Search的新功能，跑Agent的時候不用把所有工具定義塞進prompt了，模型自己按需查找，token消耗直接減了47%。做Agent開發的應該會很開心。

但你仔細看，這些最亮眼的提升都指向同一個方向：讓AI替你干白領的活。操控電腦、做PPT、投行建模、知識工作。OpenAI押的注很明確：AI不只是聊天工具，它要做你的數字員工。

但編程呢？

這是我最關心的部分，也是最有意思的部分。

GPT-5.4在SWE-Bench Pro上的成績是57.7%。上一代GPT-5.2是56.8%。

提升了0.9個百分點。

你沒看錯。一個做了Computer Use超越人類、1M上下文、投行建模87%的模型，編程能力只漲了0.9%。Claude Opus 4.6在SWE-Bench Verified上是80.8%，依然世界第一。（這倆是不同難度的測試，Pro更難，但0.9%的提升本身就說明問題。）

OpenAI不是做不好，是選擇把資源放在了別的地方。

這和我實際用下來的感受完全對得上。Codex的gpt-5.2-codex選high模式時，后端能力確實強，能跑一個多小時完全沒bug。但速度太慢了，思考時間過久，審美也差，讓它做前端基本不行。Opus雖然貴，但處理創意代碼工作時天花板明顯更高，經常能獨立解決我好幾個月沒搞定的功能問題。

所以我日常就是混著用：Opus處理需要創造力的代碼，Codex做規劃和審查。

但我不覺得OpenAI是「編程不行」或「不想打這仗」。恰恰相反，OpenAI的野心比編程大得多，它想替代的是更廣泛的白領工作。你看它這次選的benchmark就知道了：Computer Use、投行建模、PPT評審、44個職業的知識工作。編程只是其中一個，甚至不是最重要的那個。

三張成績單

我把三家的數據都扒了一遍，攤在一起看，格局就很清楚了。

GPT-5.4贏了Computer Use和知識工作，Claude Opus 4.6贏了編程和Agent，Gemini 3.1 Pro贏了推理和性價比。沒有一家全贏。GPT-5.4贏了5個benchmark類別，Gemini贏了4個，Opus贏了3個。

但比誰贏了什么更有意思的，是各自的短板。

GPT-5.4編程就不說了，0.9%的提升。定價也是三家最貴的，Pro版輸出$180/百萬token，是Opus的7倍多。你用Pro版跑一個稍微復雜的Agent任務，賬單看了可能會心疼。

Claude Opus 4.6呢，上下文窗口只有200K（1M還在beta），也沒有原生Computer Use。寫代碼無敵，但你讓它幫你操作電腦，目前還不行。

Gemini 3.1 Pro沒有Computer Use，編程也不如前兩家。但推理能力真的強，ARC-AGI-2上77.1%，甩了另外兩家一條街。多模態理解也是三家最強，圖片視頻分析這塊沒對手。加上$2/$12的定價和2M token上下文，Google這波性價比打得很猛。

看到這，你可能和我一樣想到了一件事：三家的強項和短板，剛好指向了三條完全不同的路。

三條路

GPT-5.4走的是白領替代路線。

操控電腦、做PPT、投行建模、知識工作。ChatGPT付費用戶超過千萬，這些人不寫代碼，他們寫報告、做分析、處理數據。GPT-5.4就是為他們做的。

Claude走的是開發者搭檔路線。

編程世界第一、Claude Code在開發者圈子里口碑炸裂、Agent能力最強。我自己從去年8月開始用Claude Code搭了自動化寫作工作流，現在寫文章的效率提升太多了。Anthropic不追求ChatGPT那種C端規模，在開發者生態里做到不可替代就夠了。

Gemini走的是推理+多模態+性價比路線。

推理能力領先，多模態理解也是三家最強的。我現在分析圖片、理解視頻內容都交給Gemini做，這塊確實沒對手。加上2M上下文和$2/$12的定價，性價比碾壓。國內字節的Seed 2.0模型也在往這個方向走，多模態+低價正在成為一條清晰的賽道。

為什么Google敢定最低價、給最大上下文？因為Gemini不需要單獨賺錢。Google有搜索、有YouTube、有Android，Gemini的作用是讓整個生態更強。它的ROI不是用API收入算的。

三條路，三種賭注。

但OpenAI最大的問題不是技術

GPT-5.4技術上確實強。但OpenAI現在面對的最大挑戰，和模型能力無關。

2月28日，OpenAI和美國國防部簽了正式合同。幾天前Anthropic剛剛公開拒絕了同一份合同，理由是五角大樓不愿加入「明確禁止自主武器部署」的條款。然后QuitGPT運動就爆發了。

超過250萬人取消了ChatGPT訂閱或承諾停用，OpenAI舊金山總部門口有了抗議，900多名OpenAI和Google員工聯名簽公開信。

時機很微妙。GPT-5.4恰好在QuitGPT最高潮的時候發布。ChatGPT的市場份額已經從高峰期的87%降到約68% ，Gemini從不到5%漲到18%以上。模型做得再好，用戶在流失，這個問題比任何benchmark都嚴重。

最強之爭，結束了

過去三年，AI的故事一直是「通用智能」：一個模型什么都能做，而且越來越強。

GPT-5.4打破了這個敘事。

它確實強，但它強的方式說明了一件事：即便是最頂尖的AI公司，也得做取舍了。Computer Use超越人類，但編程只漲了0.9%。Claude編程無敵，但上下文只有競品的五分之一。Gemini推理最強價格最低，但Agent和Computer Use都不行。

每家都在自己選的賽道上做到了極致，同時接受了其他賽道的平庸。

我之前寫GPT-5發布時說過，AI的iPhone 4時刻已經過去了?，F在回頭看，不只是「Wow時刻」沒了，連「誰是最強」這個問題本身都過時了。

對我們這些日常在用AI的人來說，這反而是好事。不用再糾結「到底選哪個」，根據自己的需求選就行。寫代碼用Claude，做知識工作用ChatGPT，省錢或跑長文本用Gemini。就像你不會只用一把刀做所有菜。

GPT-5.4發布了。但AI的「最強之爭」，已經結束了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

谷歌創始人承認：入場代碼編程晚了，但押注AI的自我改進飛輪

DeepTech深科技 2026-06-13 13:25:10
16 跟貼 16
300個Agent組網，萬億參數減負：Kimi把AI從"學霸"變成"項目經理"

鈦媒體APP 2026-06-14 11:35:06
11 跟貼 11

“智能體最后的考試”，Fable 5竟然不敵GPT 5.5

量子位 2026-06-12 12:10:09
14 跟貼 14

AI時代，別再提“人人都是程序員”了

虎嗅APP 2026-06-14 02:46:07
33 跟貼 33
OpenAI遭多州傳票圍剿，AI怎么說話都要查

新智元 2026-06-14 12:43:16
0 跟貼 0

豆包任務模式深夜上線！國產 AI Agent 要卷到普通用戶了？

雷科技 2026-06-13 10:47:31
38 跟貼 38

Agent終于長出了身體：Jiuwen Symbiosis背后的思考與實踐

量子位 2026-06-13 16:08:07
3 跟貼 3
AI圈懵了：一家巴西市政IT公司開源的大模型，殺進了全球第一梯隊

機器之心Pro 2026-06-14 15:10:25
0 跟貼 0

HuggingFace CEO力薦：這個1500美元訓出的HRM模型，憑什么火了？

量子位 2026-06-13 20:36:36
1 跟貼 1
入圍CVPR 2026最佳論文決選，ViT3突破Transformer復雜度瓶頸

機器之心Pro 2026-06-12 17:09:54
0 跟貼 0
【數智周報】釘釘換帥，92年技術極客陳宇森接任釘釘CEO；OpenAI向美國證監會秘密提交IPO的S-1草案；蘋果、谷歌、英偉達合作開發新一代AI模型

鈦媒體APP 2026-06-14 13:01:41
0 跟貼 0
Claude Fable 5最難檔零分！智能體的最后考試來了

機器之心Pro 2026-06-14 14:29:53
0 跟貼 0
釘釘是阿里AI焦慮的極致故事 | 經觀社論

經濟觀察報 2026-06-14 15:26:06
0 跟貼 0
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
當AI從租GPU走向賣Token，誰會賺到真正的錢？

虎嗅APP 2026-05-19 00:08:10
0 跟貼 0
200+AI專家集結北京，共議世界模型、智能體、具身智能等話題，這屆智源大會釋放什么信號？

智東西 2026-06-13 21:18:29
1 跟貼 1
華人AI工程師也搭上了SpaceX的財富火箭

鈦媒體APP 2026-06-14 16:12:30
0 跟貼 0
比特與信念的交鋒：數智時代領導者的“算法敘事”與“人機共情”藝術

經濟觀察報 2026-06-14 09:07:53
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
讓AI做導購？豆包/DeepSeek/千問/kimi/元寶一個比一個離譜

雷科技 2026-06-14 15:49:00
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
小米綠聯聚齊！AI能帶火NAS這個不溫不火的品類嗎？

雷科技 2026-06-14 15:44:40
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
王曉野：Working Agent將是下一個爆發點

量子位 2026-05-21 08:05:51
0 跟貼 0
Fable 5突遭下架，GLM-5.2全量開放！

新智元 2026-06-13 22:29:08
17 跟貼 17
代碼定位太慢？螞蟻ACL2026新作：讓模型自己學會「該搜多少」

新智元 2026-06-14 09:32:37
2 跟貼 2
Agent OS來了！鴻蒙HarmonyOS 7發布，華為重新定義OS

雷科技 2026-06-13 00:05:33
15 跟貼 15
多國嘉賓：在中國，人權不是抽象概念，而是扎根現實的民生福祉

中國日報網 2026-06-13 17:07:04
16622 跟貼 16622
巨輪在橋洞下經過，技術熟練如魚得水，一旦水位上漲后果不堪設想

搞怪藝術家 2026-06-13 16:08:12
1 跟貼 1
“都公示過了，全家等著我去上班呢” 黑龍江女子考編排名第一卻被別人遞補，維權后崗位被取消，當地：審核人員把關不嚴

看看新聞 2026-06-14 09:38:33
3095 跟貼 3095
火山引擎上車，賽力斯的備胎轉正了

商業不許冷 2026-06-13 19:50:57
2 跟貼 2
讓大模型邊想邊說：這篇文章把「何時開口」變成可學習策略

機器之心Pro 2026-05-18 14:49:11
0 跟貼 0
日本發動機非常先進，為何敢大量出口不怕技術泄漏？

像風走了八萬里不問歸期 2026-06-14 02:59:08
3 跟貼 3
萬億富豪馬斯克的“冰與火”：AI衛星要上天地面算力卻“卡了殼”

財聯社 2026-06-13 17:06:51
11 跟貼 11
加拿大開幕式充氣的大世界杯模型沒100%撐起來，然后就萎了！

臺海大林 2026-06-13 07:48:16
139 跟貼 139
“張雪機車”再次奪冠

新華社客戶端 2026-06-13 20:36:34
9516 跟貼 9516
安徽省合肥市原副市長何逢陽接受審查調查

界面新聞 2026-06-13 17:01:17
36 跟貼 36
反轉這一塊

人間小愜意啊 2026-06-12 01:09:35
0 跟貼 0

東鵬特飲做夢也沒想到！德比斯拿下第6冠，一舉動讓自己壓力巨增

東鵬特飲做夢也沒想到！德比斯拿下第6冠，一舉動讓自己壓力巨增

樂悠悠娛樂

2026-06-14 14:57:03

范德比爾特曬出新車，東契奇評論：可以把車借我開嗎求求了

范德比爾特曬出新車，東契奇評論：可以把車借我開嗎求求了

懂球帝

2026-06-13 22:23:08

“別選計算機！”211女生哭訴，引來前輩勸退：我從1.4w混成了7k

“別選計算機！”211女生哭訴，引來前輩勸退：我從1.4w混成了7k

妍妍教育日記

2026-06-13 09:35:06

高鑫王一楠女兒高中畢業典禮！外公外婆昆明飛上海，全家盛裝出席

高鑫王一楠女兒高中畢業典禮！外公外婆昆明飛上海，全家盛裝出席

露珠聊影視

2026-06-13 22:29:29

4年2.29億，生死戰15中3隱身！福克斯承認吧，當初錯的是你不是他

4年2.29億，生死戰15中3隱身！?？怂钩姓J吧，當初錯的是你不是他

鍋子籃球

2026-06-14 15:37:40

日媒：韓國決定申請加入CPTPP

日媒：韓國決定申請加入CPTPP

參考消息

2026-06-13 12:18:28

體面分手！大白邊揭曉CBA總決賽謎團：一對一交易，盧偉絕口不提

體面分手！大白邊揭曉CBA總決賽謎團：一對一交易，盧偉絕口不提

林子說事

2026-06-14 14:27:11

世界杯：荷蘭VS日本

懂球會蕫老廝

2026-06-14 11:17:05

獨行俠拒絕交易凱里?歐文的深層原因曝光，全是為了狀元弗拉格

獨行俠拒絕交易凱里?歐文的深層原因曝光，全是為了狀元弗拉格

夜白侃球

2026-06-14 13:37:12

春光乍泄！古力娜扎跳舞肩帶突然斷裂大面積暴露，擔心的事發生了

春光乍泄！古力娜扎跳舞肩帶突然斷裂大面積暴露，擔心的事發生了

蹲坑看世界

2026-06-13 21:06:31

李子柒成為上海世賽推廣大使

財聞

2026-06-14 14:45:40

太離譜了！臺州一小伙突發奇想，竟用汽車充電樁給電動摩托車充電，監控畫面曝光→

太離譜了！臺州一小伙突發奇想，竟用汽車充電樁給電動摩托車充電，監控畫面曝光→

浙江消防

2026-06-14 10:37:23

女子考編第一被遞補，維權后崗位直接取消！黑龍江：審核人員失誤

女子考編第一被遞補，維權后崗位直接取消！黑龍江：審核人員失誤

聽心堂

2026-06-13 22:26:26

以軍懵了，國際社會也懵了，特朗普："放開那個家伙，讓我來"

以軍懵了，國際社會也懵了，特朗普："放開那個家伙，讓我來"

知鑒明史

2026-06-13 14:52:26

流量果然為王，“小馬云”范小勤直播賣字爆火，這屆富豪眼光獨特

流量果然為王，“小馬云”范小勤直播賣字爆火，這屆富豪眼光獨特

奔跑的阿樂

2026-06-14 12:37:13

帕奎塔演給全世界“看”：沒有內馬爾巴西，進攻只剩維尼修斯單挑

帕奎塔演給全世界“看”：沒有內馬爾巴西，進攻只剩維尼修斯單挑

中國足球的那些事兒

2026-06-14 08:32:02

17勝4平，巴西隊已連續21屆世界杯首戰保持不敗

17勝4平，巴西隊已連續21屆世界杯首戰保持不敗

懂球帝

2026-06-14 08:13:13

越扒越驚心！你根本想象不到釋永信在少林寺的奢靡生活有多離譜？

越扒越驚心！你根本想象不到釋永信在少林寺的奢靡生活有多離譜？

清歡百味

2026-06-13 09:34:33

新加坡民怨沸騰，官方強硬打壓，堅決不承認“印加坡”

新加坡民怨沸騰，官方強硬打壓，堅決不承認“印加坡”

怪味歷史連連看

2026-06-13 09:15:19

埃及隊被FIFA強制要求修改球衣：移除七星標志及金色號碼

埃及隊被FIFA強制要求修改球衣：移除七星標志及金色號碼

星耀國際足壇

2026-06-14 10:44:47

AI進化論花生

AI博主，AppStore付費榜第一的小貓補光燈app開發者

233文章數 121關注度

往期回顧全部

科技要聞

Anthropic最強模型被禁，傳亞馬遜通風報信

頭條要聞

蓋茨出軌20多次愛潑斯坦曾鼓勵女醫生與其發展性關系

頭條要聞

蓋茨出軌20多次愛潑斯坦曾鼓勵女醫生與其發展性關系

體育要聞

8年8隊奪冠，鄧肯那句話，現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA，等等帥氣十足

財經要聞

金價跌至900元關口，大媽又來抄底了！

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

健康

數碼

旅游

房產

家居要聞

空間微調移形換境

自由流光回溯生活真意
雅奢之序五層別墅
220平對味兒家空間情緒宅

老人、小孩、孕婦，吃粽子有啥風險

數碼要聞

從3DGS到小藝Claw，華為智慧屏MateTV在HDC展示鴻蒙生態破界之力

旅游要聞

千城勝景｜新疆烏蘇：40個泥火山口涌泥漿

房產要聞

海南最賺錢行業曝光！最快4年半，?？谌钯I三房！

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<p id="efxgk"><tr id="efxgk"></tr></p>

<source id="efxgk"></source>

<p id="efxgk"></p>