![]()
就在所有人以為AI大戰(zhàn)將暫時(shí)休戰(zhàn)的時(shí)候,OpenAI選擇在深夜甩出了一張王牌。
北京時(shí)間3月6日凌晨,OpenAI正式發(fā)布了下一代旗艦?zāi)P汀狦PT-5.4。這次不再是擠牙膏式的微調(diào),而是一次真正的“代際跨越”。面對谷歌Gemini 3.1 Pro和Anthropic Claude Opus 4.6的步步緊逼,OpenAI用一款集推理、編程、原生電腦操控于一體的全能模型,宣告了誰才是真正的山頂玩家。
![]()
不止是更聰明,更是“動(dòng)手干”
如果說以前的AI只是一個(gè)能說會道的超級大腦,那么GPT-5.4第一次長出了“手”。
此次更新最炸裂的功能,無疑是原生計(jì)算機(jī)使用能力(Computer-Use)。這是OpenAI首個(gè)具備該能力的通用模型。它不再僅僅依賴API接口,而是能像人類一樣,看懂屏幕截圖,移動(dòng)鼠標(biāo),敲擊鍵盤,在各類軟件和網(wǎng)頁間穿梭自如。
在OSWorld-Verified基準(zhǔn)測試中,GPT-5.4操作電腦的成功率達(dá)到了驚人的75.0%。這個(gè)數(shù)據(jù)不僅遠(yuǎn)超上一代GPT-5.2的47.3%,甚至超過了人類72.4%的基準(zhǔn)線,也略高于剛剛登頂不久的Claude Opus 4.6(72.7%)。
![]()
這意味著什么?意味著從今天起,AI不僅能幫你寫郵件,還能幫你發(fā)郵件、排日程、填表格、跑流程。那些每天消耗打工人大量精力的、繁瑣的點(diǎn)擊操作,現(xiàn)在AI全包了。
跑分屠殺:每一科都是狀元
過去,模型往往各有短板:有的能推理但不會寫代碼,有的能寫代碼但世界知識匱乏。GPT-5.4試圖粉碎這種“分裂感”,而它的成績單也確實(shí)夠硬。
知識工作(GDPval):在橫跨44種職業(yè)的真實(shí)工作產(chǎn)出測試中,GPT-5.4以83.0%的得分達(dá)到或超過了人類專家水平,相比上一代的70.9%提升了12個(gè)百分點(diǎn)。尤其是在模擬初級投行分析師的電子表格建模中,得分高達(dá)87.3%,把GPT-5.2的68.4%遠(yuǎn)遠(yuǎn)甩在身后。
![]()
編程能力(SWE-Bench Pro):它完整繼承了GPT-5.3-Codex的編程基因,得分57.7%,略高于Codex版本的56.8%。這意味著你不再需要在“聰明的模型”和“能寫代碼的模型”之間切換,一個(gè)模型搞定全部邏輯。
![]()
數(shù)學(xué)與推理(FrontierMath):在研究級別的數(shù)學(xué)難題中,GPT-5.4Pro拿下了38.0%的得分。對比一年前最好的成績只有2%,這無疑是核彈級的進(jìn)步。
不僅僅是長,而是“不打斷”的記憶
GPT-5.4支持高達(dá)100萬Token的上下文窗口。
100萬Token是什么概念?這意味著你可以直接把《三體》三部曲的全部內(nèi)容,或者一個(gè)完整項(xiàng)目的代碼庫一次性扔給它,它能牢牢記住每一個(gè)細(xì)節(jié)。
更關(guān)鍵的是,GPT-5.4 Thinking在ChatGPT中新增了“思考過程預(yù)覽”和“中途介入”功能。在處理長任務(wù)時(shí),模型會先展示它的工作計(jì)劃,如果你發(fā)現(xiàn)方向不對,可以隨時(shí)打斷并調(diào)整,不需要等到它犯錯(cuò)返工。這種交互體驗(yàn),讓AI協(xié)作真正有了“人味兒”。
效率革命:省錢省Token
強(qiáng)大的同時(shí),OpenAI也在試圖解決一個(gè)實(shí)際問題:貴。
GPT-5.4引入了全新的“工具搜索”機(jī)制。在處理擁有大量工具(如MCP服務(wù)器)的復(fù)雜任務(wù)時(shí),它不再一股腦把所有工具定義塞進(jìn)上下文,而是按需檢索。
在Scale的MCP Atlas基準(zhǔn)測試中,這一功能在保持準(zhǔn)確率不變的同時(shí),將Token消耗量砍掉了驚人的47%。
對于開發(fā)者來說,Codex中的“/fast”模式更是福音,它能讓Token生成速度最高提升1.5倍,同樣的智力,更快的速度。
怎么用?多少錢?
據(jù)了解,即日起,GPT-5.4 Thinking已面向ChatGPT Plus、Team和Pro用戶開放,它將取代GPT-5.2 Thinking成為默認(rèn)的思考模型。而性能更強(qiáng)的GPT-5.4 Pro則主要面向Pro和企業(yè)用戶。
價(jià)格方面,GPT-5.4確實(shí)漲了。輸入2.5美元/百萬Token,輸出15美元/百萬Token。而Pro版更是高達(dá)輸入30美元/百萬Token,輸出180美元/百萬Token。
雖然貴,但考慮到它優(yōu)秀的Token效率,以及比Claude Opus 4.6便宜近一半的API價(jià)格,對于企業(yè)級應(yīng)用來說,可能反而更具性價(jià)比。
小結(jié)
GPT-5.4的發(fā)布,標(biāo)志著一個(gè)明確的轉(zhuǎn)向:大模型的競爭,已經(jīng)從單純的“參數(shù)競賽”和“跑分刷榜”,進(jìn)入了“全能執(zhí)行”的新階段。
OpenAI這次整合了推理、編程、長上下文和電腦操控,目標(biāo)直指一個(gè)終極形態(tài),AI數(shù)字員工。它不再只是一個(gè)對話框,而是一個(gè)能理解、能思考、能動(dòng)手干活的智能代理。
打工人懸了嗎?或許現(xiàn)在還不至于,但那個(gè)AI負(fù)責(zé)工作,人類負(fù)責(zé)生活的未來,確實(shí)又近了一大步。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.