網易首頁 > 網易號 > 正文 申請入駐

中門對狙!Claude Opus 4.6和GPT-5.3 Codex同時發布,這下真的AI春晚了。

0
分享至

大數據文摘受權轉載自數字生命卡茲克

作者:卡茲克

在全網翹首以盼的等了兩天之后,在凌晨2點。

Anthropic的新模型Cluade Opus 4.6正式更新了。


我說實話,我是真的最近因為AI圈這些模型和產品,熬夜熬的有點扛不住了。

但其實最顛最絕望的是,20分鐘之后,OpenAI也發了新模型。。。

GPT 5.3 Codex也來了。

這尼瑪,真的是中門對狙了。


要了親命了。。。

這兩模型都還是得看,因為之前GPT和Claude幾乎就是我最常用的維二最主力的模型,GPT-5.2用來做各種各樣的搜索和事實核查還有研究還有編程改BUG,Opus 4.5做創作和主力編程。

現在,兩個都來了。

太刺激了。

一個一個說吧。

一. Claude Opus 4.6

這次 Anthropic其實不止發了Claude Opus 4.6,還有一個很好玩的東西,Agent Teams,還有關于Excel和PPT插件的更新。

先說Claude Opus 4.6。

每次有新模型發布,大家第一反應就是看跑分。


這次Opus 4.6的跑分確實很漂亮,我挑幾個重點說說。

首先是Terminal-Bench 2.0,這是一個測試AI在終端環境下編程能力的評估,Opus 4.6拿了65.4%,是所有模型里最高的(沒看到GPT-5.3 codex之前)。

GPT-5.2是64.7%,Gemini 3 Pro是56.2%。

讓我比較驚訝的是OSWorld這個評估,測的是AI操作電腦的能力,Opus 4.6拿了72.7%,比Opus 4.5的66.3%高了不少。

這就意味著Claude越來越會用電腦了,它能更好地操作鼠標、點擊按鈕、在不同應用之間切換,在Coding能力提升的同時,電腦操作的能力也有大幅提升,這是真的要奔著全面Agent化去了。

還有一個BrowseComp,也是讓我意外的,測的是Agent在網上搜索信息的能力,Opus 4.6拿了84.0%,遠超其他模型。

第二名GPT-5.2 Pro是77.9%,差了6個多點。

因為我自己其實一直把GPT-5.2 Pro當作是我最牛逼的研究報告生成引擎去用的,他比DeepResearch還要強,精準度極高幻覺率極低,現在Opus 4.6比它還要搞6個點,說實話有點離譜了。

然后就是GDPval-AA這個評估,這個評估測的是AI在真實工作任務中的表現,包括金融、法律等領域的知識工作。Opus 4.6拿了1606的Elo分,比GPT-5.2高了144分,比自己的前代Opus 4.5高了190分。

144分的Elo差距還是挺大的,也就是說,在干活這件事上,Opus 4.6確實是目前最強的,Cluade是真的把自己的編程能力,開始逐漸泛化到其他的工作場景里面去了。


然后最離譜的是這個,ARC AGI 2,68.8%,吊打一切。。。

我之前在GPT-5.2發布時候的文章里科普過這玩意,就是下面這種題。


這種能力,現在稱為流體智力(Fluid Intelligence),意思就是指不依賴于已有的知識,在全新情境下進行邏輯推理、識別模式和解決問題的能力。

說白了,就是你的悟性開竅的能力。

之前在ARC-AGI-2上,GPT-5.1的得分是17.6%,而GPT-5.2 Pro,直接飆到了50%多。

這一次,Claude Opus 4.6,直接干到了68.8%,是有點離譜的,差點摸到7字頭了。

從上面這些跑分看,除了一些世界知識和問答上,Claude Opus 4.6還弱于GPT-5.2,其他的幾乎已經全面領先。

當之無愧的SOTA。

說實話,我對跑分一直有點復雜的感情。

一方面,跑分確實能說明一些問題,但另一方面,跑分和實際使用體驗之間,往往有一道很深的鴻溝。

很多模型跑分很高,但用起來就是不順手,反過來,有些模型你看著整體跑分一般,但在某些場景下就是還挺好用的。

所以我更關注的,是這次更新在產品層面做了什么。

第一個:1M token的上下文窗口。

普天同慶!!!Claude Opus系列,終于有1M上下文啦!!!

Opus 4.6終于支持100萬token的上下文了!!!

真的,做Coding的朋友們都知道,上下文容量有多重要。。。

之前只有200K的小窗口,這次整整翻了5倍!!!現在再也不用擔心這個問題了!!!

而且我要說一個很重要的點,就是上下文窗口大,不等于模型能真正用好這么大的上下文。

很多模型雖然支持很長的上下文,但你真的塞進去很多內容之后,模型的表現會明顯下降,會變得很蠢。

這個問題在業內叫"context rot",上下文腐爛,也就是你用的越久,模型能力開始變得越差。

而這次,Claude Opus 4.6,在MRCR v2的測試上做了實驗,這個測試是大海撈針類的,就是在一大堆文本里藏幾個關鍵信息,看模型能不能找到。

在100萬token、藏8根針的測試里,Opus 4.6直接拿了76%,而Sonnet 4.5只有18.5%,太牛逼了!


而且上下文推理上,也傲視群雄。


這對很多實際場景來說真的非常有用,也是我最最最喜歡的升級點,不只是coding,其實比如你想讓Claude幫你審查一份幾百頁的法律文件,或者分析一個大公司的財報,現在大概率也是可以一次性搞定了。

第二個:輸出上限提升到128K。

以前Claude的輸出上限都是64K,這次直接翻倍了。


也算是一個相當不錯的利好。

這個改進聽起來不起眼,但對于實際使用來說真的很重要。

第三個:Context Compaction,上下文壓縮。

這個功能其實Claude Code已經實現很久了,但我覺得還是很有必要說一下,因為它解決了一個很現實的問題。

當你跟AI聊了很久,或者讓AI執行一個很長的任務,對話內容會越來越多,最終會超過上下文窗口的限制。以前遇到這種情況,要么任務失敗,要么得手動清理對話歷史。

現在有了Context Compaction,Claude可以自動把舊的對話內容壓縮成摘要,騰出空間給新的內容。

這樣Claude就能執行更長時間的任務,而不會因為上下文溢出而中斷。

這對于那些需要Claude長時間自主工作的場景來說,是一個很實用的改進。

以前是在Claude Code里使用工程實現的,現在直接模型自帶了。

第四個:Adaptive Thinking和Effort控制

以前Claude有一個"extended thinking"功能,就是讓它在回答之前先深度思考一會兒。

這個功能開啟之后,Claude的回答質量會提升,但速度會變慢,成本也會增加。

問題是,以前這個功能是要么開要么關,沒有中間狀態。有些簡單問題,你開了深度思考,就有點殺雞用牛刀了。

現在有了兩個新功能來解決這個問題。

一個是Adaptive Thinking,自適應思考。開啟之后,Claude會自己判斷這個問題需不需要深度思考。簡單問題就快速回答,復雜問題就多想一會兒。


另一個是Effort控制,讓你可以手動設置Claude的思考程度。有四個檔位:low、medium、high、max,默認是high。

這兩個功能加起來,讓Claude的使用變得更靈活了。

你可以根據實際需求,在速度、成本、質量之間找到平衡點。

然后還有一個,是Claude Code里面很重要的更新,叫做Agent Teams。

以前你用Claude Code,是一個Claude在干活,你給它一個任務,它自己去做,做完了給你看結果。

現在有了Agent Teams不一樣了,你可以讓一個會話充當團隊負責人,協調工作、分配任務并綜合結果。

然后啟動團隊成員獨立工作,各自在自己的上下文窗口中,并彼此直接通信。

比如假設你要做一個代碼審查,需要看前端代碼、后端代碼、還有數據庫相關的代碼。以前你可能要分三次讓Claude看,每次看一部分。

現在你可以說"幫我審查這個代碼庫",然后Claude會自動啟動3個團隊成員,一個看前端,一個看后端,一個看數據庫,三個同時進行,最后把結果匯總給你。

而且這些團隊成員不是完全獨立的,它們可以相互溝通。比如后端代理發現一個API的變更,它可以告訴前端代理,讓前端代理檢查一下調用這個API的地方有沒有問題,而且他們也可以互相質疑、互相挑戰、互相發現。

跟Claude Code里面之前subagents也就是子代理不同的點在于,子代理在單個會話中運行,只能向主代理報告結果,而Agent Teams是一個團隊,團隊成員可以直接與各個團隊成員互動,無需通過負責人。

他們自己也做了一個非常明確的圖表來進行區分。


當你需要快速、專注的工作人員進行反饋時,使用子代理。當團隊成員需要共享發現、相互挑戰和自主協調時,使用Agent Teams。

然后就是兩個小的更新,一個是Claude in Excel這個插件將Claude Opus 4.6直接集成到了excel里面。

現在還支持數據透視表編輯、圖表修改、條件格式設置、排序和篩選、數據驗證以及金融級格式設置。

還添加了可用性改進,包括長對話的自動壓縮和拖放多文件支持等等。


然后還發了一個Claude in PowerPoint。

將Claude集成到了PowerPoint側邊欄中,讓它在創建新內容之前讀取現有的布局、字體和母版。

Claude也可以根據客戶模板構建演示文稿、對現有幻燈片進行針對性編輯。


Anthropic真的憑借著Claude,在B端領域,真的開始大殺四方了。

GPT說實話,現在整個B端和生產力端的體驗,稍微落后的有點多了。

最后說一下價格。

API價格保持不變,還是$5/$25每百萬token(輸入/輸出)。

如果用超過20萬token的上下文,會有額外定價,是$10/$37.50每百萬token。


目前,Claude網頁版和Claude Code上,Claude Opus 4.6均以全面上線,已經可以快樂的玩耍起來了。



二. GPT-5.3 Codex

終于聊完了Claude的東西,然后到了GPT這邊。

說實話,我自己對GPT一直也是有自己的情感的,他依然是我現在在任何時候想到問題,第一個去問的模型,想要要驗證某一個事的時候,第一個去問的模型。

而且,雖然我不是一個專業的編程大佬,但是在我有限的Vibe Coding的經驗里,我覺得GPT-5.2 Codex在解決BUG和難點的問題上,是要強于Claude Opus 4.5的。

特別是GPT-5.2 Codex+Codex的改BUG體驗,是要比Claude Opus 4.5+Claude Code要更強的。

所以我自己經常的工作流,經常是用Claude code寫一個大的,然后用codex接手后續進行調整。

所以我剛好,還真是這兩玩意的用戶。。。

所以GPT-5.3 Codex的更新,我自然也非常的開心。

兩者中門對狙,開心的自然是我們用戶。

這次GPT-5.3 Codex,其實最讓我驚訝的東西,不是跑分,是他們博客里的一句話:


"GPT-5.3 Codex是我們第一個在創造自己的過程中發揮重要作用的模型。"

OpenAI說,他們的Codex團隊在開發GPT-5.3的過程中,用早期版本的模型來debug自己的訓練過程、管理部署、診斷測試結果和評估。

用人話說就是,AI參與了自己的開發。

這個事情聽起來有點科幻,但其實邏輯上是通的。

AI模型的開發過程,本質上也是一堆代碼,訓練腳本是代碼,部署流程是代碼,測試框架也是代碼。

既然AI已經coding能力已經這么牛逼了,那讓AI來幫忙寫這些代碼,也是順理成章的事。

但順理成章和真的做到了說實話,是兩碼事。

OpenAI的團隊說,他們被Codex能夠加速自身開發的程度震驚了。

如果AI能夠越來越多地參與自己的開發,那AI進化的速度會不會變得更快?這個問題,可能比任何跑分都重要。

這個世界,真的都在瘋狂的加速啊。

然后老規矩,再看下跑分。

GPT-5.3 Codex在幾個關鍵的編程評測上都拿到了最高分。


這時候,你肯定會問了, GPT-5.3 Codex和Claude Opus 4.6,到底哪個跑分更牛逼一點???

說實話,因為兩家的評測基準,還是有很多細節差異,所以,完全沒法直接進行對比。。。

唯一一個對齊的基準是Terminal-Bench 2.0,這是一個由89個復雜真實任務組成的基準,這些任務都在終端環境中執行,每個任務運行在獨立Docker容器內。

2.0版本于2025年11月7日發布。


Claude Opus 4.6得分65.4%,GPT-5.3 Codex得分77.3%,OpenAI領先11.9個百分點。


在這個唯一相同的基準里,GPT更勝一籌,而且是大勝,符合我對Codex系列的認知。

然后是OSWorld,評估AI agent操作真實計算機的能力,人類基線為72.36%。

關鍵區別在于,Claude Opus 4.6報告的是原版OSWorld(72.7%),而 GPT-5.3 Codex報告的是OSWorld-Verified(64.7%)。

OSWorld-Verified于2025年7月28日發布,是一次全面重構,修復了原版中300+已識別問題,包括失效 URL、反爬 CAPTCHA、不穩定 HTML 結構、含糊指令,以及過嚴/過松的評測腳本。

所以說,別看這個評測看著Claude更強,但是兩個分數衡量的并不是同一件事。

OSWorld-Verified 提供了更嚴格、更可控的信號,也一般被認為更難,所以嚴格意義上來說, GPT-5.3 Codex的 64.7% 甚至是要強于 Claude Opus 4.6的 72.7%的。


然后是GDPVal,這個事在美國GDP貢獻最大的9個行業中,覆蓋44種職業、1320個真實知識工作任務。

任務要求產出真實職業交付物,如文檔、表格、演示、圖表,平均相當于7小時專家工作量。

可比性問題在這里最明顯。

GPT-5.3 Codex的“GDPval wins or ties: 70.9%”,使用的是 OpenAI 自己的方法,由職業人類評審盲評 AI 產出與人類專家產出,判斷 AI 版本是否“與人類一樣好或更好”,分母是固定的人類標準。

Claude Opus 4.6的“GDPval-AA Elo: 1606”,這是獨立評測機構Artificial Analysis的體系,使用其自有Stirrup agent框架(具備 shell 與網頁瀏覽能力)跑模型,再由Gemini 3 Pro做兩兩比較評判,最終用Bradley-Terry模型擬合Elo評分,并以GPT-5.1的1000 為錨點。

所以這個是太難換算了,我也不太清楚兩邊哪個更牛逼。。。


然后就是SWE-bench,SWE-bench測試AI是否能通過生成代碼補丁修復真實 GitHub issue。

SWE-bench Verified(Claude Opus 4.6使用,80.8%)是500題、人工驗證、僅Python的子集,由OpenAI Preparedness團隊在2024年8月發布。

93位職業開發者驗證了每道題都具備明確問題描述和公平單測,頂級模型已超過70%,該基準接近飽和。

SWE-bench Pro Public(GPT-5.3 Codex 使用,56.8%)是731題、多語言基準,由Scale AI創建。它覆蓋Python、Go、JavaScript、TypeScript等,橫跨41個倉庫。參考解平均107.4行、4.1個文件,明顯比 Verified常見的單文件補丁更復雜。

它還納入copyleft與專有代碼庫,專門降低數據污染風險。

所以說,Claude Opus 4.6在Verified的80.8%與GPT-5.3 codex在Pro Public的56.8%不能直接比較。

但說實話Pro明顯更難,發布時GPT-5和Claude Opus 4.1在Pro上都只有約23%,不到其Verified分數的三分之一。


所以說,其實整體跑分上,雖然看著GPT-5.3 Codex的得分好像都低一點。

但是含金量更足,如果非要我說的話,結合著我過去的測試印象,單開發這一塊,可能會是GPT-5.3 Codex會更強更實用一點。

當然,還有一個最關鍵的一點是,GPT...他不封號呀= =

然后跑分是一回事,能做什么是另一回事。

OpenAI在博客里展示了兩個用GPT-5.3 Codex做的游戲,一個賽車游戲和一個潛水游戲。

這兩個游戲都不只是那種我們隨處可見簡單的demo,而是完整的、可玩的游戲。

賽車游戲有不同的賽車、八張地圖、還有道具系統。

潛水游戲有不同的珊瑚礁可以探索、有氧氣和壓力管理系統、還有危險要素。

關鍵是,這些游戲全都是GPT-5.3 Codex自己做的。

OpenAI說,他們在Codex產品了里,用這個模型和一個叫develop web game的Skills,加上一些通用的跟進提示(比如"修復這個bug"或者"改進這個游戲"),讓GPT-5.3 Codex在幾天的時間里,自主迭代了數百萬個token,最終做出了這些游戲。

說實話,有點牛逼的。

而且這次有一個很棒的更新點。

就是你可以在GPT-5.3 Codex工作的時候跟它互動,可以隨時介入,隨時調整方向了。。。

終于不用先停止了,這個小能力還挺香的。

目前已經在Codex上上線,我已經開始用起來了。


而且直觀感受,在Codex上運行GPT-5.3 codex真的快了非常非常多。

在博客里沒有這塊數據,不過奧特曼自己的X上寫出來了。


“完成相同任務所需的令牌數不到 5.2-Codex 的一半,且單令牌速度快 25% 以上!”

非常推薦大家下載個Codex試試,真的蠻好用的。

這篇稿子又寫了個通宵,基本上把我對這兩個模型的理解都寫進去了,應該沒啥漏的了,應該是最全的一篇了。

至于實際測試,希望大家見諒,這么一點點時間實在測不出來,可能我得需要一整個周末的時候,正兒八經的開發幾個產品,才能感受到明顯的差異。

不過有一點就是,現在的模型幾乎都是奔著Coding和Agent去的,所以這塊的提升基本都很明顯,跟手機一樣,用新不用舊。

直覺上我的工作流還是不太會變,Claude Opus 4.6 + Claude code打草稿,GPT-5.3 Codex + Codex進行后續精準開發。

最后。

今天真的是AI行業的大日子。

Anthropic發了Opus 4.6,OpenAI發了GPT-5.3 Codex。

兩家頭部AI公司在同一天放出大招,這在歷史上也是罕見的。

現在就等著Gemini還能玩出什么花活了。

從模型能力上看,兩家都在快速進步,差距在縮小。

從產品形態上看,兩家都在押注Agent,但側重點有所不同。

從行業影響上看,傳統SaaS公司開始感到壓力,軟件行業絕對正在經歷一場從誕生以來最大的一次范式轉變。

我不知道一年后這個行業會變成什么樣。

但我知道,現在,絕對是一個需要密切關注、積極學習的時期。

錯過這一波,可能就真的錯過了。

如果你還沒用過Claude Code,沒用過Codex,現在是一個很好的開始時機。

畢竟,未來已經來了。

只是,還沒均勻分布。

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美股深夜冰火兩重天,軟件股重挫,甲骨文跌超6%,半導體逆勢爆發,熱門中概股大跌

美股深夜冰火兩重天,軟件股重挫,甲骨文跌超6%,半導體逆勢爆發,熱門中概股大跌

21世紀經濟報道
2026-04-23 22:32:48
外資暴跌96%,最高法連夜改規矩,莫迪狂砍蘋果380億,中企敲警鐘

外資暴跌96%,最高法連夜改規矩,莫迪狂砍蘋果380億,中企敲警鐘

丁丁鯉史紀
2026-04-23 13:56:03
張婉婷疑曾介入高云翔董璇婚姻,懷了對方的孩子,也太狗血了

張婉婷疑曾介入高云翔董璇婚姻,懷了對方的孩子,也太狗血了

話娛論影
2026-04-23 09:58:53
四個省級政府領導班子調整,夏鳳儉晉升副部

四個省級政府領導班子調整,夏鳳儉晉升副部

上觀新聞
2026-04-23 16:09:06
“暴力抗法”半月后,拼多多發生重大高管調整

“暴力抗法”半月后,拼多多發生重大高管調整

一見財經
2026-04-23 08:04:06
快看!世界新第一高樓,已蓋到100層!

快看!世界新第一高樓,已蓋到100層!

GA環球建筑
2026-04-23 22:28:50
軟件開發最后的一塊兒陣地,被AI攻克了......

軟件開發最后的一塊兒陣地,被AI攻克了......

碼農翻身
2026-04-23 08:59:23
不再是120/80,“新血壓標準”已公布,別再自己嚇自己!

不再是120/80,“新血壓標準”已公布,別再自己嚇自己!

芹姐說生活
2026-04-14 23:27:03
廣東季后賽賽程出爐!4月28日附加賽首戰,杜鋒或迎徐昕正面挑戰

廣東季后賽賽程出爐!4月28日附加賽首戰,杜鋒或迎徐昕正面挑戰

多特體育說
2026-04-23 23:07:54
趕緊給菲律賓送油送糧送化肥

趕緊給菲律賓送油送糧送化肥

安安說
2026-04-23 11:44:51
女大學生受邀去泰國潑水節被轉賣電詐園,家屬交20萬贖金:園區初步同意放人但不給位置;廣州警方已立案,教育部門介入

女大學生受邀去泰國潑水節被轉賣電詐園,家屬交20萬贖金:園區初步同意放人但不給位置;廣州警方已立案,教育部門介入

大風新聞
2026-04-23 16:28:15
太慘!被美歐拋棄,走上絕路,宣布破產!

太慘!被美歐拋棄,走上絕路,宣布破產!

李榮茂
2026-04-23 18:33:54
中國空軍才是最可怕的?2場空戰讓美軍意識到,中國比想象的強大

中國空軍才是最可怕的?2場空戰讓美軍意識到,中國比想象的強大

至死不渝的愛情
2026-04-23 21:45:22
石破茂:日本不能“盲目跟著美國跑”

石破茂:日本不能“盲目跟著美國跑”

環球時報國際
2026-04-23 22:48:32
AI竟能生成《金瓶梅》"3A大作"!尺度很大細節夸張

AI竟能生成《金瓶梅》"3A大作"!尺度很大細節夸張

游民星空
2026-04-22 11:55:38
震驚!徐向前揭露西安事變背后的驚天秘密!

震驚!徐向前揭露西安事變背后的驚天秘密!

鑒史錄
2026-04-23 00:15:03
突發!世乒賽女團換人!溫瑞博還有機會嗎?

突發!世乒賽女團換人!溫瑞博還有機會嗎?

最愛乒乓球
2026-04-24 00:05:31
受害者給許家印寫了副對聯,上聯:人民幣不是許家印,下聯太絕了

受害者給許家印寫了副對聯,上聯:人民幣不是許家印,下聯太絕了

南書房
2026-04-23 12:20:07
切爾西更衣室暗戰:兩名老將如何"做掉"新帥

切爾西更衣室暗戰:兩名老將如何"做掉"新帥

賽場名場面
2026-04-23 04:11:19
防不住!戰術拆解:哈登一人,為何能讓猛龍防守顧此失彼

防不住!戰術拆解:哈登一人,為何能讓猛龍防守顧此失彼

一登侃球
2026-04-24 00:25:54
2026-04-24 02:48:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6852文章數 94541關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

家居
房產
數碼
公開課
軍事航空

家居要聞

浪漫協奏 法式風格

房產要聞

三亞安居房,突然官宣!

數碼要聞

799元!小米推出米家無線吸塵器4C:170AW大吸力、75分鐘長續航

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進入關懷版