網易首頁 > 網易號 > 正文申請入駐

中門對狙！Claude Opus 4.6和GPT-5.3 Codex同時發布，這下真的AI春晚了。

2026-02-09 12:11:33　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自數字生命卡茲克

作者：卡茲克

在全網翹首以盼的等了兩天之后，在凌晨2點。

Anthropic的新模型Cluade Opus 4.6正式更新了。

我說實話，我是真的最近因為AI圈這些模型和產品，熬夜熬的有點扛不住了。

但其實最顛最絕望的是，20分鐘之后，OpenAI也發了新模型。。。

GPT 5.3 Codex也來了。

這尼瑪，真的是中門對狙了。

要了親命了。。。

這兩模型都還是得看，因為之前GPT和Claude幾乎就是我最常用的維二最主力的模型，GPT-5.2用來做各種各樣的搜索和事實核查還有研究還有編程改BUG，Opus 4.5做創作和主力編程。

現在，兩個都來了。

太刺激了。

一個一個說吧。

一. Claude Opus 4.6

這次 Anthropic其實不止發了Claude Opus 4.6，還有一個很好玩的東西，Agent Teams，還有關于Excel和PPT插件的更新。

先說Claude Opus 4.6。

每次有新模型發布，大家第一反應就是看跑分。

這次Opus 4.6的跑分確實很漂亮，我挑幾個重點說說。

首先是Terminal-Bench 2.0，這是一個測試AI在終端環境下編程能力的評估，Opus 4.6拿了65.4%，是所有模型里最高的（沒看到GPT-5.3 codex之前）。

GPT-5.2是64.7%，Gemini 3 Pro是56.2%。

讓我比較驚訝的是OSWorld這個評估，測的是AI操作電腦的能力，Opus 4.6拿了72.7%，比Opus 4.5的66.3%高了不少。

這就意味著Claude越來越會用電腦了，它能更好地操作鼠標、點擊按鈕、在不同應用之間切換，在Coding能力提升的同時，電腦操作的能力也有大幅提升，這是真的要奔著全面Agent化去了。

還有一個BrowseComp，也是讓我意外的，測的是Agent在網上搜索信息的能力，Opus 4.6拿了84.0%，遠超其他模型。

第二名GPT-5.2 Pro是77.9%，差了6個多點。

因為我自己其實一直把GPT-5.2 Pro當作是我最牛逼的研究報告生成引擎去用的，他比DeepResearch還要強，精準度極高幻覺率極低，現在Opus 4.6比它還要搞6個點，說實話有點離譜了。

然后就是GDPval-AA這個評估，這個評估測的是AI在真實工作任務中的表現，包括金融、法律等領域的知識工作。Opus 4.6拿了1606的Elo分，比GPT-5.2高了144分，比自己的前代Opus 4.5高了190分。

144分的Elo差距還是挺大的，也就是說，在干活這件事上，Opus 4.6確實是目前最強的，Cluade是真的把自己的編程能力，開始逐漸泛化到其他的工作場景里面去了。

然后最離譜的是這個，ARC AGI 2，68.8%，吊打一切。。。

我之前在GPT-5.2發布時候的文章里科普過這玩意，就是下面這種題。

這種能力，現在稱為流體智力（Fluid Intelligence），意思就是指不依賴于已有的知識，在全新情境下進行邏輯推理、識別模式和解決問題的能力。

說白了，就是你的悟性和開竅的能力。

之前在ARC-AGI-2上，GPT-5.1的得分是17.6%，而GPT-5.2 Pro，直接飆到了50%多。

這一次，Claude Opus 4.6，直接干到了68.8%，是有點離譜的，差點摸到7字頭了。

從上面這些跑分看，除了一些世界知識和問答上，Claude Opus 4.6還弱于GPT-5.2，其他的幾乎已經全面領先。

當之無愧的SOTA。

說實話，我對跑分一直有點復雜的感情。

一方面，跑分確實能說明一些問題，但另一方面，跑分和實際使用體驗之間，往往有一道很深的鴻溝。

很多模型跑分很高，但用起來就是不順手，反過來，有些模型你看著整體跑分一般，但在某些場景下就是還挺好用的。

所以我更關注的，是這次更新在產品層面做了什么。

第一個：1M token的上下文窗口。

普天同慶！！！Claude Opus系列，終于有1M上下文啦！！！

Opus 4.6終于支持100萬token的上下文了！！！

真的，做Coding的朋友們都知道，上下文容量有多重要。。。

之前只有200K的小窗口，這次整整翻了5倍！！！現在再也不用擔心這個問題了！！！

而且我要說一個很重要的點，就是上下文窗口大，不等于模型能真正用好這么大的上下文。

很多模型雖然支持很長的上下文，但你真的塞進去很多內容之后，模型的表現會明顯下降，會變得很蠢。

這個問題在業內叫"context rot"，上下文腐爛，也就是你用的越久，模型能力開始變得越差。

而這次，Claude Opus 4.6，在MRCR v2的測試上做了實驗，這個測試是大海撈針類的，就是在一大堆文本里藏幾個關鍵信息，看模型能不能找到。

在100萬token、藏8根針的測試里，Opus 4.6直接拿了76%，而Sonnet 4.5只有18.5%，太牛逼了！

而且上下文推理上，也傲視群雄。

這對很多實際場景來說真的非常有用，也是我最最最喜歡的升級點，不只是coding，其實比如你想讓Claude幫你審查一份幾百頁的法律文件，或者分析一個大公司的財報，現在大概率也是可以一次性搞定了。

第二個：輸出上限提升到128K。

以前Claude的輸出上限都是64K，這次直接翻倍了。

也算是一個相當不錯的利好。

這個改進聽起來不起眼，但對于實際使用來說真的很重要。

第三個：Context Compaction，上下文壓縮。

這個功能其實Claude Code已經實現很久了，但我覺得還是很有必要說一下，因為它解決了一個很現實的問題。

當你跟AI聊了很久，或者讓AI執行一個很長的任務，對話內容會越來越多，最終會超過上下文窗口的限制。以前遇到這種情況，要么任務失敗，要么得手動清理對話歷史。

現在有了Context Compaction，Claude可以自動把舊的對話內容壓縮成摘要，騰出空間給新的內容。

這樣Claude就能執行更長時間的任務，而不會因為上下文溢出而中斷。

這對于那些需要Claude長時間自主工作的場景來說，是一個很實用的改進。

以前是在Claude Code里使用工程實現的，現在直接模型自帶了。

第四個：Adaptive Thinking和Effort控制

以前Claude有一個"extended thinking"功能，就是讓它在回答之前先深度思考一會兒。

這個功能開啟之后，Claude的回答質量會提升，但速度會變慢，成本也會增加。

問題是，以前這個功能是要么開要么關，沒有中間狀態。有些簡單問題，你開了深度思考，就有點殺雞用牛刀了。

現在有了兩個新功能來解決這個問題。

一個是Adaptive Thinking，自適應思考。開啟之后，Claude會自己判斷這個問題需不需要深度思考。簡單問題就快速回答，復雜問題就多想一會兒。

另一個是Effort控制，讓你可以手動設置Claude的思考程度。有四個檔位：low、medium、high、max，默認是high。

這兩個功能加起來，讓Claude的使用變得更靈活了。

你可以根據實際需求，在速度、成本、質量之間找到平衡點。

然后還有一個，是Claude Code里面很重要的更新，叫做Agent Teams。

以前你用Claude Code，是一個Claude在干活，你給它一個任務，它自己去做，做完了給你看結果。

現在有了Agent Teams不一樣了，你可以讓一個會話充當團隊負責人，協調工作、分配任務并綜合結果。

然后啟動團隊成員獨立工作，各自在自己的上下文窗口中，并彼此直接通信。

比如假設你要做一個代碼審查，需要看前端代碼、后端代碼、還有數據庫相關的代碼。以前你可能要分三次讓Claude看，每次看一部分。

現在你可以說"幫我審查這個代碼庫"，然后Claude會自動啟動3個團隊成員，一個看前端，一個看后端，一個看數據庫，三個同時進行，最后把結果匯總給你。

而且這些團隊成員不是完全獨立的，它們可以相互溝通。比如后端代理發現一個API的變更，它可以告訴前端代理，讓前端代理檢查一下調用這個API的地方有沒有問題，而且他們也可以互相質疑、互相挑戰、互相發現。

跟Claude Code里面之前subagents也就是子代理不同的點在于，子代理在單個會話中運行，只能向主代理報告結果，而Agent Teams是一個團隊，團隊成員可以直接與各個團隊成員互動，無需通過負責人。

他們自己也做了一個非常明確的圖表來進行區分。

當你需要快速、專注的工作人員進行反饋時，使用子代理。當團隊成員需要共享發現、相互挑戰和自主協調時，使用Agent Teams。

然后就是兩個小的更新，一個是Claude in Excel這個插件將Claude Opus 4.6直接集成到了excel里面。

現在還支持數據透視表編輯、圖表修改、條件格式設置、排序和篩選、數據驗證以及金融級格式設置。

還添加了可用性改進，包括長對話的自動壓縮和拖放多文件支持等等。

然后還發了一個Claude in PowerPoint。

將Claude集成到了PowerPoint側邊欄中，讓它在創建新內容之前讀取現有的布局、字體和母版。

Claude也可以根據客戶模板構建演示文稿、對現有幻燈片進行針對性編輯。

Anthropic真的憑借著Claude，在B端領域，真的開始大殺四方了。

GPT說實話，現在整個B端和生產力端的體驗，稍微落后的有點多了。

最后說一下價格。

API價格保持不變，還是$5/$25每百萬token（輸入/輸出）。

如果用超過20萬token的上下文，會有額外定價，是$10/$37.50每百萬token。

目前，Claude網頁版和Claude Code上，Claude Opus 4.6均以全面上線，已經可以快樂的玩耍起來了。

二. GPT-5.3 Codex

終于聊完了Claude的東西，然后到了GPT這邊。

說實話，我自己對GPT一直也是有自己的情感的，他依然是我現在在任何時候想到問題，第一個去問的模型，想要要驗證某一個事的時候，第一個去問的模型。

而且，雖然我不是一個專業的編程大佬，但是在我有限的Vibe Coding的經驗里，我覺得GPT-5.2 Codex在解決BUG和難點的問題上，是要強于Claude Opus 4.5的。

特別是GPT-5.2 Codex+Codex的改BUG體驗，是要比Claude Opus 4.5+Claude Code要更強的。

所以我自己經常的工作流，經常是用Claude code寫一個大的，然后用codex接手后續進行調整。

所以我剛好，還真是這兩玩意的用戶。。。

所以GPT-5.3 Codex的更新，我自然也非常的開心。

兩者中門對狙，開心的自然是我們用戶。

這次GPT-5.3 Codex，其實最讓我驚訝的東西，不是跑分，是他們博客里的一句話：

"GPT-5.3 Codex是我們第一個在創造自己的過程中發揮重要作用的模型。"

OpenAI說，他們的Codex團隊在開發GPT-5.3的過程中，用早期版本的模型來debug自己的訓練過程、管理部署、診斷測試結果和評估。

用人話說就是，AI參與了自己的開發。

這個事情聽起來有點科幻，但其實邏輯上是通的。

AI模型的開發過程，本質上也是一堆代碼，訓練腳本是代碼，部署流程是代碼，測試框架也是代碼。

既然AI已經coding能力已經這么牛逼了，那讓AI來幫忙寫這些代碼，也是順理成章的事。

但順理成章和真的做到了說實話，是兩碼事。

OpenAI的團隊說，他們被Codex能夠加速自身開發的程度震驚了。

如果AI能夠越來越多地參與自己的開發，那AI進化的速度會不會變得更快？這個問題，可能比任何跑分都重要。

這個世界，真的都在瘋狂的加速啊。

然后老規矩，再看下跑分。

GPT-5.3 Codex在幾個關鍵的編程評測上都拿到了最高分。

這時候，你肯定會問了， GPT-5.3 Codex和Claude Opus 4.6，到底哪個跑分更牛逼一點？？？

說實話，因為兩家的評測基準，還是有很多細節差異，所以，完全沒法直接進行對比。。。

唯一一個對齊的基準是Terminal-Bench 2.0，這是一個由89個復雜真實任務組成的基準，這些任務都在終端環境中執行，每個任務運行在獨立Docker容器內。

2.0版本于2025年11月7日發布。

Claude Opus 4.6得分65.4%，GPT-5.3 Codex得分77.3%，OpenAI領先11.9個百分點。

在這個唯一相同的基準里，GPT更勝一籌，而且是大勝，符合我對Codex系列的認知。

然后是OSWorld，評估AI agent操作真實計算機的能力，人類基線為72.36%。

關鍵區別在于，Claude Opus 4.6報告的是原版OSWorld（72.7%），而 GPT-5.3 Codex報告的是OSWorld-Verified（64.7%）。

OSWorld-Verified于2025年7月28日發布，是一次全面重構，修復了原版中300+已識別問題，包括失效 URL、反爬 CAPTCHA、不穩定 HTML 結構、含糊指令，以及過嚴/過松的評測腳本。

所以說，別看這個評測看著Claude更強，但是兩個分數衡量的并不是同一件事。

OSWorld-Verified 提供了更嚴格、更可控的信號，也一般被認為更難，所以嚴格意義上來說， GPT-5.3 Codex的 64.7% 甚至是要強于 Claude Opus 4.6的 72.7%的。

然后是GDPVal，這個事在美國GDP貢獻最大的9個行業中，覆蓋44種職業、1320個真實知識工作任務。

任務要求產出真實職業交付物，如文檔、表格、演示、圖表，平均相當于7小時專家工作量。

可比性問題在這里最明顯。

GPT-5.3 Codex的“GDPval wins or ties: 70.9%”，使用的是 OpenAI 自己的方法，由職業人類評審盲評 AI 產出與人類專家產出，判斷 AI 版本是否“與人類一樣好或更好”，分母是固定的人類標準。

Claude Opus 4.6的“GDPval-AA Elo: 1606”，這是獨立評測機構Artificial Analysis的體系，使用其自有Stirrup agent框架（具備 shell 與網頁瀏覽能力）跑模型，再由Gemini 3 Pro做兩兩比較評判，最終用Bradley-Terry模型擬合Elo評分，并以GPT-5.1的1000 為錨點。

所以這個是太難換算了，我也不太清楚兩邊哪個更牛逼。。。

然后就是SWE-bench，SWE-bench測試AI是否能通過生成代碼補丁修復真實 GitHub issue。

SWE-bench Verified（Claude Opus 4.6使用，80.8%）是500題、人工驗證、僅Python的子集，由OpenAI Preparedness團隊在2024年8月發布。

93位職業開發者驗證了每道題都具備明確問題描述和公平單測，頂級模型已超過70%，該基準接近飽和。

SWE-bench Pro Public（GPT-5.3 Codex 使用，56.8%）是731題、多語言基準，由Scale AI創建。它覆蓋Python、Go、JavaScript、TypeScript等，橫跨41個倉庫。參考解平均107.4行、4.1個文件，明顯比 Verified常見的單文件補丁更復雜。

它還納入copyleft與專有代碼庫，專門降低數據污染風險。

所以說，Claude Opus 4.6在Verified的80.8%與GPT-5.3 codex在Pro Public的56.8%不能直接比較。

但說實話Pro明顯更難，發布時GPT-5和Claude Opus 4.1在Pro上都只有約23%，不到其Verified分數的三分之一。

所以說，其實整體跑分上，雖然看著GPT-5.3 Codex的得分好像都低一點。

但是含金量更足，如果非要我說的話，結合著我過去的測試印象，單開發這一塊，可能會是GPT-5.3 Codex會更強更實用一點。

當然，還有一個最關鍵的一點是，GPT...他不封號呀= =

然后跑分是一回事，能做什么是另一回事。

OpenAI在博客里展示了兩個用GPT-5.3 Codex做的游戲，一個賽車游戲和一個潛水游戲。

這兩個游戲都不只是那種我們隨處可見簡單的demo，而是完整的、可玩的游戲。

賽車游戲有不同的賽車、八張地圖、還有道具系統。

潛水游戲有不同的珊瑚礁可以探索、有氧氣和壓力管理系統、還有危險要素。

關鍵是，這些游戲全都是GPT-5.3 Codex自己做的。

OpenAI說，他們在Codex產品了里，用這個模型和一個叫develop web game的Skills，加上一些通用的跟進提示（比如"修復這個bug"或者"改進這個游戲"），讓GPT-5.3 Codex在幾天的時間里，自主迭代了數百萬個token，最終做出了這些游戲。

說實話，有點牛逼的。

而且這次有一個很棒的更新點。

就是你可以在GPT-5.3 Codex工作的時候跟它互動，可以隨時介入，隨時調整方向了。。。

終于不用先停止了，這個小能力還挺香的。

目前已經在Codex上上線，我已經開始用起來了。

而且直觀感受，在Codex上運行GPT-5.3 codex真的快了非常非常多。

在博客里沒有這塊數據，不過奧特曼自己的X上寫出來了。

“完成相同任務所需的令牌數不到 5.2-Codex 的一半，且單令牌速度快 25% 以上！”

非常推薦大家下載個Codex試試，真的蠻好用的。

這篇稿子又寫了個通宵，基本上把我對這兩個模型的理解都寫進去了，應該沒啥漏的了，應該是最全的一篇了。

至于實際測試，希望大家見諒，這么一點點時間實在測不出來，可能我得需要一整個周末的時候，正兒八經的開發幾個產品，才能感受到明顯的差異。

不過有一點就是，現在的模型幾乎都是奔著Coding和Agent去的，所以這塊的提升基本都很明顯，跟手機一樣，用新不用舊。

直覺上我的工作流還是不太會變，Claude Opus 4.6 + Claude code打草稿，GPT-5.3 Codex + Codex進行后續精準開發。

最后。

今天真的是AI行業的大日子。

Anthropic發了Opus 4.6，OpenAI發了GPT-5.3 Codex。

兩家頭部AI公司在同一天放出大招，這在歷史上也是罕見的。

現在就等著Gemini還能玩出什么花活了。

從模型能力上看，兩家都在快速進步，差距在縮小。

從產品形態上看，兩家都在押注Agent，但側重點有所不同。

從行業影響上看，傳統SaaS公司開始感到壓力，軟件行業絕對正在經歷一場從誕生以來最大的一次范式轉變。

我不知道一年后這個行業會變成什么樣。

但我知道，現在，絕對是一個需要密切關注、積極學習的時期。

錯過這一波，可能就真的錯過了。

如果你還沒用過Claude Code，沒用過Codex，現在是一個很好的開始時機。

畢竟，未來已經來了。

只是，還沒均勻分布。

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.