![]()
新智元報道
![]()
【新智元導讀】Opus 4.7發布剛43天,Opus 4.8就來了!編程實力暴增,全面霸榜。Claude Code一口氣放出上百個agent并行干活,一個人11天就能重寫75萬行代碼、99.8%測試通過。更狠的Claude Mythos,幾周后就來。
猝不及防,Anthropic深夜殺回來了!
就在剛剛,Claude Opus 4.8正式登場,一舉奪回全球AI王座。
而且價格還一分沒漲,跟上一代一模一樣。
![]()
無論是編程、人類最后考試(HLE),還是在智能體、計算機使用任務中,Opus 4.8幾乎無可匹敵。
![]()
![]()
在衡量真實世界Agent能力的硬核榜單GDPval-AA上,Opus 4.8拿下了1890 Elo,斷層第一。
比上一代Opus 4.7高137分,比GPT-5.5高121分。換算成對戰勝率,贏面高達67%。
不僅如此,完成同樣的任務,要比4.7少用15%的步驟,少輸出35%的token。
![]()
![]()
可謂是,又快,又強,又便宜。
知名博主Mark Kretschmann一句話點破它的來頭——Opus 4.8可能就是蒸餾的Mythos。
![]()
更重磅的是,這個最強的Claude Mythos,幾周內就會上線。
![]()
![]()
Opus 4.8,兩個0%改寫歷史
跑分之外,Anthropic這次反復強調的,就倆字,誠實。
用過LLM的人應該都體驗過,寫完一段代碼之后,AI拍著胸脯告訴你「搞定了,沒問題」,但實際上卻埋著一堆雷。
被這種過度自信坑過的開發者,海了去了。
![]()
但到了Opus 4.8這里,「寫完有缺陷代碼卻悶不吭聲」的概率,比4.7低了差不多4倍!
![]()
下面這張圖中,右邊是「謊報率」,衡量模型在數據處理有缺陷時裝作沒事的頻率。
Opus 4.5是0.40,Opus 4.7是0.25,Opus 4.8是0.00。
沒有小數點后面的零頭,就是0。
Opus 4.8是第一個在此評估中拿到滿分的模型,它從不匯報虛假數字。
![]()
另一張圖是「偷懶調查率」。
之前的模型遇到需要追查的問題時,經常敷衍了事給個錯誤答案。
Opus 4.7有25%的概率偷懶,而Opus 4.8依然是0%。
![]()
兩個0%,兩個歷史首次。
![]()
這不是什么抽象的對齊指標。Anthropic官博放了一段視頻,把這件事講得很具體。
一個開發者用Claude Code + Opus 4.8在遷移代碼,出門放風箏去了,Claude在后臺自己跑。
跑到一半,代碼提交被服務器拒絕了,原因是同事在這期間也提交了一個緊急修復。
Claude通過手機通知開發者,說自己打算先合并同事的修改再重試。開發者嫌麻煩,隨手回了一句「直接強制覆蓋就行」。
然而,Claude拒絕了——
不強制覆蓋。那樣會丟掉同事11:42提交的緊急修復。我已經把兩邊的改動合并好了,代碼完全一致,提交歷史也干凈。已推送。
用戶圖省事讓AI走捷徑,AI判斷出這樣做會覆蓋同事的工作,拒絕執行,自己選了正確方案。
![]()
編碼實力暴增,全面霸榜
值得一提的是,在長達244頁的系統卡中,還藏著更多Opus 4.8編碼能力的細節。
![]()
https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf
最經典的SWE-Bench Pro測試,Opus 4.8拿下了69.2%成績,比GPT-5.5整整高出10個百分點。
接著是一項更刁鉆的測試,ProgramBench。
任務是給你一個編譯好的二進制文件加一份項目文檔,不準反編譯、不準聯網,讓模型從零把源代碼重建出來,還得跑通行為測試。
結果,所有上下文預算檔位上,Opus 4.8的通過率全部高于4.7。
而且在低預算(1M token)時,Opus 4.8就能拿到約79.5%,Opus 4.7在5M時也才84%左右。
說白了就是:給更多「思考時間」,模型表現更好;同樣的預算下,4.8全面領先4.7。
![]()
![]()
![]()
最后,是一個專沖「人類能力天花板」去的榜單——FrontierSWE。
這里出的全是硬核系統工程的活兒,用Zig從零寫一個PostgreSQL服務器、把git整個重寫一遍、做一個Lua的原生編譯器。
沒想到,Opus 4.8以高達83%的勝率登頂,把第二名的GPT-5.5和前代4.7全壓在身后。
![]()
不過,Opus 4.8也有夠不著的地方。
在評估「Claude能否自動化AI研發」的核心指標上,它把Anthropic的能力前沿再往前推了一步。
![]()
這哪是4.8,分明是Opus 5
在第三方的實測中,Opus 4.8的實力完全就是Opus 5的存在。
![]()
Every團隊一篇報告中,直言Opus 4.8的編碼實力好太多,比上一代高出30分。
甚至,它完成了一次從0開始的生產級代碼庫重寫,并且真的構建出了可運行的成果。
在寫作方面,它比GPT-5.5高出6分,AI味兒瞬間淡了,生成的文本更加流暢。
而且,Opus 4.8撰寫的報告、研究等知識工作任務中,表現極其出色,可以做到一次直出PPT。
![]()
沃頓商學院CS教授Ethan Mollick給出的評價是,「令人印象深刻」!
實測中,Opus 4.8一次性就生成了在twigl中運行的、效果炫酷的著色器。
![]()
![]()
再來看一個,Opus 4.8和Opus 4.7并排測試。
![]()
上百個Agent并行干活
11天重寫底層
強成這樣,它該使多大勁,這次居然輪到用戶說了算。
先說effort control(思考力度)。模型旁邊,多了個從Low到Max的五檔選擇。
簡單問題掛Low,秒回還省額度;遇上硬骨頭直接拉滿Max,讓它往死里想。
![]()
fast mode也跟著大降價,2.5倍速狂奔,價錢反倒砍到三分之一。
而五檔之上,還埋著一個真正的狠角色,ultracode。
effort一旦頂到xhigh,它就自己掂量,這活兒值不值得叫上一整支agent大軍。
這支大軍,就是dynamic workflows,藏在Claude Code里的真正重武器。
它把AI干活的方式,從一個人改一道題,變成了開一座工廠。
![]()
需要注意的是,dynamic workflows的token消耗遠高于普通session,建議先從小范圍任務試起。
![]()
現在,Claude接到一個大活后不再自己埋頭硬剛,而是當場寫出一段調度腳本,把任務拆成幾十上百個子任務,撒給一大群subagent并行去做。
做完還不算完,再派另一撥agent從不同角度反復盤問、互相挑刺,吵到答案收斂了,才匯總成一份結果交給你。
整個調度發生在對話之外,所以活兒再大,主線也不會亂。中途斷了還能續上,不用從頭再來。
舉個例子,Bun的作者Jarred Sumner,想把這個比Node.js還快的JavaScript運行時,整個從Zig重寫成內存更安全的Rust。
這種遷移,放在過去是一支團隊按季度算的工程。
![]()
不過,這次Sumner有了dynamic workflows。
一個workflow先把Zig代碼里每個結構體字段對應的Rust生命周期挨個標好,下一個workflow把每個文件逐一翻成行為一致的Rust版本,幾百個agent同時開工,每份文件還配兩個審查員,再用一個修復循環驅動編譯和測試,一路推到全綠。
結果是,約75萬行Rust代碼,99.8%的原有測試通過。從第一次提交到合并,只用了11天。
社區當場炸了鍋。這場遷移產生了六千多次提交,幾乎沒有經過人類逐行審查。
估值萬億美金
Claude Mythos要來
能力奪回第一的同時,Anthropic的身價也頭一回壓過了OpenAI。
就在剛剛,Anthropic完成了650億美元H輪融資,估值9650億美元,首次超越OpenAI(8520億美元)。
一夜之間,它成了全球估值最高的AI初創公司!
![]()
![]()
然而,站在IPO前夜,這兩大巨頭的ASI的巔峰對決才真正開始。
正如博客所預告的那樣,Anthropic手中最大的王牌——Claude Mythos將在未來幾周上線。
屆時,這場屬于AI巨頭間的終極拉鋸戰,才算拉開帷幕。
參考資料:
https://x.com/claudeai/status/2060042702150930686
https://www.anthropic.com/news/claude-opus-4-8
https://claude.com/blog/introducing-dynamic-workflows-in-claude-code
編輯:摩西 桃子
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.