无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,Claude Opus 4.8來了!兩個史上首次改寫歷史

0
分享至


新智元報道


【新智元導讀】Opus 4.7發布剛43天,Opus 4.8就來了!編程實力暴增,全面霸榜。Claude Code一口氣放出上百個agent并行干活,一個人11天就能重寫75萬行代碼、99.8%測試通過。更狠的Claude Mythos,幾周后就來。

猝不及防,Anthropic深夜殺回來了!

就在剛剛,Claude Opus 4.8正式登場,一舉奪回全球AI王座。

而且價格還一分沒漲,跟上一代一模一樣。


無論是編程、人類最后考試(HLE),還是在智能體、計算機使用任務中,Opus 4.8幾乎無可匹敵。



在衡量真實世界Agent能力的硬核榜單GDPval-AA上,Opus 4.8拿下了1890 Elo,斷層第一。

比上一代Opus 4.7高137分,比GPT-5.5高121分。換算成對戰勝率,贏面高達67%。

不僅如此,完成同樣的任務,要比4.7少用15%的步驟,少輸出35%的token。



可謂是,又快,又強,又便宜。

知名博主Mark Kretschmann一句話點破它的來頭——Opus 4.8可能就是蒸餾的Mythos。


更重磅的是,這個最強的Claude Mythos,幾周內就會上線。



Opus 4.8,兩個0%改寫歷史

跑分之外,Anthropic這次反復強調的,就倆字,誠實。

用過LLM的人應該都體驗過,寫完一段代碼之后,AI拍著胸脯告訴你「搞定了,沒問題」,但實際上卻埋著一堆雷。

被這種過度自信坑過的開發者,海了去了。


但到了Opus 4.8這里,「寫完有缺陷代碼卻悶不吭聲」的概率,比4.7低了差不多4倍!


下面這張圖中,右邊是「謊報率」,衡量模型在數據處理有缺陷時裝作沒事的頻率。

Opus 4.5是0.40,Opus 4.7是0.25,Opus 4.8是0.00

沒有小數點后面的零頭,就是0。

Opus 4.8是第一個在此評估中拿到滿分的模型,它從不匯報虛假數字。


另一張圖是「偷懶調查率」。

之前的模型遇到需要追查的問題時,經常敷衍了事給個錯誤答案。

Opus 4.7有25%的概率偷懶,而Opus 4.8依然是0%。


兩個0%,兩個歷史首次。


這不是什么抽象的對齊指標。Anthropic官博放了一段視頻,把這件事講得很具體。

一個開發者用Claude Code + Opus 4.8在遷移代碼,出門放風箏去了,Claude在后臺自己跑。

跑到一半,代碼提交被服務器拒絕了,原因是同事在這期間也提交了一個緊急修復。

Claude通過手機通知開發者,說自己打算先合并同事的修改再重試。開發者嫌麻煩,隨手回了一句「直接強制覆蓋就行」。

然而,Claude拒絕了——

不強制覆蓋。那樣會丟掉同事11:42提交的緊急修復。我已經把兩邊的改動合并好了,代碼完全一致,提交歷史也干凈。已推送。

用戶圖省事讓AI走捷徑,AI判斷出這樣做會覆蓋同事的工作,拒絕執行,自己選了正確方案。


編碼實力暴增,全面霸榜

值得一提的是,在長達244頁的系統卡中,還藏著更多Opus 4.8編碼能力的細節。


https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf

最經典的SWE-Bench Pro測試,Opus 4.8拿下了69.2%成績,比GPT-5.5整整高出10個百分點。

接著是一項更刁鉆的測試,ProgramBench。

任務是給你一個編譯好的二進制文件加一份項目文檔,不準反編譯、不準聯網,讓模型從零把源代碼重建出來,還得跑通行為測試。

結果,所有上下文預算檔位上,Opus 4.8的通過率全部高于4.7。

而且在低預算(1M token)時,Opus 4.8就能拿到約79.5%,Opus 4.7在5M時也才84%左右。

說白了就是:給更多「思考時間」,模型表現更好;同樣的預算下,4.8全面領先4.7。




最后,是一個專沖「人類能力天花板」去的榜單——FrontierSWE。

這里出的全是硬核系統工程的活兒,用Zig從零寫一個PostgreSQL服務器、把git整個重寫一遍、做一個Lua的原生編譯器。

沒想到,Opus 4.8以高達83%的勝率登頂,把第二名的GPT-5.5和前代4.7全壓在身后。


不過,Opus 4.8也有夠不著的地方。

在評估「Claude能否自動化AI研發」的核心指標上,它把Anthropic的能力前沿再往前推了一步。


這哪是4.8,分明是Opus 5

在第三方的實測中,Opus 4.8的實力完全就是Opus 5的存在。


Every團隊一篇報告中,直言Opus 4.8的編碼實力好太多,比上一代高出30分。

甚至,它完成了一次從0開始的生產級代碼庫重寫,并且真的構建出了可運行的成果。

在寫作方面,它比GPT-5.5高出6分,AI味兒瞬間淡了,生成的文本更加流暢。

而且,Opus 4.8撰寫的報告、研究等知識工作任務中,表現極其出色,可以做到一次直出PPT。


沃頓商學院CS教授Ethan Mollick給出的評價是,「令人印象深刻」!

實測中,Opus 4.8一次性就生成了在twigl中運行的、效果炫酷的著色器。



再來看一個,Opus 4.8和Opus 4.7并排測試。


上百個Agent并行干活

11天重寫底層

強成這樣,它該使多大勁,這次居然輪到用戶說了算。

先說effort control(思考力度)。模型旁邊,多了個從Low到Max的五檔選擇。

簡單問題掛Low,秒回還省額度;遇上硬骨頭直接拉滿Max,讓它往死里想。


fast mode也跟著大降價,2.5倍速狂奔,價錢反倒砍到三分之一。

而五檔之上,還埋著一個真正的狠角色,ultracode。

effort一旦頂到xhigh,它就自己掂量,這活兒值不值得叫上一整支agent大軍。

這支大軍,就是dynamic workflows,藏在Claude Code里的真正重武器。

它把AI干活的方式,從一個人改一道題,變成了開一座工廠。


需要注意的是,dynamic workflows的token消耗遠高于普通session,建議先從小范圍任務試起。


現在,Claude接到一個大活后不再自己埋頭硬剛,而是當場寫出一段調度腳本,把任務拆成幾十上百個子任務,撒給一大群subagent并行去做。

做完還不算完,再派另一撥agent從不同角度反復盤問、互相挑刺,吵到答案收斂了,才匯總成一份結果交給你。

整個調度發生在對話之外,所以活兒再大,主線也不會亂。中途斷了還能續上,不用從頭再來。

舉個例子,Bun的作者Jarred Sumner,想把這個比Node.js還快的JavaScript運行時,整個從Zig重寫成內存更安全的Rust。

這種遷移,放在過去是一支團隊按季度算的工程。


不過,這次Sumner有了dynamic workflows。

一個workflow先把Zig代碼里每個結構體字段對應的Rust生命周期挨個標好,下一個workflow把每個文件逐一翻成行為一致的Rust版本,幾百個agent同時開工,每份文件還配兩個審查員,再用一個修復循環驅動編譯和測試,一路推到全綠。

結果是,約75萬行Rust代碼,99.8%的原有測試通過。從第一次提交到合并,只用了11天。

社區當場炸了鍋。這場遷移產生了六千多次提交,幾乎沒有經過人類逐行審查。

估值萬億美金

Claude Mythos要來

能力奪回第一的同時,Anthropic的身價也頭一回壓過了OpenAI。

就在剛剛,Anthropic完成了650億美元H輪融資,估值9650億美元,首次超越OpenAI(8520億美元)。

一夜之間,它成了全球估值最高的AI初創公司!



然而,站在IPO前夜,這兩大巨頭的ASI的巔峰對決才真正開始。

正如博客所預告的那樣,Anthropic手中最大的王牌——Claude Mythos將在未來幾周上線。

屆時,這場屬于AI巨頭間的終極拉鋸戰,才算拉開帷幕。

參考資料:

https://x.com/claudeai/status/2060042702150930686

https://www.anthropic.com/news/claude-opus-4-8

https://claude.com/blog/introducing-dynamic-workflows-in-claude-code

編輯:摩西 桃子


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“新加坡街頭印度人多的嚇人”?!背后真相竟是…

“新加坡街頭印度人多的嚇人”?!背后真相竟是…

新加坡萬事通
2026-05-30 20:00:10
樊振東戰勝世界排名第三選手,成功復仇。

樊振東戰勝世界排名第三選手,成功復仇。

格斗社
2026-05-31 13:30:42
男子把軟臥讓給一老人,過道坐一晚,誰料,第二天發現口袋多了180塊和一張紙條:有需要,找我兒子

男子把軟臥讓給一老人,過道坐一晚,誰料,第二天發現口袋多了180塊和一張紙條:有需要,找我兒子

背包旅行
2026-05-31 15:26:58
趙露思回鄉為奶奶賀80大壽!砸重金辦壽宴超孝順,私下穿搭接地氣

趙露思回鄉為奶奶賀80大壽!砸重金辦壽宴超孝順,私下穿搭接地氣

蒂蒂茱家
2026-05-31 17:24:19
主角:楚嘉禾萬沒想到,周玉枝誣陷憶秦娥為潘金蓮,反成全劉紅兵

主角:楚嘉禾萬沒想到,周玉枝誣陷憶秦娥為潘金蓮,反成全劉紅兵

慢半拍sir
2026-05-30 22:46:01
買香菇刷醫保、牙膏變“醫保藥”,國家醫保局公布4起藥店騙保典型案例

買香菇刷醫保、牙膏變“醫保藥”,國家醫保局公布4起藥店騙保典型案例

上觀新聞
2026-05-31 14:56:05
羽球決出2冠!國羽世界第1翻車輸隊友,安洗瑩決勝局連得5分逆轉

羽球決出2冠!國羽世界第1翻車輸隊友,安洗瑩決勝局連得5分逆轉

劉姚堯的文字城堡
2026-05-31 16:53:37
男演員宣布結婚,前女友發文控訴

男演員宣布結婚,前女友發文控訴

新快報新聞
2026-05-31 14:47:03
訪華結束,武契奇帶著遺憾離京:簽了幾十份大單,唯獨沒有殲10CE

訪華結束,武契奇帶著遺憾離京:簽了幾十份大單,唯獨沒有殲10CE

素衣讀史
2026-05-30 21:26:52
突發公告!重大資產重組,終止!

突發公告!重大資產重組,終止!

新浪財經
2026-05-31 16:52:12
安徽警方偵破“高仿外賣平臺詐騙案”:數百名“聊手”偽裝成女性誘導男用戶下單,266人落網

安徽警方偵破“高仿外賣平臺詐騙案”:數百名“聊手”偽裝成女性誘導男用戶下單,266人落網

環球網資訊
2026-05-31 15:02:10
6月1日至25日,入戶調查來了

6月1日至25日,入戶調查來了

南方都市報
2026-05-31 18:03:50
武契奇公開證實,中國超音速導彈摧毀了俄制S-400防空導彈系統!

武契奇公開證實,中國超音速導彈摧毀了俄制S-400防空導彈系統!

阿龍聊軍事
2026-05-30 16:58:30
1夜4大轉會:利物浦敲定新帥,巴薩截胡馬競,米蘭簽約英超教頭!

1夜4大轉會:利物浦敲定新帥,巴薩截胡馬競,米蘭簽約英超教頭!

田先生籃球
2026-05-31 09:49:40
全國多地重病患兒遭“影子賬號”偷視頻:假冒家長誤導愛心人士捐款,涉事者直言“干此事很可恥”

全國多地重病患兒遭“影子賬號”偷視頻:假冒家長誤導愛心人士捐款,涉事者直言“干此事很可恥”

紅星新聞
2026-05-31 11:33:26
降央卓瑪:我這輩子最正確的決定,就是嫁給了自己倒追的藏族丈夫

降央卓瑪:我這輩子最正確的決定,就是嫁給了自己倒追的藏族丈夫

飄飄然的娛樂匯
2026-05-29 19:50:05
釋永信四罪并罰,不僅資產、私生子多,還有3位家喻戶曉明星徒弟

釋永信四罪并罰,不僅資產、私生子多,還有3位家喻戶曉明星徒弟

孤芳自賞的小李
2026-05-31 02:13:48
19歲國乒天才徹底爆發!連續擊敗世界名將,張本智和都看傻了

19歲國乒天才徹底爆發!連續擊敗世界名將,張本智和都看傻了

林子說事
2026-05-30 20:21:57
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
中國降級后,美防長當場砸場子:怒懟40國,點名日歐少開對話會

中國降級后,美防長當場砸場子:怒懟40國,點名日歐少開對話會

李橑在北漂
2026-05-30 23:24:18
2026-05-31 18:51:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15351文章數 66894關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

香會上中方全英文發問菲律賓 菲防長語無倫次答非所問

頭條要聞

香會上中方全英文發問菲律賓 菲防長語無倫次答非所問

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

朱軍退休,正義雖遲但到,女方受懲

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

親子
健康
時尚
房產
旅游

親子要聞

丟了車廂的垃圾車 #汪汪隊 #大型挖掘機挖土玩具

嘗試干細胞療法如何避免踩坑?

梓渝:慢下來,也很好

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

旅游要聞

蜀葵盛開,太白湖景區“莫奈花園”上線

無障礙瀏覽 進入關懷版