无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<input id="rgdto"></input>

<tr id="rgdto"><strike id="rgdto"></strike></tr>

<pre id="rgdto"><fieldset id="rgdto"><pre id="rgdto"></pre></fieldset></pre>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

剛剛，Claude Opus 4.8來了！兩個史上首次改寫歷史

2026-05-29 06:05:46　來源: 新智元

北京舉報

0

分享至

新智元報道

【新智元導讀】Opus 4.7發布剛43天，Opus 4.8就來了！編程實力暴增，全面霸榜。Claude Code一口氣放出上百個agent并行干活，一個人11天就能重寫75萬行代碼、99.8%測試通過。更狠的Claude Mythos，幾周后就來。

猝不及防，Anthropic深夜殺回來了！

就在剛剛，Claude Opus 4.8正式登場，一舉奪回全球AI王座。

而且價格還一分沒漲，跟上一代一模一樣。

無論是編程、人類最后考試（HLE），還是在智能體、計算機使用任務中，Opus 4.8幾乎無可匹敵。

在衡量真實世界Agent能力的硬核榜單GDPval-AA上，Opus 4.8拿下了1890 Elo，斷層第一。

比上一代Opus 4.7高137分，比GPT-5.5高121分。換算成對戰勝率，贏面高達67%。

不僅如此，完成同樣的任務，要比4.7少用15%的步驟，少輸出35%的token。

可謂是，又快，又強，又便宜。

知名博主Mark Kretschmann一句話點破它的來頭——Opus 4.8可能就是蒸餾的Mythos。

更重磅的是，這個最強的Claude Mythos，幾周內就會上線。

Opus 4.8，兩個0%改寫歷史

跑分之外，Anthropic這次反復強調的，就倆字，誠實。

用過LLM的人應該都體驗過，寫完一段代碼之后，AI拍著胸脯告訴你「搞定了，沒問題」，但實際上卻埋著一堆雷。

被這種過度自信坑過的開發者，海了去了。

但到了Opus 4.8這里，「寫完有缺陷代碼卻悶不吭聲」的概率，比4.7低了差不多4倍！

下面這張圖中，右邊是「謊報率」，衡量模型在數據處理有缺陷時裝作沒事的頻率。

Opus 4.5是0.40，Opus 4.7是0.25，Opus 4.8是0.00。

沒有小數點后面的零頭，就是0。

Opus 4.8是第一個在此評估中拿到滿分的模型，它從不匯報虛假數字。

另一張圖是「偷懶調查率」。

之前的模型遇到需要追查的問題時，經常敷衍了事給個錯誤答案。

Opus 4.7有25%的概率偷懶，而Opus 4.8依然是0%。

兩個0%，兩個歷史首次。

這不是什么抽象的對齊指標。Anthropic官博放了一段視頻，把這件事講得很具體。

一個開發者用Claude Code + Opus 4.8在遷移代碼，出門放風箏去了，Claude在后臺自己跑。

跑到一半，代碼提交被服務器拒絕了，原因是同事在這期間也提交了一個緊急修復。

Claude通過手機通知開發者，說自己打算先合并同事的修改再重試。開發者嫌麻煩，隨手回了一句「直接強制覆蓋就行」。

然而，Claude拒絕了——

不強制覆蓋。那樣會丟掉同事11:42提交的緊急修復。我已經把兩邊的改動合并好了，代碼完全一致，提交歷史也干凈。已推送。

用戶圖省事讓AI走捷徑，AI判斷出這樣做會覆蓋同事的工作，拒絕執行，自己選了正確方案。

編碼實力暴增，全面霸榜

值得一提的是，在長達244頁的系統卡中，還藏著更多Opus 4.8編碼能力的細節。

https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf

最經典的SWE-Bench Pro測試，Opus 4.8拿下了69.2%成績，比GPT-5.5整整高出10個百分點。

接著是一項更刁鉆的測試，ProgramBench。

任務是給你一個編譯好的二進制文件加一份項目文檔，不準反編譯、不準聯網，讓模型從零把源代碼重建出來，還得跑通行為測試。

結果，所有上下文預算檔位上，Opus 4.8的通過率全部高于4.7。

而且在低預算（1M token）時，Opus 4.8就能拿到約79.5%，Opus 4.7在5M時也才84%左右。

說白了就是：給更多「思考時間」，模型表現更好；同樣的預算下，4.8全面領先4.7。

最后，是一個專沖「人類能力天花板」去的榜單——FrontierSWE。

這里出的全是硬核系統工程的活兒，用Zig從零寫一個PostgreSQL服務器、把git整個重寫一遍、做一個Lua的原生編譯器。

沒想到，Opus 4.8以高達83%的勝率登頂，把第二名的GPT-5.5和前代4.7全壓在身后。

不過，Opus 4.8也有夠不著的地方。

在評估「Claude能否自動化AI研發」的核心指標上，它把Anthropic的能力前沿再往前推了一步。

這哪是4.8，分明是Opus 5

在第三方的實測中，Opus 4.8的實力完全就是Opus 5的存在。

Every團隊一篇報告中，直言Opus 4.8的編碼實力好太多，比上一代高出30分。

甚至，它完成了一次從0開始的生產級代碼庫重寫，并且真的構建出了可運行的成果。

在寫作方面，它比GPT-5.5高出6分，AI味兒瞬間淡了，生成的文本更加流暢。

而且，Opus 4.8撰寫的報告、研究等知識工作任務中，表現極其出色，可以做到一次直出PPT。

沃頓商學院CS教授Ethan Mollick給出的評價是，「令人印象深刻」！

實測中，Opus 4.8一次性就生成了在twigl中運行的、效果炫酷的著色器。

再來看一個，Opus 4.8和Opus 4.7并排測試。

上百個Agent并行干活

11天重寫底層

強成這樣，它該使多大勁，這次居然輪到用戶說了算。

先說effort control（思考力度）。模型旁邊，多了個從Low到Max的五檔選擇。

簡單問題掛Low，秒回還省額度；遇上硬骨頭直接拉滿Max，讓它往死里想。

fast mode也跟著大降價，2.5倍速狂奔，價錢反倒砍到三分之一。

而五檔之上，還埋著一個真正的狠角色，ultracode。

effort一旦頂到xhigh，它就自己掂量，這活兒值不值得叫上一整支agent大軍。

這支大軍，就是dynamic workflows，藏在Claude Code里的真正重武器。

它把AI干活的方式，從一個人改一道題，變成了開一座工廠。

需要注意的是，dynamic workflows的token消耗遠高于普通session，建議先從小范圍任務試起。

現在，Claude接到一個大活后不再自己埋頭硬剛，而是當場寫出一段調度腳本，把任務拆成幾十上百個子任務，撒給一大群subagent并行去做。

做完還不算完，再派另一撥agent從不同角度反復盤問、互相挑刺，吵到答案收斂了，才匯總成一份結果交給你。

整個調度發生在對話之外，所以活兒再大，主線也不會亂。中途斷了還能續上，不用從頭再來。

舉個例子，Bun的作者Jarred Sumner，想把這個比Node.js還快的JavaScript運行時，整個從Zig重寫成內存更安全的Rust。

這種遷移，放在過去是一支團隊按季度算的工程。

不過，這次Sumner有了dynamic workflows。

一個workflow先把Zig代碼里每個結構體字段對應的Rust生命周期挨個標好，下一個workflow把每個文件逐一翻成行為一致的Rust版本，幾百個agent同時開工，每份文件還配兩個審查員，再用一個修復循環驅動編譯和測試，一路推到全綠。

結果是，約75萬行Rust代碼，99.8%的原有測試通過。從第一次提交到合并，只用了11天。

社區當場炸了鍋。這場遷移產生了六千多次提交，幾乎沒有經過人類逐行審查。

估值萬億美金

Claude Mythos要來

能力奪回第一的同時，Anthropic的身價也頭一回壓過了OpenAI。

就在剛剛，Anthropic完成了650億美元H輪融資，估值9650億美元，首次超越OpenAI（8520億美元）。

一夜之間，它成了全球估值最高的AI初創公司！

然而，站在IPO前夜，這兩大巨頭的ASI的巔峰對決才真正開始。

正如博客所預告的那樣，Anthropic手中最大的王牌——Claude Mythos將在未來幾周上線。

屆時，這場屬于AI巨頭間的終極拉鋸戰，才算拉開帷幕。

參考資料：

https://x.com/claudeai/status/2060042702150930686

https://www.anthropic.com/news/claude-opus-4-8

https://claude.com/blog/introducing-dynamic-workflows-in-claude-code

編輯：摩西桃子

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

中方代表香會講話當場向日方提出兩個問題

環球網資訊 2026-05-30 19:36:11
6019 跟貼 6019
房主將自家住宅變“網約房” 鄰居有權說“不”嗎？

北青網-北京青年報 2026-05-30 21:06:09
6212 跟貼 6212

香會上中方發問菲律賓，菲防長語無倫次、答非所問

環球網資訊 2026-05-31 17:22:34
83 跟貼 83

陜西西咸新區執法車淪為“堵門工具”，紀工委書記反問“咋不合適”意味著什么

大象新聞 2026-05-30 18:47:05
127 跟貼 127
鮮奶雪糕包裝印“不加一滴水”配料表首位竟是水廠家：系舊包裝，已改名“一滴水”

上游新聞 2026-05-29 18:03:05
1877 跟貼 1877

人民直擊｜三問張家口風電項目1.9億“天價”補償后續

人民資訊 2026-05-31 09:15:09
1081 跟貼 1081

今晚，上海男籃迎來最嚴峻考驗！

新民晚報 2026-05-31 11:02:21
78 跟貼 78
國泰航班降落滑行時有幼童哭鬧，男乘客高聲怒斥！航司回應

南方都市報 2026-05-30 20:52:09
663 跟貼 663

熱聞|阿森納夢碎十二碼！巴黎圣日耳曼蟬聯歐冠冠軍

齊魯壹點 2026-05-31 06:48:50
225 跟貼 225
6.4萬的“特斯拉FSD”，你會買嗎？

中國新聞周刊 2026-05-30 22:05:16
255 跟貼 255
中超上半程收官戰，泰山隊輸得不難看

齊魯壹點 2026-05-30 23:33:13
152 跟貼 152
NBA｜西部決賽搶七大戰，馬刺擊敗雷霆奪得總決賽門票

澎湃新聞 2026-05-31 10:50:28
249 跟貼 249
以軍：已奪取黎南部重要戰略地點

界面新聞 2026-05-31 14:11:04
996 跟貼 996
13個打工人，馬上成為億萬富豪？

中國新聞周刊 2026-05-31 15:54:00
0 跟貼 0
總臺報道有反饋丨內蒙古呼和浩特一藥店高價銷售集采藥當地約談主要負責人

央視新聞客戶端 2026-05-30 15:45:02
166 跟貼 166
美防長“香會”溫和表態引關注專家解讀

環球時報 2026-05-31 07:34:49
32 跟貼 32
國家醫保局發布2026年國家醫保目錄調整工作方案

央視新聞客戶端 2026-05-31 09:28:55
927 跟貼 927
外媒記者沉浸式助威蘇超同頻中國城市的鮮活心跳

環球網資訊 2026-05-31 14:45:05
3 跟貼 3
6月1日至25日，入戶調查來了

南方都市報 2026-05-31 18:03:50
6 跟貼 6
夜空中最亮的星

國際在線 2026-05-29 08:57:49
1480 跟貼 1480
別再用“抽根煙壓壓驚”騙自己了吸一支減壽20分鐘二手煙能飄25米三手煙能潛伏19個月！

閃電新聞 2026-05-31 18:21:42
0 跟貼 0
“把雪花啤酒倒進碗里倒出一塊玻璃碴”

政法頻道 2026-05-31 18:24:44
0 跟貼 0
重慶一兇宅以39萬余元起價被法拍，拍賣公司：屋內曾發生非正常死亡事件

極目新聞 2026-05-31 12:12:29
0 跟貼 0

“新加坡街頭印度人多的嚇人”？！背后真相竟是…

“新加坡街頭印度人多的嚇人”？！背后真相竟是…

新加坡萬事通

2026-05-30 20:00:10

樊振東戰勝世界排名第三選手，成功復仇。

樊振東戰勝世界排名第三選手，成功復仇。

格斗社

2026-05-31 13:30:42

男子把軟臥讓給一老人，過道坐一晚，誰料，第二天發現口袋多了180塊和一張紙條：有需要，找我兒子

男子把軟臥讓給一老人，過道坐一晚，誰料，第二天發現口袋多了180塊和一張紙條：有需要，找我兒子

背包旅行

2026-05-31 15:26:58

趙露思回鄉為奶奶賀80大壽！砸重金辦壽宴超孝順，私下穿搭接地氣

趙露思回鄉為奶奶賀80大壽！砸重金辦壽宴超孝順，私下穿搭接地氣

蒂蒂茱家

2026-05-31 17:24:19

主角：楚嘉禾萬沒想到，周玉枝誣陷憶秦娥為潘金蓮，反成全劉紅兵

主角：楚嘉禾萬沒想到，周玉枝誣陷憶秦娥為潘金蓮，反成全劉紅兵

慢半拍sir

2026-05-30 22:46:01

買香菇刷醫保、牙膏變“醫保藥”，國家醫保局公布4起藥店騙保典型案例

買香菇刷醫保、牙膏變“醫保藥”，國家醫保局公布4起藥店騙保典型案例

上觀新聞

2026-05-31 14:56:05

羽球決出2冠！國羽世界第1翻車輸隊友，安洗瑩決勝局連得5分逆轉

羽球決出2冠！國羽世界第1翻車輸隊友，安洗瑩決勝局連得5分逆轉

劉姚堯的文字城堡

2026-05-31 16:53:37

男演員宣布結婚，前女友發文控訴

男演員宣布結婚，前女友發文控訴

新快報新聞

2026-05-31 14:47:03

訪華結束，武契奇帶著遺憾離京：簽了幾十份大單，唯獨沒有殲10CE

訪華結束，武契奇帶著遺憾離京：簽了幾十份大單，唯獨沒有殲10CE

素衣讀史

2026-05-30 21:26:52

突發公告！重大資產重組，終止！

突發公告！重大資產重組，終止！

新浪財經

2026-05-31 16:52:12

安徽警方偵破“高仿外賣平臺詐騙案”：數百名“聊手”偽裝成女性誘導男用戶下單，266人落網

安徽警方偵破“高仿外賣平臺詐騙案”：數百名“聊手”偽裝成女性誘導男用戶下單，266人落網

環球網資訊

2026-05-31 15:02:10

6月1日至25日，入戶調查來了

6月1日至25日，入戶調查來了

南方都市報

2026-05-31 18:03:50

武契奇公開證實，中國超音速導彈摧毀了俄制S-400防空導彈系統！

武契奇公開證實，中國超音速導彈摧毀了俄制S-400防空導彈系統！

阿龍聊軍事

2026-05-30 16:58:30

1夜4大轉會：利物浦敲定新帥，巴薩截胡馬競，米蘭簽約英超教頭！

1夜4大轉會：利物浦敲定新帥，巴薩截胡馬競，米蘭簽約英超教頭！

田先生籃球

2026-05-31 09:49:40

全國多地重病患兒遭“影子賬號”偷視頻：假冒家長誤導愛心人士捐款，涉事者直言“干此事很可恥”

全國多地重病患兒遭“影子賬號”偷視頻：假冒家長誤導愛心人士捐款，涉事者直言“干此事很可恥”

紅星新聞

2026-05-31 11:33:26

降央卓瑪：我這輩子最正確的決定，就是嫁給了自己倒追的藏族丈夫

降央卓瑪：我這輩子最正確的決定，就是嫁給了自己倒追的藏族丈夫

飄飄然的娛樂匯

2026-05-29 19:50:05

釋永信四罪并罰，不僅資產、私生子多，還有3位家喻戶曉明星徒弟

釋永信四罪并罰，不僅資產、私生子多，還有3位家喻戶曉明星徒弟

孤芳自賞的小李

2026-05-31 02:13:48

19歲國乒天才徹底爆發！連續擊敗世界名將，張本智和都看傻了

19歲國乒天才徹底爆發！連續擊敗世界名將，張本智和都看傻了

林子說事

2026-05-30 20:21:57

扎哈羅娃：俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃：俄將對羅馬尼亞迅速采取報復措施

參考消息

2026-05-30 11:58:56

中國降級后，美防長當場砸場子：怒懟40國，點名日歐少開對話會

中國降級后，美防長當場砸場子：怒懟40國，點名日歐少開對話會

李橑在北漂

2026-05-30 23:24:18

AI產業主平臺領航智能+時代

15351文章數 66894關注度

往期回顧全部

科技要聞

戴爾諾基亞又回來了！AI重估老牌科技公司

頭條要聞

香會上中方全英文發問菲律賓菲防長語無倫次答非所問

頭條要聞

香會上中方全英文發問菲律賓菲防長語無倫次答非所問

體育要聞

阿森納用最悲壯的方式，成就了巴黎王朝

娛樂要聞

朱軍退休，正義雖遲但到，女方受懲

財經要聞

醫學首席轉崗搞科技，A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百領克10+&領克10上市16.99萬元起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

健康

時尚

房產

旅游

親子要聞

丟了車廂的垃圾車 #汪汪隊 #大型挖掘機挖土玩具

嘗試干細胞療法如何避免踩坑？

梓渝：慢下來，也很好

房產要聞

紅動五月！全國搶入核心資產，廣州盯緊凱旋新世界！

旅游要聞

蜀葵盛開，太白湖景區“莫奈花園”上線

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

^{<track id="29ndk"></track>}

<noscript id="29ndk"></noscript>