Claude 更新了
凌晨,Anthropic 把旗艦?zāi)P?Opus 4.8 發(fā)布
從官方的表述上來說,這是一個基于 4.7 的常規(guī)升級:跑分平穩(wěn)上行、Agent 能力加強(qiáng),價格不變,今天可用
![]()
我簡單試了試,中文分詞還是很奇怪,缺如官方所說:常規(guī)升級
然后:Opus 4.6 被下了 ╮(╯▽╰)╭
隨著模型升級,還有三個改動:
Claude 網(wǎng)頁版上多了一個控制 Claude Effort 的開關(guān),能改變思考強(qiáng)度
Claude Code 新加了 dynamic workflows,能一口氣拉起幾百個子 Agent 一起干活
Opus 4.8 的 fast 模式,2.5 倍速跑,價格比上一代 Fast 便宜了三分之二
加量不加價
Opus 4.8 的價格與 4.7 一致
常規(guī)調(diào)用還是每百萬 input token 5 美元,output token 25 美元,跟 4.7 完全一樣。API 里的模型名是 claude-opus-4-8,今天起全平臺都能調(diào)
![]()
跑分如下
對此,Anthropic 自己給了對比,Opus 4.8 在大多數(shù)項目上領(lǐng)先 4.7,也領(lǐng)先了 GPT-5.5 和 Gemini 3.1 Pro
![]()
GPT-5.5 贏的那個欄目,需要配合 Codex CLI
在編程任務(wù) SWE-Bench Pro 上,Opus 4.8 拿了 69.2%,4.7 是 64.3%。多學(xué)科推理的 Humanity's Last Exam,不帶工具 49.8%,帶工具 57.9%,兩檔都比 4.7 高。電腦操作的 OSWorld-Verified 到了 83.4%,知識工作的 GDPval-AA 拿了 1890 分,4.7 是 1753
終端編程 Terminal-Bench 2.1 這一項,Opus 4.8 是 74.6%,GPT-5.5 報的是 78.2%。這里有個口徑要交代,跑分用的是 Terminus-2 公開測試框架,GPT-5.5 換成自家 Codex CLI 框架報出來是 83.4%。OSWorld 這次 Anthropic 改了測法,把 4.7 的分回填成了 82.3%,更貼近真實(shí)表現(xiàn)。金融分析 Finance Agent v2 上 Opus 4.8 是 53.9%
主打誠實(shí)
對于 Opus 4.8,Anthropic 專門重點(diǎn)強(qiáng)調(diào)了:這孩子主打一個實(shí)誠,在 Agent 里不會瞎匯報(比如沒干完活,說自己干完了)
按官方評測,Opus 4.8 嘗試蒙混過關(guān)的概率,只有 4.7 的 1/4,它更愿意主動標(biāo)出自己拿不準(zhǔn)的地方,少了憑空斷言。而在「錯誤對齊行為」這項打分上,Opus 4.8 幾乎貼到了 Mythos Preview,明顯好于 Opus 4.7 和 Sonnet 4.6 都明顯更高
![]()
越矮越好,這次 Opus 蹲到了 Mythos 邊上
按照 Anthropic 對齊團(tuán)隊的判斷,Opus 4.8 在「支持用戶自主、為用戶最大利益行事」這類親社會特質(zhì)上達(dá)到了新高
按周的活按天干
跟模型一起發(fā)的 dynamic workflows,這是 Claude Code 里的新東西,可以理解為「賽博包工頭」
![]()
包工頭 Claude,帶著一群 Claude 干活
dynamic workflows 擅長做的,是先按你的需求把任務(wù)拆開,鋪成幾十上百個并行的子 Agent,每個結(jié)果先驗證再匯總,最后給你一個統(tǒng)一答復(fù)。比如去處理那些又老又亂的屎山代碼,或者跨服務(wù)器去找?guī)装賯€文件
在運(yùn)行的過程中,它還會派出對抗性的 Agent,專門去試著推翻已有結(jié)論,一直迭代到答案收斂
正如上面的圖片,你能看到每個子 Agent 用的是所調(diào)用的模型(Opus 4.8,掛著 1M context 的上下文),token 用量、調(diào)了幾次工具、花了多少秒...各類信息,同時也能進(jìn)度邊跑邊存,中途斷了能從斷點(diǎn)接著跑,不用從頭來
作為實(shí)例,Jarred Sumner 用 dynamic workflows 把 Bun 從 Zig 移植到了 Rust,現(xiàn)有測試套件 99.8% 通過,大約 75 萬行 Rust 代碼,從第一次提交到合并,11 天
具體怎么干的。一個 workflow 先給 Zig 代碼里每個結(jié)構(gòu)體字段,都映射出對應(yīng)的 Rust 生命周期。下一個 workflow 把每個 .rs 文件寫成對應(yīng) .zig 文件的等價移植,幾百個 Agent 并行,每個文件配兩個審查者。然后一個修復(fù)循環(huán)驅(qū)動著構(gòu)建和測試,跑到兩邊都干凈為止。移植落地后,一個過夜的 workflow 又去處理多余的數(shù)據(jù)拷貝,每處都開了一個 PR 等人做最終 review
dynamic workflows 今天起以研究預(yù)覽的形式上線,覆蓋 Claude Code 的命令行、桌面端和 VS Code 插件,開放給 Max、Team 和 Enterprise(管理員開啟后)方案,也上了 Claude API 以及 Amazon Bedrock、Vertex AI、Microsoft Foundry
自定義 effort
在之前 opus4.7 的時候,網(wǎng)頁版的 Claude 是不能夠選 effort 的,只有一個 adaptive thinking 的開關(guān),而在這次的更新中,你是能手動決定這個數(shù)值的,默認(rèn)是 high
![]()
回到最開始的圖,看右側(cè)
還有幾件小事
除了模型本身,這次還有兩個改動
Messages API 現(xiàn)在允許在 messages 數(shù)組里塞 system 條目了。你可以在任務(wù)跑到一半的時候更新 Claude 的指令,在不打斷 prompt 緩存的前提下,更新它的權(quán)限、token 預(yù)算或者環(huán)境上下文
Opus 4.8 的 fast 模式(2.5x 速度)降價了,之前 4.7 的時候是 $30/$150,現(xiàn)在是 $10/$50,單位是每百萬 token
Mythos 在路上
在官方公告的最后,還提到:Mythos 要來了
這是 Anthropic 家目前最牛逼的模型,目前只給少數(shù)幾家廠商在內(nèi)部使用。在過去的一個月中,這個模型幫助從各種知名軟件軟件里,找出了一萬多個高危或嚴(yán)重漏洞
![]()
一萬個漏洞找出來了,補(bǔ)丁還在后面排隊
Anthropic 還在為這個模型設(shè)計護(hù)欄,預(yù)計未來幾周內(nèi),就能把 Mythos 級別的模型帶給所有客戶
另一方面,Anthropic 還在開發(fā)并放出一批能力接近 Opus、但成本更低的模型
在哪兒能用上
Opus 4.8 今天全平臺可用,價格和 4.7 一致
官方公告:anthropic.com/news/claude-opus-4-8
Dynamic workflows:claude.com/blog/introducing-dynamic-workflows-in-claude-code
Project Glasswing / Mythos:anthropic.com/research/glasswing-initial-update
API 模型名:claude-opus-4-8
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.