網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Claude Opus 4.8 發(fā)布｜Mythos 即將上線

2026-05-29 02:11:45　來源: 賽博禪心

北京舉報

分享至

Claude 更新了

凌晨，Anthropic 把旗艦?zāi)Ｐ?Opus 4.8 發(fā)布

從官方的表述上來說，這是一個基于 4.7 的常規(guī)升級：跑分平穩(wěn)上行、Agent 能力加強(qiáng)，價格不變，今天可用

我簡單試了試，中文分詞還是很奇怪，缺如官方所說：常規(guī)升級

然后：Opus 4.6 被下了 ╮(╯▽╰)╭

隨著模型升級，還有三個改動：

Claude 網(wǎng)頁版上多了一個控制 Claude Effort 的開關(guān)，能改變思考強(qiáng)度
Claude Code 新加了 dynamic workflows，能一口氣拉起幾百個子 Agent 一起干活
Opus 4.8 的 fast 模式，2.5 倍速跑，價格比上一代 Fast 便宜了三分之二

加量不加價

Opus 4.8 的價格與 4.7 一致

常規(guī)調(diào)用還是每百萬 input token 5 美元，output token 25 美元，跟 4.7 完全一樣。API 里的模型名是 claude-opus-4-8，今天起全平臺都能調(diào)

跑分如下

對此，Anthropic 自己給了對比，Opus 4.8 在大多數(shù)項目上領(lǐng)先 4.7，也領(lǐng)先了 GPT-5.5 和 Gemini 3.1 Pro

GPT-5.5 贏的那個欄目，需要配合 Codex CLI

在編程任務(wù) SWE-Bench Pro 上，Opus 4.8 拿了 69.2%，4.7 是 64.3%。多學(xué)科推理的 Humanity's Last Exam，不帶工具 49.8%，帶工具 57.9%，兩檔都比 4.7 高。電腦操作的 OSWorld-Verified 到了 83.4%，知識工作的 GDPval-AA 拿了 1890 分，4.7 是 1753

終端編程 Terminal-Bench 2.1 這一項，Opus 4.8 是 74.6%，GPT-5.5 報的是 78.2%。這里有個口徑要交代，跑分用的是 Terminus-2 公開測試框架，GPT-5.5 換成自家 Codex CLI 框架報出來是 83.4%。OSWorld 這次 Anthropic 改了測法，把 4.7 的分回填成了 82.3%，更貼近真實(shí)表現(xiàn)。金融分析 Finance Agent v2 上 Opus 4.8 是 53.9%

主打誠實(shí)

對于 Opus 4.8，Anthropic 專門重點(diǎn)強(qiáng)調(diào)了：這孩子主打一個實(shí)誠，在 Agent 里不會瞎匯報（比如沒干完活，說自己干完了）

按官方評測，Opus 4.8 嘗試蒙混過關(guān)的概率，只有 4.7 的 1/4，它更愿意主動標(biāo)出自己拿不準(zhǔn)的地方，少了憑空斷言。而在「錯誤對齊行為」這項打分上，Opus 4.8 幾乎貼到了 Mythos Preview，明顯好于 Opus 4.7 和 Sonnet 4.6 都明顯更高

越矮越好，這次 Opus 蹲到了 Mythos 邊上

按照 Anthropic 對齊團(tuán)隊的判斷，Opus 4.8 在「支持用戶自主、為用戶最大利益行事」這類親社會特質(zhì)上達(dá)到了新高

按周的活按天干

跟模型一起發(fā)的 dynamic workflows，這是 Claude Code 里的新東西，可以理解為「賽博包工頭」

包工頭 Claude，帶著一群 Claude 干活

dynamic workflows 擅長做的，是先按你的需求把任務(wù)拆開，鋪成幾十上百個并行的子 Agent，每個結(jié)果先驗證再匯總，最后給你一個統(tǒng)一答復(fù)。比如去處理那些又老又亂的屎山代碼，或者跨服務(wù)器去找?guī)装賯€文件

在運(yùn)行的過程中，它還會派出對抗性的 Agent，專門去試著推翻已有結(jié)論，一直迭代到答案收斂

正如上面的圖片，你能看到每個子 Agent 用的是所調(diào)用的模型（Opus 4.8，掛著 1M context 的上下文），token 用量、調(diào)了幾次工具、花了多少秒...各類信息，同時也能進(jìn)度邊跑邊存，中途斷了能從斷點(diǎn)接著跑，不用從頭來

作為實(shí)例，Jarred Sumner 用 dynamic workflows 把 Bun 從 Zig 移植到了 Rust，現(xiàn)有測試套件 99.8% 通過，大約 75 萬行 Rust 代碼，從第一次提交到合并，11 天

具體怎么干的。一個 workflow 先給 Zig 代碼里每個結(jié)構(gòu)體字段，都映射出對應(yīng)的 Rust 生命周期。下一個 workflow 把每個 .rs 文件寫成對應(yīng) .zig 文件的等價移植，幾百個 Agent 并行，每個文件配兩個審查者。然后一個修復(fù)循環(huán)驅(qū)動著構(gòu)建和測試，跑到兩邊都干凈為止。移植落地后，一個過夜的 workflow 又去處理多余的數(shù)據(jù)拷貝，每處都開了一個 PR 等人做最終 review

dynamic workflows 今天起以研究預(yù)覽的形式上線，覆蓋 Claude Code 的命令行、桌面端和 VS Code 插件，開放給 Max、Team 和 Enterprise（管理員開啟后）方案，也上了 Claude API 以及 Amazon Bedrock、Vertex AI、Microsoft Foundry

自定義 effort

在之前 opus4.7 的時候，網(wǎng)頁版的 Claude 是不能夠選 effort 的，只有一個 adaptive thinking 的開關(guān)，而在這次的更新中，你是能手動決定這個數(shù)值的，默認(rèn)是 high

回到最開始的圖，看右側(cè)

還有幾件小事

除了模型本身，這次還有兩個改動

Messages API 現(xiàn)在允許在 messages 數(shù)組里塞 system 條目了。你可以在任務(wù)跑到一半的時候更新 Claude 的指令，在不打斷 prompt 緩存的前提下，更新它的權(quán)限、token 預(yù)算或者環(huán)境上下文

Opus 4.8 的 fast 模式（2.5x 速度）降價了，之前 4.7 的時候是 $30/$150，現(xiàn)在是 $10/$50，單位是每百萬 token

Mythos 在路上

在官方公告的最后，還提到：Mythos 要來了

這是 Anthropic 家目前最牛逼的模型，目前只給少數(shù)幾家廠商在內(nèi)部使用。在過去的一個月中，這個模型幫助從各種知名軟件軟件里，找出了一萬多個高危或嚴(yán)重漏洞

一萬個漏洞找出來了，補(bǔ)丁還在后面排隊

Anthropic 還在為這個模型設(shè)計護(hù)欄，預(yù)計未來幾周內(nèi)，就能把 Mythos 級別的模型帶給所有客戶

另一方面，Anthropic 還在開發(fā)并放出一批能力接近 Opus、但成本更低的模型

在哪兒能用上

Opus 4.8 今天全平臺可用，價格和 4.7 一致

官方公告：anthropic.com/news/claude-opus-4-8

Dynamic workflows：claude.com/blog/introducing-dynamic-workflows-in-claude-code

Project Glasswing / Mythos：anthropic.com/research/glasswing-initial-update

API 模型名：claude-opus-4-8

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.