无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Opus 4.8 剛發布,Redis 之父質疑跑分:DHH 盛贊的 GPT-5.5,正在動搖編碼王座

0
分享至


作者 | Tina

5 月 28 日深夜,Anthropic 發布了其旗艦模型 Opus 的最新版本 Opus 4.8。

相比 Opus 4.7,這次升級的重點不只是模型跑分,而是圍繞 Claude Code 增加了兩個更直接面向開發者工作流的能力:dynamic workflows 和更便宜的 fast mode。

dynamic workflows 允許 Claude 編寫用于任務編排的腳本,調度數十到數百個并行 subagents 運行。單次運行中,subagents 的并發上限為 16 個,總數上限為 1000 個。

fast mode 則主要面向對速度和吞吐量更敏感的場景。它可以讓 Opus 以 2.5 倍的輸出速度運行,同時保持相同質量;在 Opus 4.8 上,fast mode 的價格已經降至此前的三分之一,但使用前需要啟用 usage credits。

基準測試顯示,Opus 4.8 不僅超過了前代模型,也領先于 GPT-5.5 和 Gemini 3.1 Pro。不過在 agentic terminal coding 這一項上,OpenAI 的模型仍然保持領先。發布當天,Opus 4.8 的常規模式價格與 Opus 4.7 相同,仍為每百萬輸入 token 5 美元、每百萬輸出 token 25 美元。

Claude Opus 4.8 升級的三個重點

這次 Opus 4.8 的升級,可以先抓住三個關鍵詞:dynamic workflows、思考強度控制,以及更便宜的 fast mode。前兩個直接影響 Claude Code 能處理多大規模的任務、以什么方式完成任務;后一個則關系到延遲和成本。

先看 dynamic workflows。

dynamic workflows 本質上是一段 JavaScript 腳本,用來大規模編排 subagents。用戶描述一個任務之后,Claude 會為這個任務編寫腳本,然后由一個運行時在后臺執行。與此同時,用戶當前的 session 仍然可以保持響應,不會因為 agents 在后臺工作而卡住。

它的核心變化在于,任務計劃被轉移到了代碼里,而不是繼續塞在 Claude 的上下文窗口中。中間結果也會保存在腳本變量里。因此,Claude 的上下文里只保留最終答案。這一點,正是 dynamic workflows 與 subagents、skills 的關鍵區別。

這個功能要求使用 Claude Code v2.1.154 或更高版本。它可以在 CLI、Desktop 和 VS Code 插件中運行,面向 Max、Team 和 Enterprise 計劃開放。在 Max 和 Team 計劃中,它默認開啟;在 Enterprise 計劃中,則需要管理員啟用后才能使用。它也可以在 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 上運行。


用戶可以通過兩種方式啟動一個 workflow。第一種是在 prompt 的任意位置包含 workflow 這個詞。第二種是開啟一個名為 ultracode 的設置。Ultracode 會把 xhigh 級別的推理強度與自動 workflow 編排結合起來。Claude Code 還內置了 deep-research,它本身就是一個預置 workflow。

當一個 workflow 啟動后,Claude 會根據用戶的 prompt 動態規劃任務。它會把任務拆解成多個子任務,然后把工作分發給并行運行的 subagents。這些 agents 會從彼此獨立的角度處理問題,另一些 agents 則會嘗試反駁這些發現。整個運行過程會不斷迭代,直到答案逐漸收斂。在結果被納入最終輸出之前,還會經過檢查。

運行時會施加明確的硬性限制。它最多允許 16 個 agents 并發運行,單次運行的 agents 總數上限為 1000 個。workflow 腳本本身不能訪問文件系統或 shell,只有 agents 可以讀取、寫入文件并運行命令。

隨著運行推進,進度會被保存下來。如果任務中途被打斷,它可以在同一個 session 中恢復。已經完成的 agents 會在恢復時返回緩存結果。由于協調過程發生在對話之外,任務計劃也就更容易保持穩定,不會在會話上下文中被不斷稀釋或帶偏。

Anthropic 重點展示了一個大型案例。Jarred Sumner 使用 dynamic workflows 對 Bun 進行移植,把 Bun 從 Zig 遷移到 Rust。這個遷移版本通過了現有測試套件的 99.8%,生成了大約 75 萬行 Rust 代碼,從第一次 commit 到最終 merge 用了 11 天。

其中一個 workflow 負責為每個 struct 字段映射正確的 Rust lifetime;下一個 workflow 則把每個 .rs 文件寫成行為一致的移植版本。數百個 agents 并行工作,并且每個文件都有兩個 reviewer。隨后,一個修復循環持續驅動構建和測試套件,直到全部清理干凈。不過,這個結果雖然已經合并,但目前還沒有進入生產環境。

第二個重點,是用戶現在可以控制 Claude 的思考強度。

新的控制項意味著,用戶可以調高或調低 Claude 在任務中投入的推理資源。Anthropic 在公告博客中解釋稱,當用戶讓 Claude 全力處理任務時,它會“更頻繁、更深入地思考,以給出更好的回答”。相反,在較低思考強度下,Claude 會更快給出回應,同時消耗用戶 rate limit 的速度也會更慢。

對那些已經感到 AI 服務正在通過額度縮水變相漲價、又擔心額度比預期更快用完的用戶來說,這可能算是一個好消息。

第三個重點,是 fast mode 降價。

Anthropic 大幅下調了 Opus 4.8 快速模式的價格。在快速模式下,模型生成 token 的速度約為正常速度的 2.5 倍;而 Opus 4.8 的快速模式價格降至每百萬輸入 token 10 美元、每百萬輸出 token 50 美元,低于 Opus 4.7 的 30 美元 / 150 美元。


這相當于在此前模型的快速模式價格基礎上降低了 3 倍,也讓高吞吐推理更接近那些對延遲敏感的生產工作負載。

快速模式已經可以在 Claude Code 中通過 /fast 命令使用;API 訪問目前仍有限制,需要在 claude.com/fast-mode 申請 waitlist。

在常規模式下,Claude Opus 4.8 仍然屬于價格較高的前沿模型之一,但價格依然低于主要競爭對手 OpenAI 的 GPT-5.5。


不過,速度、成本和代碼能力之外,Opus 4.8 這次還試圖回答另一個問題:AI 能不能更誠實。

在今天的大模型競爭中,越來越難回避的一點是,我們其實很難找到一個真正“誠實”的 AI。古希臘哲學家第歐根尼有一個著名傳說:他曾在白天提著一盞點亮的燈,在雅典街頭四處尋找,并說自己在尋找一個誠實的人。把這個故事放到今天,人們尋找的恐怕就不只是一個誠實的人,而是一個誠實的 AI。

一個模型可以更聰明、更快、更會寫代碼,但它能不能承認自己不知道,能不能發現自己寫錯了,能不能在用戶最需要判斷力的時候保持誠實,反而成了更稀缺的能力。這也是 Anthropic 這次想重點強調的方向。Opus 4.8 被 Anthropic 描述為更能支持用戶,也更少欺騙用戶。

Anthropic 的 Alignment 團隊在公告博客中表示,這個模型“在我們衡量親社會特質的指標上達到了新高”。具體而言,Anthropic 稱,Opus 4.8 在支持用戶自主性、以及按照用戶最佳利益行事方面都有提升。

另一個看起來積極的變化是,Anthropic 表示,Opus 4.8 的欺騙率,以及配合濫用請求的比例,都比前代模型“顯著更低”。這似乎意味著,它已經追上了 Claude Mythos Preview。Anthropic 此前曾稱 Claude Mythos Preview 是“我們訓練過的對齊程度最高的模型”。


Anthropic 還表示,相比前代模型,Opus 4.8 “大約低四倍概率會對自己寫出的代碼中的缺陷視而不見、不加說明”。Anthropic 稱,早期測試者也印證了這一點,并形容 Opus 4.8 在執行 agentic 任務時“更可靠,在判斷上也更敏銳”。換句話說,Opus 4.8 試圖解決的不只是模型能不能完成任務,而是它在完成任務時,是否愿意指出風險、承認問題,并在必要時反過來提醒用戶。

基準測試:一個“重大戰略錯誤”?

從基準測試來看,Opus 4.8 相比其他模型表現如何?Anthropic 表示,Opus 4.8 在所有基準測試中都比前代模型更進一步。雖然發布當天公布的基準測試不一定總能對應真實使用體驗,但這些數字確實顯示出一定潛力。


其中最值得注意的是,Opus 4.8 在 agentic coding 上達到 69.2%,明顯高于 Opus 4.7 的 64.3%,也超過 GPT-5.5 的 58.65% 和 Gemini 3.1 Pro 的 54.2%。它在 agentic compute use 上的得分為 83.4%,相比 GPT-5.5 的 78.7% 和 Gemini 3.1 Pro 的 76.2%,同樣不容忽視。但在 agentic terminal coding 上,Opus 4.8 仍然輸給了 GPT-5.5,比 OpenAI 的模型低了 3.6 個百分點。

不過,正是這組對比,也引發了外界對基準測試可信度的討論。

尤其是在開發者社區里,GPT-5.5 的編碼體感正在獲得很強的正面反饋。DHH 不久前在 X 上表示,自 Opus 4.5 以來,沒有哪個模型像 GPT-5.5 這樣讓他反復出現“難以相信它已經這么好”的時刻。


也正是在這種背景下,Redis 作者 antirez 對 Anthropic 的基準測試呈現方式提出了批評。他認為,Anthropic 這次犯了一個“重大戰略錯誤”:過去廠商通常更強調新模型相對舊模型的提升,但這一次,在很多人已經感受到 GPT-5.5 編碼能力很強的情況下,Anthropic 把 GPT-5.5 放進同一組對比里,反而讓客戶看到,基準測試和真實使用體感之間可能并不一致。


有人在評論區反問,這難道不是一種透明嗎?antirez 的回應是,問題不在于是否透明,而在于如果 Anthropic 明知道 GPT-5.5 在編碼上比 Opus 4.7 強得多,即使后者在某些基準測試中得分更高,卻仍然把這些數字呈現為“模型更強”的證明,就會讓用戶感到困惑。


另一位用戶指出,主流模型發布時本來就常常會把 Big Three 的最新旗艦模型放進對比圖里,Anthropic 并不是例外。antirez 則表示,這并不改變核心問題:用戶看到的是廠商說法與實際體驗之間的錯位。


網友 Chubby 就評價稱,Opus 4.8 顯然是一個很強的模型,但他的印象是,Anthropic 正越來越像是在追趕 OpenAI,而不是繼續定義節奏。

在他看來,GPT-5.5 似乎再次抬高了基準;如果 OpenAI 保持這樣的推進速度,GPT-5.6 很可能成為整體更強的模型。


Opus 這一年:從“封王”到變相漲價爭議

2025 年 5 月,Anthropic 在首屆開發者大會 Code with Claude 上發布 Opus 4,并稱其為“世界上最好的編碼模型”。當時,這家公司承諾要在編碼、高級推理和 AI agents 方面樹立新標準。這個模型在編碼和長上下文推理方面帶來了顯著進展,尤其突出的是,它能夠處理長時間運行的任務,并在 Anthropic 當時所說的“數千個步驟”中保持上下文。

很快,2025 年 8 月,Opus 4.1 發布,在 agentic 任務、編碼和推理能力上帶來了一些提升。但這只是一次小更新。當時,Anthropic 還預告稱,“未來幾周,我們會對模型帶來大得多的改進”。

2025 年 11 月,Opus 4.5 高調發布。Anthropic 再一次稱它是“世界上最適合編碼、agents 和 computer use 的模型”。同樣,他們也再次吊起外界胃口,稱 Opus 4.5 只是“工作完成方式發生更大變化的一個預覽”。就這個預覽本身而言,Opus 4.5 的確帶來了一些能力改進,讓模型能夠更好地處理模糊性,并解決涉及多個系統的 bug。從很多方面看,在 OpenAI 的 GPT-5.1-Codex-Max 和 Google 的 Gemini 3 獲得市場青睞之后,Opus 4.5 幫 Anthropic 重新奪回了編碼王冠。

此后又過了三個月,Anthropic 帶來了 Opus 4.6。Opus 4.6 “讓大型語言模型用于企業工作流發生了階躍式變化,因為它能夠處理更復雜的任務,并更好地交付結果”。Opus 4.6 在規劃、編碼和調試能力上繼續提升,成為 Anthropic 首個使用 adaptive thinking 的模型,并取得了亮眼的基準測試成績。其中尤其值得注意的是,它擁有 100 萬 token 的上下文窗口。

不過,Opus 4.6 的爭議也很快出現。發布之后,Anthropic 很快因為一次定價調整遭到批評:雖然模型在技術上支持接近 100 萬 token 的 prompt,但只要請求超過約 20 萬 token,整個請求都會被劃入更高的“長上下文”價格層級。

Opus 4.7 也遇到了一些麻煩。它在 2026 年 4 月發布,是 Opus 4.6 的直接升級版本,帶來了更好的視覺能力、更好的記憶能力和更好的指令遵循能力。但發布之后,有用戶反饋稱,Claude Opus 4.7 會出現自相矛盾的回答,性能也有所下降,這引發了外界對模型質量、安全權衡以及 AI 服務變相漲價的討論。更尷尬的是,Anthropic 自己也稱 Opus 4.7 “整體能力不如”當時備受討論的 Claude Mythos Preview。從外界報道看,Opus 4.7 在某種程度上像是在為 Mythos 的新網絡安全防護機制試水。

現在,Opus 4.8 已經正式發布。對近期屢屢引發用戶不滿的 Anthropic 來說,這確實是一個重要節點。一方面,它需要證明 Opus 系列仍然能在編碼和 agentic 任務上繼續向前推進;另一方面,它也需要回應用戶對額度、價格、模型穩定性和產品體驗的持續不滿。

本月早些時候,Anthropic 推出的 Claude Code agent view 并沒有讓開發者買賬。有人評價說,它只是“減少了一些摩擦,但沒有改變底層問題”。同一周,Anthropic 還宣布,從 6 月 15 日開始,將對 Agent SDK 使用量進行拆分計費。對于那些已經習慣把程序化使用和交互式使用都計入同一個訂閱額度的用戶來說,這顯然不是一個受歡迎的變化。

當然,Opus 4.8 可能還不是 Anthropic 接下來唯一的一張牌。此前同一則泄露消息中還提到過 Sonnet 4.8 和 Mythos 1,如果這兩個名字也陸續落地,Anthropic 才算真正進入下一輪產品更新周期。

https://www.anthropic.com/news/claude-opus-4-8

https://www.marktechpost.com/2026/05/28/anthropic-ships-claude-opus-4-8-alongside-dynamic-workflows-and-cheaper-fast-mode-with-workflows-capped-at-1000-subagents/

聲明:本文為 InfoQ 整理,不代表平臺觀點,未經許可禁止轉載。

會議推薦

企業級 Agent 落地,繞不開 4 個真實的工程問題!如何在 Agent 安全性和可用性之間找到平衡點?Agent 需要什么樣的記憶系統才能真正理解上下文?如何通過算法壓榨實現智力增量與成本控制的極致平衡?多 Agent 協作,如何做到可觀測、可治理、可控制?6.26-27 AICon 上海站,國內頭部公司的 Agent 實踐,一次說透。

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
突發!長鑫存儲簽200億大單!

突發!長鑫存儲簽200億大單!

中國半導體論壇
2026-06-30 13:26:50
博主稱車載螺紋接口是華為口,已申請專利,小米被迫使用,未來政策收緊,還要交專利費!網友:節奏帶得飛起

博主稱車載螺紋接口是華為口,已申請專利,小米被迫使用,未來政策收緊,還要交專利費!網友:節奏帶得飛起

大白聊IT
2026-06-29 17:52:55
韓紅基金會高管年薪近60萬,韓紅號稱捐資8000萬去向成謎

韓紅基金會高管年薪近60萬,韓紅號稱捐資8000萬去向成謎

八桂知事
2026-06-27 16:28:49
莫蘭特1換2交易評級:開拓者低價撿漏有隱患評B- 灰熊徹底重建評B

莫蘭特1換2交易評級:開拓者低價撿漏有隱患評B- 灰熊徹底重建評B

羅說NBA
2026-06-30 06:31:30
1962年中國打贏就走,結果給印度留了一道千年難題

1962年中國打贏就走,結果給印度留了一道千年難題

遠方風林
2026-06-14 00:29:33
一擲千金的“大哥”越來越少!女主播群體從深圳遷到惠州路邊帳篷

一擲千金的“大哥”越來越少!女主播群體從深圳遷到惠州路邊帳篷

火山詩話
2026-06-29 04:37:21
絕經后性生活怎么辦?頻率多少合適?

絕經后性生活怎么辦?頻率多少合適?

喵咪文化
2026-06-30 06:44:07
中國“撿錢”時代或將來臨:如果手中只有10萬,試試死啃這兩條線

中國“撿錢”時代或將來臨:如果手中只有10萬,試試死啃這兩條線

笑熬漿糊111
2026-06-30 04:00:10
法國隊主帥德尚在母親去世后回國,諷刺雜志一幅漫畫引發激烈批評

法國隊主帥德尚在母親去世后回國,諷刺雜志一幅漫畫引發激烈批評

夢仙境aa
2026-06-30 09:31:38
上海球迷穿日本隊球衣慶祝!上海市足協:足球無國界 球迷有祖國

上海球迷穿日本隊球衣慶祝!上海市足協:足球無國界 球迷有祖國

念洲
2026-06-29 06:50:42
霸權翻車!伊朗再次重創美軍,特朗普火速認慫!

霸權翻車!伊朗再次重創美軍,特朗普火速認慫!

大嘴說天下
2026-06-29 22:30:03
小卡快船生涯即將結束!!多支球隊送上頂薪!!

小卡快船生涯即將結束!!多支球隊送上頂薪!!

柚子說球
2026-06-30 12:52:46
丘吉爾曾言:如果不是被原子彈炸過,日本這個國家可能就不存在了

丘吉爾曾言:如果不是被原子彈炸過,日本這個國家可能就不存在了

掠影后有感
2026-06-30 09:40:38
日本球迷又開始撿垃圾了,這戲碼上演了快30年了,真的不覺得煩嗎

日本球迷又開始撿垃圾了,這戲碼上演了快30年了,真的不覺得煩嗎

西樓知趣雜談
2026-06-18 17:32:47
今晚開始!央一央八愛奇藝等4部王炸劇來襲!眾星云集,先追哪部

今晚開始!央一央八愛奇藝等4部王炸劇來襲!眾星云集,先追哪部

小椰的奶奶
2026-06-30 01:19:29
陜西砍“孤獨樹”,讓皖陜兩地管理水平高低立判,網友發帖引熱議

陜西砍“孤獨樹”,讓皖陜兩地管理水平高低立判,網友發帖引熱議

火山詩話
2026-06-30 05:30:50
當全世界都忙著吵架時,中國把整整5萬億元,悄悄埋進了地底深處

當全世界都忙著吵架時,中國把整整5萬億元,悄悄埋進了地底深處

科技故事聚焦
2026-06-30 09:54:30
越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

觀史搜尋著
2026-05-21 05:41:15
迭戈-弗蘭:C羅原地不動就等著門前搶點,他拖累了葡萄牙全隊

迭戈-弗蘭:C羅原地不動就等著門前搶點,他拖累了葡萄牙全隊

懂球帝
2026-06-29 22:12:06
徐達晚年喜得貴子,劉伯溫剛抱起嬰兒臉色就變了:此子不除,徐家百年基業將毀于一旦

徐達晚年喜得貴子,劉伯溫剛抱起嬰兒臉色就變了:此子不除,徐家百年基業將毀于一旦

小影的娛樂
2026-06-30 04:20:48
2026-06-30 14:16:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1586文章數 160關注度
往期回顧 全部

科技要聞

DeepSeek V4正式版要來 高峰期API價格翻倍

頭條要聞

荷蘭隊連續3屆倒在點球大戰 此前9次點球大戰只贏兩場

頭條要聞

荷蘭隊連續3屆倒在點球大戰 此前9次點球大戰只贏兩場

體育要聞

德國足球,臉都不要了

娛樂要聞

韓紅稱要退出公益,多位名人挽留

財經要聞

韓國萬億"芯"基建:存儲能否成AI時代油田

汽車要聞

誰懂啊家人們!爹味和班味一點都沒,這臺底盤最硬國產大獵裝太上頭!

態度原創

本地
房產
手機
游戲
公開課

本地新聞

貴州小城的新目標:舉辦“村超”世界杯!

房產要聞

56.8億!三亞突然開始瘋狂賣地!

手機要聞

刀法精準 蘋果iPhone 18e祖傳60Hz屏幕接著賣

任天堂官方暖心提醒:Switch會員明日漲價!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版