Claude Opus 4.8：41天更新，AI終于學(xué)會“省力”和“認(rèn)錯”

2026-05-30 04:28:59　來源: 我是一個粉刷匠2

北京舉報

分享至

“41天。” Anthropic官網(wǎng)的發(fā)布日志里，Opus 4.7到4.8的間隔短得有點反常。熟悉這家公司節(jié)奏的人都知道，他們向來不卷版本號，這次卻像是在說：2026下半年的節(jié)奏，你們懂的。

OpenAI掏出GPT-5.5和新的Codex線，谷歌丟出Gemini 3.1 Pro和更快版Flash，xAI的Grok照樣瘋狂迭代。然后Anthropic在5月28日放出Claude Opus 4.8——沒換閃亮招牌，API代號也老老實實叫claude-opus-4-8，同價、同百萬token窗口，但底下的齒輪已經(jīng)換了一圈。

看跑分確實能唬人：SWE-bench Pro沖到69.2%，手撕USAMO 2026數(shù)學(xué)題得分96.7%，GraphWalks百萬token長文本檢索F1從40.3%蹦到68.1%。但真正讓工程師坐下來細(xì)看的，是三個結(jié)構(gòu)級的變化。

按請求擰“努力值”：現(xiàn)在調(diào)用API時可以設(shè)low、high（默認(rèn)）、extra和max四檔。high這一檔調(diào)度算力的策略比較雞賊：花的token跟Opus 4.7默認(rèn)模式差不多，但干出來的活兒更漂亮。換句話說，不用多付錢就能拿到更好結(jié)果，想把活干到極致再拉滿也不遲。

動態(tài)工作流讓模型自己拆任務(wù)：Claude Code里的研究預(yù)覽功能允許模型接到一個活兒之后，自己規(guī)劃、調(diào)配幾百個并行的子代理，讓它們互相核驗輸出，還能在跨天運行里從斷點無縫續(xù)上。這不再是“每次只回答一個問題”的對話，更像一個會分派任務(wù)的項目經(jīng)理。

更快更便宜的廉價通道：快速模式輸出速度提到2.5倍，定價每百萬token 10/50美元，比之前Opus的快速模式便宜了三分之二。省下來的錢夠多跑好幾輪實驗。

還有一組容易被忽略的數(shù)據(jù)：越界自信的編碼行為被削了。對比Opus 4.7，模型吞掉代碼但沒報告的故障少了四分之三，不加核驗就復(fù)述含錯結(jié)果的比率直接打到0%——這是Claude系列首次在這個測試上歸零。過度自信相關(guān)的指標(biāo)也砍掉了九成。Anthropic管這叫“默認(rèn)誠實”，但翻譯成工程師聽得懂的話，就是這代理總算不會強裝全懂了。

當(dāng)然它還沒完美。動態(tài)工作流還是研究預(yù)覽，長鏈推理里偶爾會繞遠路，但這版更新的意圖很直白：不是讓你驚嘆“AI又變強了”，而是給你一排實實在在的旋鈕，讓你決定它該多拼命、該多謙遜。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.