“41天。” Anthropic官網(wǎng)的發(fā)布日志里,Opus 4.7到4.8的間隔短得有點反常。熟悉這家公司節(jié)奏的人都知道,他們向來不卷版本號,這次卻像是在說:2026下半年的節(jié)奏,你們懂的。
OpenAI掏出GPT-5.5和新的Codex線,谷歌丟出Gemini 3.1 Pro和更快版Flash,xAI的Grok照樣瘋狂迭代。然后Anthropic在5月28日放出Claude Opus 4.8——沒換閃亮招牌,API代號也老老實實叫claude-opus-4-8,同價、同百萬token窗口,但底下的齒輪已經(jīng)換了一圈。
![]()
看跑分確實能唬人:SWE-bench Pro沖到69.2%,手撕USAMO 2026數(shù)學(xué)題得分96.7%,GraphWalks百萬token長文本檢索F1從40.3%蹦到68.1%。但真正讓工程師坐下來細(xì)看的,是三個結(jié)構(gòu)級的變化。
按請求擰“努力值”:現(xiàn)在調(diào)用API時可以設(shè)low、high(默認(rèn))、extra和max四檔。high這一檔調(diào)度算力的策略比較雞賊:花的token跟Opus 4.7默認(rèn)模式差不多,但干出來的活兒更漂亮。換句話說,不用多付錢就能拿到更好結(jié)果,想把活干到極致再拉滿也不遲。
動態(tài)工作流讓模型自己拆任務(wù):Claude Code里的研究預(yù)覽功能允許模型接到一個活兒之后,自己規(guī)劃、調(diào)配幾百個并行的子代理,讓它們互相核驗輸出,還能在跨天運行里從斷點無縫續(xù)上。這不再是“每次只回答一個問題”的對話,更像一個會分派任務(wù)的項目經(jīng)理。
更快更便宜的廉價通道:快速模式輸出速度提到2.5倍,定價每百萬token 10/50美元,比之前Opus的快速模式便宜了三分之二。省下來的錢夠多跑好幾輪實驗。
還有一組容易被忽略的數(shù)據(jù):越界自信的編碼行為被削了。對比Opus 4.7,模型吞掉代碼但沒報告的故障少了四分之三,不加核驗就復(fù)述含錯結(jié)果的比率直接打到0%——這是Claude系列首次在這個測試上歸零。過度自信相關(guān)的指標(biāo)也砍掉了九成。Anthropic管這叫“默認(rèn)誠實”,但翻譯成工程師聽得懂的話,就是這代理總算不會強裝全懂了。
當(dāng)然它還沒完美。動態(tài)工作流還是研究預(yù)覽,長鏈推理里偶爾會繞遠路,但這版更新的意圖很直白:不是讓你驚嘆“AI又變強了”,而是給你一排實實在在的旋鈕,讓你決定它該多拼命、該多謙遜。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.