網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

模型出了個旋鈕，我的日常被改變了？

2026-05-30 04:03:49　來源: 薛定諤的BUG

北京舉報

分享至

5月28日，Anthropic發(fā)布了Opus 4.8。照例，基準(zhǔn)測試表格滿天飛——SWE-Bench Pro上超越前代，等等。每個人都截圖轉(zhuǎn)發(fā)。

但我卻被那些測試分?jǐn)?shù)旁邊的一個小玩意兒絆住了：一個努力度旋鈕。

這篇帖子不是官宣，它是個問題。所以打了#討論的標(biāo)簽。

先明確一下到底改了什么。和Opus 4.8一起落地的東西包括：

努力度控制被搬進(jìn)了用戶界面。它之前是個API參數(shù)，只有開發(fā)者才會碰的開關(guān)。現(xiàn)在它直接躺在claude.ai和Cowork的模型選擇器旁邊。檔位有：低、中、高、超高（Claude Code里叫xhigh，claude.ai里叫“額外”），以及最大。

默認(rèn)值也變了。4.7時默認(rèn)是超高，4.8改成了高。Anthropic的說法是：在編程任務(wù)上，4.8用高努力度消耗的token數(shù)和4.7默認(rèn)差不多，但在每個編程基準(zhǔn)上的得分都更高。所以這是一種“少琢磨、多交付”式的調(diào)校。

誠實度方面也有一項聲明。根據(jù)Anthropic自己的評估，4.8對自己代碼中存在的缺陷視而不見的概率大約是之前的四分之一。早期測試者還反饋，它更頻繁地標(biāo)記自己的不確定性，并且更少給出沒有依據(jù)的主張。

動態(tài)工作流作為研究預(yù)覽推出。Claude Code現(xiàn)在可以在一個會話里并行運(yùn)行數(shù)百個子代理；據(jù)說能處理橫跨幾十萬行代碼的基礎(chǔ)級遷移，從啟動到合并，以現(xiàn)有測試套件為通過標(biāo)準(zhǔn)。（企業(yè)/團(tuán)隊/最高配計劃可用。）

快速模式的速度是原來的2.5倍，而且費(fèi)用比前代模型便宜了三分之二。價格方面，和4.7持平。

我親眼見識了誠實度那部分：它先是自信地指出一個具體違規(guī)，并給出行號，接著又自我否定，重新執(zhí)行實際檢查，并在同一輪對話中糾正了編造出來的行號。這一點(diǎn)比任何基準(zhǔn)測試的柱狀圖都重要。

好了，以上就是功能清單。現(xiàn)在說正事。

真正的問題是：這會改變我們的日常工作節(jié)奏嗎？

有一個說法是這樣的：你沒辦法同時優(yōu)化token消耗、速度和質(zhì)量。這是個三角，拽住一個角，另外兩個就會變形。

而Opus 4.8做的事，是把這顆三角形的選擇權(quán)從模型手里拿走，塞到你手里。過去那種“自適應(yīng)思考”套路說的是“模型自己決定該琢磨多久”，而現(xiàn)在的努力度旋鈕在說：“不，你告訴我。”

到這里，我的想法被撕成了兩半。

一方面，這確實是一次工作流上的實質(zhì)變化。如今每項任務(wù)之前都多了一個微小決策——“這事配高還是超高？”把一個困難的重構(gòu)任務(wù)擰到最大，丟到后臺異步去跑，和為了改個拼寫錯誤而撥到低檔，完全是兩個世界。對自律的使用者來說，這從速率限制管理到輸出質(zhì)量，都會帶來真實的差異。

另一方面：到底有多少人會真的去碰那個旋鈕？大多數(shù)人會直接留在默認(rèn)檔。坦白講，一位測試者提醒過，在動態(tài)、循環(huán)任務(wù)里把設(shè)置拉到最高，token消耗會“嚇人地夸張”。所以要是用法不當(dāng)，這功能就不是功能，而是個陷阱。

還有一點(diǎn)：努力度旋鈕也救不了一個糟糕的提示詞。一個模模糊糊的輸入，就算擰到最大，吐出來的東西照樣靠不住。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.