5月28日,Anthropic發(fā)布了Opus 4.8。照例,基準(zhǔn)測試表格滿天飛——SWE-Bench Pro上超越前代,等等。每個人都截圖轉(zhuǎn)發(fā)。
但我卻被那些測試分?jǐn)?shù)旁邊的一個小玩意兒絆住了:一個努力度旋鈕。
![]()
這篇帖子不是官宣,它是個問題。所以打了#討論 的標(biāo)簽。
先明確一下到底改了什么。和Opus 4.8一起落地的東西包括:
努力度控制被搬進(jìn)了用戶界面。它之前是個API參數(shù),只有開發(fā)者才會碰的開關(guān)。現(xiàn)在它直接躺在claude.ai和Cowork的模型選擇器旁邊。檔位有:低、中、高、超高(Claude Code里叫xhigh,claude.ai里叫“額外”),以及最大。
默認(rèn)值也變了。4.7時默認(rèn)是超高,4.8改成了高。Anthropic的說法是:在編程任務(wù)上,4.8用高努力度消耗的token數(shù)和4.7默認(rèn)差不多,但在每個編程基準(zhǔn)上的得分都更高。所以這是一種“少琢磨、多交付”式的調(diào)校。
誠實度方面也有一項聲明。根據(jù)Anthropic自己的評估,4.8對自己代碼中存在的缺陷視而不見的概率大約是之前的四分之一。早期測試者還反饋,它更頻繁地標(biāo)記自己的不確定性,并且更少給出沒有依據(jù)的主張。
動態(tài)工作流作為研究預(yù)覽推出。Claude Code現(xiàn)在可以在一個會話里并行運(yùn)行數(shù)百個子代理;據(jù)說能處理橫跨幾十萬行代碼的基礎(chǔ)級遷移,從啟動到合并,以現(xiàn)有測試套件為通過標(biāo)準(zhǔn)。(企業(yè)/團(tuán)隊/最高配計劃可用。)
快速模式的速度是原來的2.5倍,而且費(fèi)用比前代模型便宜了三分之二。價格方面,和4.7持平。
我親眼見識了誠實度那部分:它先是自信地指出一個具體違規(guī),并給出行號,接著又自我否定,重新執(zhí)行實際檢查,并在同一輪對話中糾正了編造出來的行號。這一點(diǎn)比任何基準(zhǔn)測試的柱狀圖都重要。
好了,以上就是功能清單。現(xiàn)在說正事。
真正的問題是:這會改變我們的日常工作節(jié)奏嗎?
有一個說法是這樣的:你沒辦法同時優(yōu)化token消耗、速度和質(zhì)量。這是個三角,拽住一個角,另外兩個就會變形。
而Opus 4.8做的事,是把這顆三角形的選擇權(quán)從模型手里拿走,塞到你手里。過去那種“自適應(yīng)思考”套路說的是“模型自己決定該琢磨多久”,而現(xiàn)在的努力度旋鈕在說:“不,你告訴我。”
到這里,我的想法被撕成了兩半。
一方面,這確實是一次工作流上的實質(zhì)變化。如今每項任務(wù)之前都多了一個微小決策——“這事配高還是超高?”把一個困難的重構(gòu)任務(wù)擰到最大,丟到后臺異步去跑,和為了改個拼寫錯誤而撥到低檔,完全是兩個世界。對自律的使用者來說,這從速率限制管理到輸出質(zhì)量,都會帶來真實的差異。
另一方面:到底有多少人會真的去碰那個旋鈕?大多數(shù)人會直接留在默認(rèn)檔。坦白講,一位測試者提醒過,在動態(tài)、循環(huán)任務(wù)里把設(shè)置拉到最高,token消耗會“嚇人地夸張”。所以要是用法不當(dāng),這功能就不是功能,而是個陷阱。
還有一點(diǎn):努力度旋鈕也救不了一個糟糕的提示詞。一個模模糊糊的輸入,就算擰到最大,吐出來的東西照樣靠不住。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.