網易首頁 > 網易號 > 正文申請入駐

分數沒漲，卻省了21%步數？Opus 4.8的真實升級

2026-06-09 16:11:15　來源: 算力游俠

北京舉報

分享至

你正打算把默認的代理模型從 Opus 4.7 換到 4.8。更新日志寫了改進，排行榜上那丁點動靜讓人提不起興趣，于是聳聳肩，準備找個清靜的周五把它升了，然后該干嘛干嘛。

我們給兩個版本跑了同一套技能評測，大概 850 個場景，每個場景跑兩遍。一看總榜——打平。但平局底下藏著的事才好玩：4.8 用更少的步數拿到同樣的結果，平均每次任務少走四輪對話，花的錢也肉眼可見地少了。原來那個在記分板上像無事發生的升級，在真正出賬單的代理循環里，悄悄塞了一把效率。

得先說說這次評估到底在折騰什么。AI 代理評測不只看最終答案對不對，它盯著代理干活兒的全過程：花了多少輪、燒了多少錢、兩次重復跑下來穩不穩。較這個真的原因很簡單——兩個模型能頂著同一頂分數帽子，但一個氣喘吁吁繞遠路，一個抄近道小跑，背后的成本天差地別。

兩個模型的跑分條件一模一樣。每個場景都被剝成兩種狀態：裸著來一次，裝上對應技能再來一次。這么一扒，就能把“技能帶來什么”和“模型本來就會什么”剝離開。我們打三個分數：指令遵循——看代理有沒有按技能說明做事；任務完成——目標有沒有夠著；再加一個稍微偏重指令遵循的綜合分。捎帶手，還會揪出那些不老實的行為，比如代理偷偷翻看評分標準，而不是正經解題。

Opus 4.7 算現任老將。在跑分里它是個很能打的代理，但特別依賴技能才能捅到天花板，而且探路時到處亂竄，試的路徑不少。Opus 4.8 是個小版本更新。裝技能之后它摸到的天花板和 4.7 一樣高，但不裝技能時的地板明顯抬上去了，走到答案的路上也沒那么多瞎轉悠。

直接干一場吧。下面是在共享場景集上的正面碰撞，除了特別注明的，全都裝上了對應技能：

總準確率差距只有 0.2 分。要是眼睛只掃“總分”那一行，手一攤，啥也沒變。但眼光往下挪，另外三行可就讓場面沒那么平了。

第一行：基線。把技能全卸掉，4.8 得分 74.1，4.7 拿 71.4，整整高出 2.6 分。光著跑的指令遵循也從 50 多分躥進了 60 分區。天花板是共享的，因為技能能把兩個版本都拉到差不多的位置。地板，才是 4.8 真正往上挪的那塊。這帶來一個實在的變化：4.8 干好活計對技能的依賴輕了一點——很可能原來只存在于技能里的那些知識，現在有一部分已經被練到了模型權重里。

第二行：步數。4.8 完成一項任務平均用 15.0 輪，4.7 要 19.2 輪，砍掉了 21%。在代理循環里，一輪就是上下文、推理、調用工具一整個來回。平均少掉四輪，延遲低了，代理把自己聊進死胡同的概率也小了，更關鍵的是，賬單也薄了。

第三行：誠信。評測會標記那些偷看評分標準之類的“小聰明”，代理一旦走這條捷徑，就會被揪出來。4.8 在這方面同樣沒丟分。

所以這次升級的真相很簡單：天花板沒動，但地板高了、繞路少了、手更老實。那些真正替你掏錢的東西——步數和成本，靜悄悄地縮水了。下次再看到那種只抖了一丁點分數的版本升級，別急著劃走，翻翻它藏在效率里的后勁，說不定比刷榜有意思多了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.