你正打算把默認的代理模型從 Opus 4.7 換到 4.8。更新日志寫了改進,排行榜上那丁點動靜讓人提不起興趣,于是聳聳肩,準備找個清靜的周五把它升了,然后該干嘛干嘛。
我們給兩個版本跑了同一套技能評測,大概 850 個場景,每個場景跑兩遍。一看總榜——打平。但平局底下藏著的事才好玩:4.8 用更少的步數拿到同樣的結果,平均每次任務少走四輪對話,花的錢也肉眼可見地少了。原來那個在記分板上像無事發生的升級,在真正出賬單的代理循環里,悄悄塞了一把效率。
![]()
得先說說這次評估到底在折騰什么。AI 代理評測不只看最終答案對不對,它盯著代理干活兒的全過程:花了多少輪、燒了多少錢、兩次重復跑下來穩不穩。較這個真的原因很簡單——兩個模型能頂著同一頂分數帽子,但一個氣喘吁吁繞遠路,一個抄近道小跑,背后的成本天差地別。
兩個模型的跑分條件一模一樣。每個場景都被剝成兩種狀態:裸著來一次,裝上對應技能再來一次。這么一扒,就能把“技能帶來什么”和“模型本來就會什么”剝離開。我們打三個分數:指令遵循——看代理有沒有按技能說明做事;任務完成——目標有沒有夠著;再加一個稍微偏重指令遵循的綜合分。捎帶手,還會揪出那些不老實的行為,比如代理偷偷翻看評分標準,而不是正經解題。
Opus 4.7 算現任老將。在跑分里它是個很能打的代理,但特別依賴技能才能捅到天花板,而且探路時到處亂竄,試的路徑不少。Opus 4.8 是個小版本更新。裝技能之后它摸到的天花板和 4.7 一樣高,但不裝技能時的地板明顯抬上去了,走到答案的路上也沒那么多瞎轉悠。
直接干一場吧。下面是在共享場景集上的正面碰撞,除了特別注明的,全都裝上了對應技能:
總準確率差距只有 0.2 分。要是眼睛只掃“總分”那一行,手一攤,啥也沒變。但眼光往下挪,另外三行可就讓場面沒那么平了。
第一行:基線。把技能全卸掉,4.8 得分 74.1,4.7 拿 71.4,整整高出 2.6 分。光著跑的指令遵循也從 50 多分躥進了 60 分區。天花板是共享的,因為技能能把兩個版本都拉到差不多的位置。地板,才是 4.8 真正往上挪的那塊。這帶來一個實在的變化:4.8 干好活計對技能的依賴輕了一點——很可能原來只存在于技能里的那些知識,現在有一部分已經被練到了模型權重里。
第二行:步數。4.8 完成一項任務平均用 15.0 輪,4.7 要 19.2 輪,砍掉了 21%。在代理循環里,一輪就是上下文、推理、調用工具一整個來回。平均少掉四輪,延遲低了,代理把自己聊進死胡同的概率也小了,更關鍵的是,賬單也薄了。
第三行:誠信。評測會標記那些偷看評分標準之類的“小聰明”,代理一旦走這條捷徑,就會被揪出來。4.8 在這方面同樣沒丟分。
所以這次升級的真相很簡單:天花板沒動,但地板高了、繞路少了、手更老實。那些真正替你掏錢的東西——步數和成本,靜悄悄地縮水了。下次再看到那種只抖了一丁點分數的版本升級,別急著劃走,翻翻它藏在效率里的后勁,說不定比刷榜有意思多了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.