網易首頁 > 網易號 > 正文 申請入駐

斯坦福推出Agent驗證框架「LLM-as-a-Verifier」

0
分享至



本項目由斯坦福大學 CS 博士生 Jacky Kwok負責,主要貢獻者包括伯克利 EECS 博士生 Shulu Li。通訊作者為Ion Stoica(UC 伯克利教授、Databricks 創始人)、Azalia Mirhoseini(斯坦福教授,曾任職于 DeepMind 與 Anthropic)、以及 Marco Pavone(英偉達 AI 與自動駕駛研究總監)。

斯坦福、伯克利與英偉達聯合提出 Agent 驗證框架 LLM-as-a-Verifier。該方法是一種通用的驗證機制,可與任意 Agent Harness 和模型結合。

研究表明,通過擴展驗證階段的計算量(scaling verification compute),可以顯著提升 agent 整體性能,并在最有影響力的 AI 編程基準 Terminal-Bench 上超越 GPT-5.5 和 Claude Mythos!



LLM-as-a-Verifier 在 AI Coding 基準 Terminal-Bench 和 SWE-Bench Verified 上均取得了當前最優(SOTA)性能。 Transformer 論文作者 Lukasz Kaiser 以及 GAN 作者 Bing Xu 也對該工作進行了轉發與關注。





  • 博客地址:llm-as-a-verifier.notion.site
  • 代碼地址:llm-as-a-verifier.github.io

方法概述

大多數 Agent Harness 實際上已經「具備」解決問題的能力 。當我們多次運行同一個 Agent(例如運行 100 次),它往往能夠在某一次嘗試中生成正確答案。但問題在于,它們無法判斷哪一個才是正確的。這一問題在長時序任務(long-horizon tasks)中尤為嚴重。



LLM-as-a-Verifier 通過 scaling評分 token 的細粒度(score granularity)、多次評估(repeated verification)以及評價標準的分解(criteria decomposition),顯著提升了驗證能力,并進一步提高了下游任務的成功率。此外,團隊發現隨著評分 token 細粒度的提升,正負樣本之間的得分區分度會進一步拉大。



核心問題:LLM-as-a-Judge 的局限性

標準的 LLM-as-a-Judge 通過提示模型輸出一個評分結果(例如,1 到 8 之間的分數),并選擇概率最高的評分作為最終的離散分數。

然而,這種方法往往存在評分粒度過于粗糙的問題。在比較長時序 agent 軌跡(trajectories )時,LLM-as-a-Judge 通常會為不同的軌跡分配相同的分數(例如,兩條軌跡都被評為 4 分),從而導致平局,無法有效區分它們。

這種粗粒度的評分機制在 Terminal-Bench 上出現了27%的平局情況,限制了評判的精確性和區分能力。



LLM-as-a-Verifier: 從判分到驗證的范式轉變

從定義上講,judge(裁判者)是對整體情況形成總體判斷并給出結論的人;而 verifier(驗證者)則是對具體事項進行真實及正確性核驗的人,因此需要更細致、更具體的評估。

為此,團隊提出了 LLM-as-a-Verifier。它通過擴展以下三個維度來提供細粒度反饋:

  1. 重復驗證的次數(repeated verifications)
  2. 評分 token 的粒度(granularity of score tokens)
  3. 評估標準的分解(decomposition of evaluation criteria)





LLM-as-a-Verifier 將軌跡的獎勵表示為:



其中:



在選擇最佳軌跡時,團隊采用循環賽(round-robin tournament):對每一對候選軌跡 (i, j), 驗證器都會利用上述公式計算其 reward。獎勵更高的軌跡獲得勝利,而在全部比較中勝場數最多的軌跡,將被選為最終結果。

實驗結果

1.在 Terminal-Bench 2.0 和 SWE-Bench Verified 等復雜的長時序基準任務中,LLM-as-a-Verifier 的表現全面超越了前沿模型并均取得了當前最優(SOTA)性能。所有實驗結果均來源于官方排行榜。



2.LLM-as-a-Verifier 能夠在不同的 Agent Harness 框架中實現無縫集成,其通用性驗證于以下三個基準任務:

  • ForgeCode:驗證準確率提升至 86.4%
  • Terminus-Kira:準確率提升至 79.4%
  • Terminus 2:準確率增加至 71.2%



這表明,無論針對何種 Agent Harness 或模型,該驗證方法皆可高效兼容并提升性能。

3.LLM-as-a-Verifier 在驗證準確率和消除平局方面全面領先于傳統的 LLM-as-a-Judge。即使在增加重復驗證次數的情況下(如 k = 16),Verifier 方法依然保持了至少 7% 的驗證準確率優勢。此外,它完全消除了平局現象。



4.試驗結果表明,增加評分 token 的粒度(granularity)以及提高重復驗證次數(repeated verifications)均顯著提高驗證準確率。此外,在評分 token 維度的細化分級(1→20)中,量化誤差得到了極大降低,從而更接近真實獎勵。



5.LLM-as-a-Verifier 放棄傳統的單一評分機制,采用將軌跡驗證解構為三個可組合的評估標準:

  • 規范合規性 (Specification):軌跡是否符合所有任務要求(路徑、命名等);
  • 輸出格式 (Output Format):驗證輸出的格式是否符合預期結果;
  • 錯誤檢測 (Error Checking):軌跡中是否存在明顯的錯誤信號。



驗證計算作為新的擴展維度

「LLM-as-a-Verifier」是一種通用驗證機制,能夠顯著提升 Agent 的整體性能,并在多個 AI 編程基準上取得當前最優(SOTA)表現,超越了其他前沿模型如 Claude Mythos。

相比傳統的「LLM-as-a-Judge」方法,該框架利用更細致的評分粒度、重復驗證,以及評估標準分解,實現更高的驗證準確率和更精確的區分能力,消除了評分平局現象。

實驗結果表明,它能夠廣泛適配不同的 Agent Harness 和模型,提高多種基準任務中的準確率,同時通過評分機制的細化緩解量化誤差,使驗證結果更接近真實獎勵。

LLM-as-a-Verifier 不僅提升了 Agent 性能,還顯著增強了模型在長時序任務中的安全性和穩定性。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本全面叫停種植牙?種牙潛藏的風險與后遺癥,一次為你講明白

日本全面叫停種植牙?種牙潛藏的風險與后遺癥,一次為你講明白

垚垚分享健康
2026-04-11 08:51:57
銷量碾壓,利潤慘。楹3000 萬輛國產車的利潤不及豐田的一半?

銷量碾壓,利潤慘敗!為何3000 萬輛國產車的利潤不及豐田的一半?

音樂時光的娛樂
2026-04-27 10:57:32
恒大集團與特朗普合作往事

恒大集團與特朗普合作往事

地產微資訊
2026-04-24 18:09:33
博主不喜歡游戲出現大雷美女!稱喜歡這種的人太可悲

博主不喜歡游戲出現大雷美女!稱喜歡這種的人太可悲

游民星空
2026-04-27 11:06:30
華為又一款新品上市,4月25日,正式開售!

華為又一款新品上市,4月25日,正式開售!

科技堡壘
2026-04-25 00:21:56
日本男老師為滿足欲望,竟偷拍高中生更衣照?日網:……被拍的竟是男生。

日本男老師為滿足欲望,竟偷拍高中生更衣照?日網:……被拍的竟是男生?

日本通
2026-04-27 10:31:34
一個家庭最大的災難,不是貧窮而是父母六七十歲,還深陷3種狀態

一個家庭最大的災難,不是貧窮而是父母六七十歲,還深陷3種狀態

游戲收藏指南
2026-04-27 13:02:43
河北小伙娶烏克蘭美女,結婚11年后,妻子出軌,如今怎么樣了

河北小伙娶烏克蘭美女,結婚11年后,妻子出軌,如今怎么樣了

番外行
2026-03-13 11:01:27
中俄朝3國都看懂了,打美軍航母先放一放:必須先打日本導彈基地

中俄朝3國都看懂了,打美軍航母先放一放:必須先打日本導彈基地

杰絲聊古今
2026-04-27 06:20:36
作風狠辣!利物浦母公司FSG再度鐵血換帥,整套教練組全員裁掉

作風狠辣!利物浦母公司FSG再度鐵血換帥,整套教練組全員裁掉

夜白侃球
2026-04-27 08:58:50
世界倒退最快的國家:從全球第六到一貧如洗,只用了短短五年時間

世界倒退最快的國家:從全球第六到一貧如洗,只用了短短五年時間

明天見灌裝冰塊
2026-04-15 07:21:32
何猷君家保姆買彩票中了3000萬,保姆樂壞了,拒不辭職!轉頭第一句話是:你想要什么,我都買給你

何猷君家保姆買彩票中了3000萬,保姆樂壞了,拒不辭職!轉頭第一句話是:你想要什么,我都買給你

美芽
2026-04-21 18:21:15
從1-4慘敗到主帥癱坐教練席!泰山換帥選誰?答案就在這幾個人里

從1-4慘敗到主帥癱坐教練席!泰山換帥選誰?答案就在這幾個人里

曹老師評球
2026-04-26 20:05:54
華國鋒題字“為人民服務”,顏楷風格引發熱議!

華國鋒題字“為人民服務”,顏楷風格引發熱議!

書畫相約
2026-04-27 08:26:50
為了給前NBA狀元霍華德生孩子,籃球寶貝壯壯究竟付出了多大代價

為了給前NBA狀元霍華德生孩子,籃球寶貝壯壯究竟付出了多大代價

羅氏八卦
2026-03-10 18:00:03
李提香:沒有人愿意輸球,如果保持這種狀態就不會贏得勝利

李提香:沒有人愿意輸球,如果保持這種狀態就不會贏得勝利

懂球帝
2026-04-26 21:58:39
太尷尬!網傳西安年入百萬小伙因堅持婚檢,與女友談崩,真相扎心

太尷尬!網傳西安年入百萬小伙因堅持婚檢,與女友談崩,真相扎心

火山詩話
2026-04-25 18:24:26
遇到這些奇葩的“中國好鄰居”,只想賣房走人,給大家曬曬

遇到這些奇葩的“中國好鄰居”,只想賣房走人,給大家曬曬

巢客HOME
2026-04-27 04:05:03
甩出6個;饤l件后,伊朗外長急訪普京,給特朗普留足考慮時間

甩出6個;饤l件后,伊朗外長急訪普京,給特朗普留足考慮時間

大中國
2026-04-27 12:35:11
別人對你說“咱倆加個微信”,千萬別說 “您掃我還是我掃您?” 高情商的人這樣做

別人對你說“咱倆加個微信”,千萬別說 “您掃我還是我掃您?” 高情商的人這樣做

德魯克博雅管理
2026-04-23 17:02:27
2026-04-27 13:56:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12866文章數 142636關注度
往期回顧 全部

科技要聞

打1折!DeepSeek輸入緩存降價

頭條要聞

白宮槍手路徑首披露:房卡放行 在隔間組槍直沖宴會廳

頭條要聞

白宮槍手路徑首披露:房卡放行 在隔間組槍直沖宴會廳

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

《奔跑吧14》剛播就把一手好牌打稀爛

財經要聞

DeepSeek融資、字節加碼 AI開始真燒錢了

汽車要聞

在不確定中尋找確定性:大眾汽車的中國解法

態度原創

時尚
旅游
手機
房產
軍事航空

比起買大件,這些“小裝備”更派得上用場!

旅游要聞

“五一”假期,延慶千家店鎮推澗畔放松游等7條特色旅游線路

手機要聞

消息稱某廠四曲面+視覺無邊框ID評估中,預計為OPPO新機

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版