網易首頁 > 網易號 > 正文申請入駐

當評分機器"誤判"時：為什么你的AI助手其實比考官打的分數更高

2026-04-23 21:25:22　來源: 科技行者

北京舉報

分享至

這項由法國巴黎薩克雷大學CentraleSupélec下屬MICS實驗室聯合Artefact Research Center、Diabolocom和Cohere共同開展的研究，于2026年4月以預印本形式發布，論文編號為arXiv:2604.09497，有興趣深入了解的讀者可通過該編號查詢完整論文。

每當我們想知道一個AI助手到底"聰不聰明"，最常見的做法就是讓它回答一批題目，然后把它的答案和標準答案做比較，得出一個分數。聽起來合理，對嗎？但研究團隊發現，這個看似公平的評分流程，其實暗藏一個巨大的漏洞——問題不在于AI不會答題，而在于評分機器不會改卷。

打個比方：一位學生參加數學考試，老師規定必須在答題框里寫"答案為X"，但這位學生寫了"\boxed{45}"（一種數學格式），答案完全正確，卻被閱卷機器判成零分。這不是學生的問題，而是閱卷規則太死板。現有AI評測體系，正在大規模上演類似的悲劇。

這支研究團隊系統地檢測了這個問題的嚴重程度，覆蓋36個AI模型、15項測試任務，結果令人擔憂。更重要的是，他們提出了一個輕量級的解決方案——BERT-as-a-Judge（以下簡稱"BERT法官"），用一個經過專門訓練的小型語言理解模型來替代僵硬的規則匹配，既能讀懂答案的真實含義，又無需動用昂貴的大型AI作為裁判。

一、僵硬的閱卷機器：現有評測方式的根本缺陷

要理解這個問題，先從AI評測的日常流程說起。當研究人員想測試某個AI模型的能力，通常會給它一道題，比如"2+2等于多少"，然后要求它按照規定格式回答，例如"Final answer: 4"。接著，評測系統用一個叫做"正則表達式"的規則提取答案部分，再和標準答案做比對。

正則表達式可以理解為一把尺子，它只認識特定的形狀。如果答案寫成"Final answer: 4"，尺子量出來是4，正確。但如果模型寫成"The answer is 4"或者"4（因為2+2=4）"，尺子就量不出來，直接記零分。更糟的是，有時候模型好不容易按格式寫了，但最后加了一句說明，變成了"Final answer: \boxed{4}"，尺子依然會因為多出來的符號而判錯。

研究團隊把這種評測方式比作用一把只能量直線的尺子去測量曲線——工具本身的局限，直接影響了對學生真實能力的判斷。

具體來看，研究團隊對三類主流測試任務展開了調查，包括選擇題（比如MMLU、ARC）、閱讀理解抽取題（比如SQuAD、HotpotQA），以及開放式數學題（比如GSM8K、MATH）。他們記錄了每個模型在每道題上因格式問題導致答案無法被解析的比例，稱之為"解析失敗率"。

結果顯示，格式錯誤的比例在不同模型、不同任務之間差距懸殊。以數學題為最難駕馭：Llama-3的70B版本（一個參數規模相當大的模型）在數學題上的格式失敗率超過60%，意思是超過一半的回答根本讀不到答案。Qwen-3的32B版本在同類任務上也有約20%的失敗率。相比之下，選擇題和閱讀理解題要好一些，多數中等偏大的模型能達到接近零失敗率。

更有趣的發現是，模型的"家族背景"對格式依從性影響極大。Qwen-3和Gemma-3這兩個系列的模型在閱讀理解抽取題上幾乎能做到完美格式；而同等規模的Llama-3模型卻有相當比例的格式錯誤。這說明，格式依從能力并不完全等同于解題能力，它更多反映了模型訓練時是否被專門打磨過"寫規定格式"這件事。

僅僅是解析失敗還不夠嚴重，研究團隊進一步發現，即便格式正確、答案被成功提取出來，后續的"字面匹配"依然會出錯。以Gemma-3系列在閱讀理解任務上的表現為例：這些模型的格式失敗率幾乎為零，但最終得分依然大幅低于真實水平，原因在于它們喜歡給出稍微詳細一點的答案，比如"Identity Structure Analysis (ISA)"，而標準答案只寫了"Identity Structure Analysis"，字面上不完全匹配，就被判錯了。這就是所謂的"格式依從不等于真實能力"——模型答對了，但評分系統不認賬。

對AI排行榜的影響同樣觸目驚心。以Qwen-3的32B版本為例，在選擇題任務上，由于規則評測的系統性偏差，它的實際排名比真實水平低了整整18位。反過來，Gemma-3的4B版本則虛假地"爬升"了6位。換句話說，現有的AI排行榜，很大程度上是在比誰更會寫規定格式，而不是誰真的更聰明。

二、三種評委，各有短板：現有方法的對比

面對僵硬的規則評測，研究人員其實早已注意到問題所在，并提出過一些改進方向。現有的方案大致分兩大類，研究團隊將其與自己提出的BERT法官一起放在同一個擂臺上比較。

第一類是規則評測，也就是前面提到的正則表達式加字面匹配。它的優點是速度快、成本低、完全確定性，缺點已經說得很清楚——太死板，不懂語義。

第二類是"用大模型來評分"，也就是LLM-as-a-Judge（大語言模型當法官）。簡單來說，就是再找一個AI，把題目、候選答案、標準答案一起喂給它，讓它判斷候選答案對不對。這種方法能理解語義，不在乎格式，聽起來很聰明。但它有兩個明顯的短板：第一，計算成本極高——需要額外運行一個大型AI，本身就要消耗大量資算資源；第二，規模至關重要，研究團隊發現，當大模型法官的參數規模在10億以下時，它的判斷能力甚至不如規則匹配，在選擇題上只能達到約50%的準確率，相當于隨機猜測的水平。

BERT法官走了一條不同的路。它基于一類叫做"雙向編碼器"的輕量級語言理解模型，這類模型的核心特點是能同時從左到右、從右到左地理解一段文本，非常擅長判斷"兩段文字在意思上是否等價"。研究團隊選用了一個叫做EuroBERT 210M的基礎模型（參數規模約2.1億），在約100萬條合成標注的題目-候選答案-標準答案三元組上進行了微調訓練，讓它學會"讀題-讀答案-判斷對錯"這件事。

訓練完成后，BERT法官的推理速度非常快，在一臺普通筆記本電腦（蘋果M1芯片）上，每道題的評判時間約為200毫秒，相比動用大型AI來評判的方案，計算成本降低了數個數量級。

三、訓練BERT法官：如何從零打造一位"懂行的閱卷人"

BERT法官的誕生過程，就像是培訓一位新閱卷老師——你得先給他準備足夠多的例題，讓他在實踐中學會什么叫"答對"、什么叫"答錯"。

首先是數據準備階段。研究團隊讓36個不同的AI模型在15個測試任務上各自作答，收集了海量的原始回答。然后，他們用一個名叫Nemotron-Super-v1.5的強大AI模型扮演"答案裁判"的角色，對每條回答貼上"正確"或"錯誤"的標簽。Nemotron-Super-v1.5是目前公認判斷能力較強的大型模型，被用作自動標注工具。

為了驗證這種自動標注的可靠性，研究團隊專門請來了11位人類評估員，對其中一部分數據進行獨立標注，最終得到3212條人工標注記錄。比對結果顯示，人類評估員與Nemotron-Super-v1.5的一致率高達97.5%，其中數學題類別的一致率更達到98.7%。這個數字說明，用大模型自動標注的方法非常可靠，幾乎和人工標注一樣準確。

訓練數據的構成經過了精心設計。研究團隊從三類任務中各自抽取數據，確保不同類型的題目在訓練集中占比均衡，最終形成約100萬條標注樣本。涵蓋的訓練任務包括：選擇題方向的MMLU、ARC-Easy、ARC-Challenge；閱讀理解方向的SQuAD-v2、HotpotQA；以及數學方向的GSM8K和MATH。其余任務（如CoQA、DROP、AIME、ASDiv等）則完全保留作為測試集，用于評估模型的"跨領域泛化能力"。

訓練過程相對簡單直接：基礎模型EuroBERT 210M在8塊MI250x GPU上跑了一輪完整訓練，總計約20GPU小時，采用標準的二分類交叉熵損失函數，學習率設為0.00002，配合5%的預熱階段和線性衰減調度。整個訓練成本在工業界和學術界都屬于相對低廉的范疇。

訓練完的BERT法官接收一個三元組輸入：題目內容、模型的候選回答、標準參考答案，輸出一個介于0到1之間的概率分數，代表候選答案"答對了"的可信度。在實際使用中，以0.5為分界線，高于0.5判為正確，低于0.5判為錯誤。

四、考場上的真實較量：BERT法官的表現到底有多好

研究團隊在一個涵蓋全部15個任務的大型測試集上，同時評估了三種方法的準確率：規則評測、大模型法官（Qwen-3 0.6B，參數規模約6億）、以及BERT法官。評測標準是：對于每道題的每個模型回答，三種方法給出的"對/錯"判斷，與Nemotron-Super-v1.5的標準判斷相比，準確率是多少。

結果非常清晰。在選擇題類別上，BERT法官幾乎做到了完美：在ARC-Easy上達到99.7%準確率，MMLU上98.5%，TruthfulQA上98.6%，GPQA上93.5%，全面領先規則評測的88%左右。在閱讀理解類別上，BERT法官同樣大幅領先，HotpotQA上達到90.9%（規則評測75.6%），SQuAD-v2上89.3%（規則評測72.3%），CoQA上88.1%（規則評測僅67%，差距超過21個百分點）。在數學類別上，GSM8K達到98.8%（規則評測94.4%），MATH達到93.7%（規則評測73.4%，差距超過20個百分點），AIME24達到90%，ASDiv達到95.3%。

與此同時，大模型法官在小規模（0.6B參數）下的表現極其糟糕。在ARC-Challenge上，它只能達到50.2%的準確率，幾乎等于隨機猜測，遠不如規則評測的89%。在SQuAD-v2上也只有62.5%，同樣低于規則評測的72.3%。這說明，用語言模型來評判答案對錯，對模型規模的要求非常高，規模不夠的話，不如不用。

為了弄清楚大模型法官究竟需要多大規模才能追上BERT法官，研究團隊額外做了一個延伸實驗，測試了Qwen-3和Gemma-3兩個系列從0.6B到32B不等的多種規模，同時還測試了兩種提示方式：一種是直接讓模型輸出"True"或"False"（簡短模式），另一種是允許模型先思考再輸出結論（思維鏈模式）。

結果以計算量（推理浮點運算次數FLOPs）為橫軸、準確率為縱軸畫出對比曲線后，可以看到：BERT法官用極少的計算量就達到了頂級大模型法官（如Qwen-3 32B開啟思維鏈）才能匹敵的準確率。換句話說，BERT法官在性價比上完勝——花小錢，辦大事。

五、走出訓練集的舒適區：BERT法官的泛化能力測試

一個好的"閱卷老師"不應該只會批改自己見過的題型。研究團隊專門設計了兩類泛化測試：跨任務泛化，以及跨模型泛化。

跨任務泛化方面，CoQA、DROP、TruthfulQA、AIME24、AIME25、ASDiv這六個任務完全沒有出現在訓練集中。測試結果顯示，BERT法官在這些從未見過的任務上依然保持了高水準：TruthfulQA達到98.6%，CoQA達到88.1%，ASDiv達到95.3%。這說明，BERT法官并非在死記硬背訓練集里的題目，而是真正學會了判斷"語義等價"這件事的通用規律。

跨模型泛化方面，研究團隊特別測試了四個完全不在訓練數據范圍內的模型家族，包括Ministral-3、LFM-2、EuroLLM和Apertus。他們做了一個對比實驗：一組BERT法官使用包含所有模型輸出的完整訓練集（ID條件），另一組特意把這四個家族的輸出從訓練集中剔除，再重新訓練（OOD條件），然后比較兩種版本在這四個家族模型上的評判準確率差距。

結果顯示，兩種版本的差距極小。以EuroLLM 9B在數學任務上為例，完整訓練版準確率94.5%，剔除后版本94.1%，差距僅0.4個百分點。其他模型家族的差距同樣微乎其微，大多不超過1個百分點。這說明，BERT法官不依賴于見過特定模型的輸出才能正確評判，它具備真正的跨模型泛化能力，可以被放心地用于評估全新發布的模型，而無需重新訓練。

六、更聰明的用法：混合策略、去掉題目、換格式仍然有效

研究團隊還探索了幾種實際部署中可能遇到的變體情況，為實際使用者提供了豐富的工程參考。

第一個變體是"混合策略"。在很多實際場景中，規則評測和BERT法官不一定非得二選一。研究團隊測試了一種折中方案：優先用規則提取答案，如果格式正確就用規則匹配，如果格式解析失敗，再調用BERT法官補救。結果顯示，這種混合策略確實優于純規則方案，但略低于全程使用BERT法官的方案。不過，對于一個格式失敗率只有20%的模型來說，混合策略可以把BERT法官的調用量減少到原本的五分之一，顯著降低計算開銷。

第二個變體是"去掉題目"的版本。BERT法官的默認輸入包含三部分：題目、候選答案、標準答案。但有時候，用戶可能只想比較兩段文本是否等價，不想傳入完整題目（比如在多模態場景中題目含有圖片，而模型目前只處理文本）。研究團隊專門訓練了一個不含題目的版本，測試結果顯示，去掉題目后準確率有所下降，但幅度較為溫和。以選擇題為例，從97.7%降至97.3%；數學題幾乎沒有影響，保持93.9%不變；閱讀理解的影響稍大，從89.2%降至84.2%，這是可以理解的，因為閱讀理解的答案抽取往往依賴題目語境來判斷哪段話才是"正確答案"。

第三個變體是"格式遷移"。研究團隊的訓練數據使用的是"軟格式"——要求模型在答案末尾寫上"Final answer: X"，但可以在前面自由推理。為了測試BERT法官在不同格式下的魯棒性，研究團隊專門收集了一批"自由格式"的回答（完全不規定格式），并交叉測試了兩種訓練版本（格式訓練版 vs 自由格式訓練版）在兩種測試集（格式測試集 vs 自由格式測試集）上的表現。

結果發現，自由格式訓練版在跨格式場景下表現更穩健，例如用自由格式訓練、測試格式化答案時，多個任務的準確率依然很高（選擇題94%、數學93.5%）。這與直覺一致：見過更多樣化格式的模型，泛化能力更強。同時，規則評測在自由格式場景下完全失效（根本無法解析答案），而BERT法官依然能保持合理的準確率，進一步體現了其優勢。

第四個特性是"閾值不敏感"。BERT法官輸出的是一個0到1之間的連續概率值，研究團隊測試了將判斷閾值從0到1遍歷后，各任務準確率的變化曲線。結果顯示，在0.1到0.9的寬泛范圍內，準確率幾乎沒有明顯波動，說明BERT法官對于"對的答案"和"錯的答案"的區分度極高，默認使用0.5作為閾值完全夠用，不需要針對具體任務做精細調參。

第七個發現，也是關于訓練效率的一個好消息：研究團隊發現，即便只用10萬條訓練樣本（而不是默認的100萬條），BERT法官在選擇題和數學題上的表現已經相當出色，繼續增加訓練數據并不能帶來顯著提升。閱讀理解任務因為需要更多上下文理解，從更多數據中獲益稍多一些，但整體而言，BERT法官的訓練效率非常高——10萬條數據對應約2GPU小時的訓練時間，成本極低。

七、評測方式對"考場答案"的影響：不同答題策略的比較

為了確保整個評測體系盡可能公平，研究團隊還系統比較了三種不同的"答題方式"對模型測量性能的影響，這部分工作幫助研究團隊確定了整個實驗體系中最優的答題格式。

第一種是"對數似然"評測，也叫候選選項排名法。這種方式不讓模型直接生成答案，而是把所有選項分別拼在題目后面，計算語言模型認為哪個選項的延續概率最高。這種方法天生不需要格式解析，但研究團隊發現它嚴重壓制了模型的真實能力——在MMLU上比生成式答題低了約22個百分點，在ARC-Challenge上低了近30個百分點。這說明，語言模型在"比較候選項概率"這件事上的表現，遠不如讓它直接思考作答。

第二種是"嚴格格式"，要求模型只能輸出"Final answer: X"，不允許任何額外說明。這種方式雖然方便規則解析，但對需要推理的任務損傷極大：在GSM8K（小學數學）上低了30.5個百分點，在DROP上低了11.8個百分點，根本原因是強制約束格式剝奪了模型進行思維鏈推理的空間。

第三種是"軟格式"，要求模型在回答末尾寫"Final answer: X"，但前面可以自由推理。這種方式兼顧了格式可解析性與推理能力，在大多數任務上表現最好，是研究團隊整個實驗體系的默認設置。還有一種"完全自由"的格式，在部分任務上表現與軟格式相當，但喪失了規則可解析性，依賴BERT法官進行評判。

由此可見，答題格式本身就是一個影響模型測量性能的重要變量，研究團隊的工作也提醒我們：在解讀AI排行榜時，不僅要看分數，還要看這個分數是在什么格式約束下測出來的。

說到底，這項研究揭示了一個被長期忽視的評測盲區：我們以為在公平評測AI的智力，實際上在很多時候是在評測AI寫規定格式的服從度。BERT法官的意義，正在于用一種低成本、高準確率的方式，把這兩件事重新區分開來——讓真正會解題的模型得到應有的分數，讓格式不那么規整但推理正確的答案不再被冤枉打零分。

對于普通用戶來說，這意味著你在看到某款AI模型的評測分數時，需要多問一句："這個分數是用什么方式評出來的？"一個在規則評測下排名靠前的模型，換用更合理的評測方式后，排名可能截然不同，反之亦然。

對于AI研究者來說，這套方法提供了一條低成本的可行路徑——花2GPU小時訓練一個輕量評判模型，就可以獲得比傳統規則評測高得多的準確性，同時比使用大型AI法官便宜數百倍。研究團隊已經將訓練數據、代碼和模型權重全部開源，這意味著任何團隊都可以直接使用或在此基礎上繼續改進。

當然，這項研究也有其清晰的邊界：它主要針對有明確正確答案的任務，比如選擇題、抽取式閱讀理解和數學題。對于開放式寫作、創意生成、代碼質量評估等任務，BERT法官目前還沒有覆蓋。研究團隊也明確指出，將這套框架擴展到多語言場景、多模態輸入以及開放式生成評測，是自然的下一步方向。

有興趣深入了解具體技術細節的讀者，可以通過arXiv編號2604.09497查閱完整論文。

Q&A

Q1：BERT-as-a-Judge和普通正則表達式評測相比，準確率提升有多大？

A：在不同任務上提升幅度差異明顯。在CoQA這類閱讀理解任務上，BERT-as-a-Judge準確率約88%，而正則表達式只有67%，提升超過21個百分點。在MATH數學任務上，BERT-as-a-Judge達到93.7%，正則評測只有73.4%，提升約20個百分點。在多數選擇題任務上，兩者差距相對較小，但BERT-as-a-Judge依然穩定領先，例如在ARC-Challenge上從89%提升至99.4%。

Q2：BERT-as-a-Judge訓練需要多少數據和算力？

A：研究團隊的默認配置使用約100萬條合成標注樣本，在8塊MI250x GPU上訓練約20GPU小時。但他們發現，僅用10萬條數據、約2GPU小時的訓練，就能在選擇題和數學題上達到接近滿分的評判準確率，閱讀理解類任務從更多數據中獲益稍多。訓練完成后，推理速度極快，在普通筆記本電腦上每道題評判約200毫秒。

Q3：用大語言模型來評判答案對錯為什么效果不好？

A：大語言模型擔任評判角色時，對模型規模要求極高。參數規模在6億以下時，判斷準確率甚至不如傳統規則匹配——在選擇題任務上只有約50%準確率，相當于隨機猜測。即使將規模增大到32B并開啟思維鏈推理，其準確率才能追上BERT-as-a-Judge，但此時計算成本已經比BERT-as-a-Judge高出數百倍。簡而言之，大模型評判要么便宜但不準，要么準確但極貴。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.