2023年,MMLU考到70%算優秀。2025年,頂尖模型普遍93%以上。當第一和第二名的差距不到2%,你測的到底是推理能力,還是系統噪聲?
這不是個別現象。ICLR 2025的LiveBench論文直截了當:現有基準測試正遭遇"天花板效應"——模型分數逼近滿分,同時訓練數據與測試集高度重疊。換句話說,你的模型可能根本沒在思考,只是在背誦答案。
![]()
數據污染的問題比想象中更嚴重。2025年2月一項針對數據污染的調研(arXiv:2502.14425)發現,模型頻繁記憶評測數據,分數虛高,真實泛化能力被掩蓋。如果訓練語料里已經塞進了MMLU的原題,高分毫無意義。
另一個盲區是多語言。MMLU-ProX將測試擴展到29種語言,結果令人清醒:即便是GPT-4o這樣的頂尖模型,非英語場景的準確率也會下跌15%到25%。你看著英文榜單上的"state-of-the-art",部署到全球客服場景時可能直接崩潰。
學界正在嘗試破局。"Beyond Accuracy"研究(arXiv:2505.02706)提出四維評估框架:事實準確性、公平性、魯棒性、透明度——從單一分數轉向行為畫像。生產環境真正需要的,不是排行榜上的數字,而是可預期的失敗模式和邊界。
跑分游戲的終點,是工程現實的起點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.