“我在自己產品上做的基準測試幾乎一文不值,除非能證明我讓它難以作弊。”這句話出自開發者Alan Buxton之手。他剛寫完一個公司新聞檢索API,想知道它和同類產品相比幾斤幾兩。麻煩在于,他是作者,天然偏心;更麻煩的是,他打算讓大語言模型來當裁判——模型一旦認出這是“自己人”的作品,打分的時候難免手軟。于是,這場測評還沒開始,就背上了一個致命懷疑:誰會信一個自編自導的分數?
面對這個困境,通常有兩種聲音。一種認為,開發者自己跑測試,數據再漂亮也只是自慰。主觀傾向會滲透進數據集挑選、評價標準甚至結果解讀的每個縫隙,哪怕引入LLM,也只是從人的偏見滑向模型的偏見。另一種聲音則主張,與其因噎廢食,不如在流程里嵌入足夠硬的防作弊機制。只要能讓裁判在不知情、不許和、同一把尺子的條件下打分,結果就有說服力。Buxton顯然是后者,并為此布下三道防線。
第一道防線:賽前徹底匿名。參與評測的五個服務商——Exa、Tavily、Linkup、Perplexity以及他自己的Syracuse——所有名稱在送入模型前會被隨機打亂,代之以字母A到E。每次運行重新隨機,解碼對照表僅在全部評分結束后寫入本地文件。
這意味著裁判不可能知道哪一個字母對應“自家孩子”,哪怕模型出于某種原因想討創建者歡心,也完全找不到討好的對象。Buxton的原話是:“裁判沒辦法偏袒‘我的’,因為它根本不知道哪個是我的。”
匿名化砍斷的是身份信號,但只解決了一半問題。模型仍可能用模棱兩可的評價蒙混過關,比如給出“各有所長,適合不同場景”這類誰也不得罪的結論。于是有了第二道防線:強制排序,禁止和稀泥。
裁判被明確告知,“不同服務商適合不同需求”是不被接受的結論。它必須交出從第1到第5的嚴格排名,每一個負面評價都必須附上一個具體的示例文章作為證據,并且準確描述排名靠后的服務商要奪得第一需要修補哪些具體短板。Buxton認為,這條指令逼著模型咬住可驗證的缺陷,而不是用抽象的質量話術虛晃一槍。這樣,差距就被固定為可核對的條目,不再是一團說不清的印象。
第三道防線則是讓所有人站上同一塊秤上。五個服務商接受完全相同的標準審視,其中包括:精準度,看會不會把無關實體錯誤地算作目標公司;冷僻企業的覆蓋能力;日期準確度;摘要能否在不點擊鏈接的情況下直接可用;來源質量;穿越付費墻的能力;以及幻覺風險。尤其有一條剛性紅線:一個服務商如果返回大量沒有日期或已陳舊的結果,無論其他方面表現多亮眼,都不得排名第一,因為無日期新聞等于不可操作。這套機制真的奏效了嗎?至少基準測試結果誠實得令人欣慰:我的產品在公司新聞上贏了,在行業/區域新聞上居中游,而那些我排在末位的測試報告,批評起來跟說別人一樣刻薄。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.