網易首頁 > 網易號 > 正文申請入駐

自測API如何屏蔽偏見？開發者用3招堵住LLM裁判的嘴

2026-05-30 02:53:09　來源: 算力游俠

北京舉報

分享至

“我在自己產品上做的基準測試幾乎一文不值，除非能證明我讓它難以作弊。”這句話出自開發者Alan Buxton之手。他剛寫完一個公司新聞檢索API，想知道它和同類產品相比幾斤幾兩。麻煩在于，他是作者，天然偏心；更麻煩的是，他打算讓大語言模型來當裁判——模型一旦認出這是“自己人”的作品，打分的時候難免手軟。于是，這場測評還沒開始，就背上了一個致命懷疑：誰會信一個自編自導的分數？

面對這個困境，通常有兩種聲音。一種認為，開發者自己跑測試，數據再漂亮也只是自慰。主觀傾向會滲透進數據集挑選、評價標準甚至結果解讀的每個縫隙，哪怕引入LLM，也只是從人的偏見滑向模型的偏見。另一種聲音則主張，與其因噎廢食，不如在流程里嵌入足夠硬的防作弊機制。只要能讓裁判在不知情、不許和、同一把尺子的條件下打分，結果就有說服力。Buxton顯然是后者，并為此布下三道防線。

第一道防線：賽前徹底匿名。參與評測的五個服務商——Exa、Tavily、Linkup、Perplexity以及他自己的Syracuse——所有名稱在送入模型前會被隨機打亂，代之以字母A到E。每次運行重新隨機，解碼對照表僅在全部評分結束后寫入本地文件。

這意味著裁判不可能知道哪一個字母對應“自家孩子”，哪怕模型出于某種原因想討創建者歡心，也完全找不到討好的對象。Buxton的原話是：“裁判沒辦法偏袒‘我的’，因為它根本不知道哪個是我的。”

匿名化砍斷的是身份信號，但只解決了一半問題。模型仍可能用模棱兩可的評價蒙混過關，比如給出“各有所長，適合不同場景”這類誰也不得罪的結論。于是有了第二道防線：強制排序，禁止和稀泥。

裁判被明確告知，“不同服務商適合不同需求”是不被接受的結論。它必須交出從第1到第5的嚴格排名，每一個負面評價都必須附上一個具體的示例文章作為證據，并且準確描述排名靠后的服務商要奪得第一需要修補哪些具體短板。Buxton認為，這條指令逼著模型咬住可驗證的缺陷，而不是用抽象的質量話術虛晃一槍。這樣，差距就被固定為可核對的條目，不再是一團說不清的印象。

第三道防線則是讓所有人站上同一塊秤上。五個服務商接受完全相同的標準審視，其中包括：精準度，看會不會把無關實體錯誤地算作目標公司；冷僻企業的覆蓋能力；日期準確度；摘要能否在不點擊鏈接的情況下直接可用；來源質量；穿越付費墻的能力；以及幻覺風險。尤其有一條剛性紅線：一個服務商如果返回大量沒有日期或已陳舊的結果，無論其他方面表現多亮眼，都不得排名第一，因為無日期新聞等于不可操作。這套機制真的奏效了嗎？至少基準測試結果誠實得令人欣慰：我的產品在公司新聞上贏了，在行業/區域新聞上居中游，而那些我排在末位的測試報告，批評起來跟說別人一樣刻薄。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.