前沿模型的競賽不斷加速,人工智能領域的使用者正在用戶和開發者兩個層面,將忠誠度分散到各大主要供應商身上。人們普遍接受推理結果存在差異這一常態,但大家通常會認為,在最高層面上,前沿大語言模型至少應該在基礎性的、現實世界的事實上達成一致。
然而,實際情況并非如此。
![]()
本月,事實核查平臺Lenz發布的一項分析報告揭示了一個令人困惑的現象:在1000條近期真實用戶提交的事實核查聲明中——這些聲明都是關于現實世界的某種論斷,并被用戶認定為真——由五個前沿大語言模型組成的評判小組,在67%的聲明上出現了意見分裂。這意味著,至少有一個模型不同意多數派的裁決,或者壓根沒有形成明確的多數意見。
這五個模型分別是GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro結合搜索功能的版本,以及Sonar Pro。它們各自拿到同一條現實世界的論斷,并需要從一個包含四個選項的評判標準中選定一個標簽:真實、基本真實、具有誤導性、或虛假。由于每條論斷只能有一個正確的標簽,評審團中的任何分歧都意味著,至少有一個模型在標簽上存在不一致的判斷。
根據Lenz團隊的說法,特意選擇這五個模型進行評測,是因為該組合覆蓋了當前生產級人工智能系統中常見的多種推理模式。在技術領域,推理模式涵蓋了從對延遲敏感的實時推理,到對吞吐量敏感、資源受限和可擴展的批量推理。通常,它被劃分為低延遲高吞吐量推理(例如用于交互式聊天機器人)和離線或批量推理。在后者中,系統會先積累數據,然后再進行優化成本的分析。
領導這項研究的是Lenz的創始人科斯塔·喬丹諾夫,他也是總部位于保加利亞索非亞的IT咨詢與軟件工程集團Wiser的聯合創始人。他在接受科技媒體The New Stack采訪時表示,團隊在研究中使用的論斷,都是自2026年2月15日以來,用戶在Lenz平臺上進行過事實核查的真實內容。
喬丹諾夫透露,他們已經排除了私人聲明、近似重復的聲明,以及任何包含個人身份信息的聲明。他強調了這個數據集的獨特之處:“有趣的地方在于,與標準的基準測試問題不同,這些模型在訓練期間從未見過這些論斷。也就是說,這是一個來自科學、醫療、政治、法律等多個領域的、全新的真實世界語料庫,話題都是人們真正關心并會去核實的事情。”
除了那個令人印象深刻的67%整體分歧率之外,數據還指向了更深層次的不一致:其中34%的論斷出現了實質性分歧,即模型們的判定之間至少相差了兩個標簽等級。更引人注目的是,有21%的論斷是截然對立的,意味著在評判小組中,至少有一個模型判定其為虛假,同時至少有一個模型判定其為真實。從這個層面開始,人們可以更清晰地看到,即便是最前沿的人工智能,在理解我們這個世界的基本事實時,路徑也遠未統一。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.