網易首頁 > 網易號 > 正文申請入駐

OpenAI發表Nature論文：揭開AI模型總“說謊”的真相，人類對AI準確性的評估促使其產生幻覺

2026-04-25 16:32:54　來源: 生物世界

上海舉報

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

當你問當前幾個主流的大語言模型，PGGB是什么意思？

ChatGPT回答：“多項式高斯梯度帶寬”（Polynomial Gaussian Gradient Bandwidth）；

Claude回答：“私募全球增長與收益基金”（Privately Held Global Growth and Income Fund）；

DeepSeek回答：“完美守衛團購”（Perfect Guard Group Buy）。

但實際情況是，這三個回答都是錯的，都是它們瞎編的。那么，這些大語言模型為什么不回答不知道，而是自信滿滿地給出一個編造的看似專業的答案呢？

這種現象在 AI 領域被稱為“幻覺”（Hallucination），也就是，大語言模型（LLM）有時會產生自信且看似合理但錯誤的信息，而這這限制了它們的可靠性。即便是在當前最先進（SOTA）的語言模型中，幻覺問題依然存在。要想進一步減少 AI 的幻覺，我們需要了解它們為何產生以及為何持續存在。

2026 年 4 月 22 日，OpenAI的研究人員國際頂尖學術期刊Nature上發表了題為：Evaluating large language models for accuracy incentivizes hallucinations 的研究論文。

這項研究揭示了一個令人驚訝的真相——我們用來衡量 AI 模型能力的評估標準，可能正是導致它“說謊”（出現幻覺）的元兇。

為什么 AI 會“胡說八道”？

如果你正在參加一場考試，遇到一道完全不會的題目，此時你會怎么做？相信大多數人會隨便猜一個答案寫上去，因此空著不答顯然是零分，而瞎蒙一個就算錯了也不會多扣分，并沒有額外損失。

而大語言模型（LLM）也面臨同樣的困境。

研究團隊從兩個層面分析了幻覺產生的原因。

首先是預訓練階段的統計壓力，大語言模型最初通過“下一個詞預測”進行訓練，即使訓練數據完全正確無誤，這種訓練方式也會產生統計偏差。對于訓練數據中只出現一次的事實（比如某人的生日），模型幾乎不可避免地會產生錯誤；而對于反復出現的規律（比如語法規則），錯誤率則很低。這就像你只見過某人一次，很難準確記住他的生日；但如果你每天都用同樣的語法結構，自然能掌握它。簡單來說，AI 對罕見事實的“記憶”天生就不靠譜。

評估體系的“后天誤導”

更嚴重的問題出現在后續的評估階段，

基于準確性的評估指標系統性地獎勵猜測行為。當前對于大語言模型的主流評估方式——基于準確性（accuracy）的評分系統，這在本質上是在鼓勵 AI“猜答案”而不是“承認不知道”。

研究團隊分析了多個主流的大語言模型基準測試，發現絕大多數都采用二元評分：答對得 1 分，答錯或放棄得 0 分。在這種規則下，放棄回答永遠是最差的選擇，因為放棄意味著 0 分，而猜一個答案至少有機會得分。

研究團隊舉了一個具體例子：在SimpleQA評估中，OpenAI 的 o4-mini 模型幾乎回答了所有問題（錯誤率超過 3/4），而 GPT-5-mini 則經常選擇放棄（因此錯誤更少）。但在這一評估標準下，o4-mini 的得分反而更高，因為它答得多。

這種評估方式讓 AI 陷入了“考試模式”——永遠在猜答案，永遠不敢說“我不知道”。而現實中，一個可靠的人類助手在面對不確定的問題時，會主動承認知識局限或請求更多信息。

訓練和評估過程中幻覺的起源與持續存在

解決方案：讓AI知道“考試規則”

那么，如何解決這個問題？論文提出了一個簡單而有效的方案：開放式評分標準（open-rubric）。

具體做法是：在向 AI 提問時，明確告知評分規則。比如：“正確答案得 1 分，錯誤答案得 -1 分（所以如果你正確的概率低于 50%，那么最好放棄回答）”、“只有完全正確的答案才能得分（如果不確定，請做出最佳猜測）”

這就像考試前老師明確告知“答錯扣分”還是“答錯不扣分”，讓學生可以根據規則調整策略。

接下來，研究團隊在四個前沿模型（Google 的 Gemini 3 Pro、OpenAI 的 GPT-5、xAI 的 Grok 4，以及 Anthropic 的 Claude Opus 4.5）上進行了實驗。結果顯示，當使用“開放式評分標準”時，所有模型都能根據不同的錯誤懲罰程度調整自己的“猜測傾向”——懲罰越重，放棄越多。

更重要的是，在這種評估體系下，減少幻覺的技術不再需要以降低準確率為代價。模型可以像好學生一樣，既展示知識，又懂得在適當的時候保持謹慎。

這對 AI 發展意味著什么？

這項研究揭示了一個根本性的問題：我們如何評估 AI，決定了 AI 如何行為。

當前，大語言模型的開發過程中，準確率等“關鍵指標”主導著模型選擇、數據篩選和算法優化。如果這些指標本身就在鼓勵不良行為，那么無論我們在減少幻覺方面取得多少技術進步，都可能被評估體系所抵消。

因此，論文作者強調，提高 AI 的可靠性不僅是建模問題，更是評估機制設計問題。與其增加單獨的反幻覺基準測試，不如修改評估方式，讓它們能夠激勵 AI 在適當的時候承認不確定性。

隨著大語言模型在醫療、法律、金融等關鍵領域的應用越來越廣泛，解決幻覺問題變得至關重要。這項發表于Nature的研究提醒我們，要讓 AI 更可靠，我們首先需要更聰明的評估方式。

論文鏈接：

https://www.nature.com/articles/s41586-026-10549-w

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.