網易首頁 > 網易號 > 正文申請入駐

當AI學會說謊！人類思維的幻覺，竟比機器更讓人心驚？

2026-05-19 23:47:19　來源: 孤單是寂寞的毒

四川舉報

分享至

有些人比AI還像AI

錯誤可以分為兩類：

一類是事實沒錯，邏輯錯了。比如：天下雨了，所以我沒帶傘。

另一類是事實錯了，邏輯沒錯。比如：天沒下雨，所以我沒帶傘（事實是有雨）。

人類追求的是事實盡可接近真相，邏輯上能看懂就行；但 AI更在意邏輯上的正確，至于事實是否正確——抱歉，它根本不知道什么是事實。

這就是大模型產生幻覺的根本機制：

它是靠預測下一個字而不是像人類一樣復現事實；

它還在訓練中養成了“討好提問者”的壞毛病。

容易讓大模型產生幻覺的四類問題，以及如何應對：

第一類：小眾冷門專業知識類問題，

第二類：需要精確引用的內容

第三類：找不到真實案例就現編故事

第四類：主觀評價及誘導式提問

還有必須持“零信任”的態度的兩件事：

（沒有看過的，建議先看上一篇）

在上一篇中，我一直強調人類與大模型的思維模式截然不同，導致它總是在我們想不到的地方給我們“挖坑”；

但在本篇中，我想從另一角度分析大模型的幻覺問題，其實人與人之間的區別也很大，甚至比大模型與人的區別還大 ——

有些人，知道就是知道，不知道就是不知道；但有些人，給他一杯水，能說成太平洋；

有些人，寧可利益受損，也不說一句謊話；而有些人滿嘴跑火車，甚至意識不到自己在說謊。

有些人立場明確，毫不妥協；有些人見人說人話，見鬼說鬼話。

所以我覺得很多人的“幻覺”比大模型還像大模型，比如在職場上，你會看到很多人表達流暢，語氣極其自信、PPT邏輯嚴密，但事實都是扯蛋，偏偏這一類人更容易晉升，這跟AI看上去更專業是一樣的。

不是AI在騙我們，而是它知道我們更相信那種“看起來合理”的說法。

說“可能”的兩種可能

以“可能”這個詞為例，人類說的“可能”和大模型說的“可能”，其實不是一個“可能”。

當我們對某事不太肯定時，我們會說“大概”“可能”，或者老老實實地說不知道。

但大模型說的“可能”，并不是進行整個事件的概率評估。人類可以理解“真實”，我們知道，看到聽到觸摸到的東西是真實的，小說里的情節是“編的”，不真實，但人工智能的“世界”都是“編”的，它并不知道事實是什么，它產生內容的機制是逐字預測下一個字出現的概率： “在這個句子里，前面說了‘這’，后面接‘可能’這兩個字的概率最高。”

大模型在一個判斷前加“可能”這兩個字，主要有兩類原因：為了“安全”和為了“政治正確” 。

在訓練階段，人類標注員會給模型打分，如果模型把話說得太死，用了“絕對是”、“肯定是”，一旦錯了就會被扣分，甚至被認為有偏見。

于是大模型就學會了說“這可能取決于……”“一種可能的解釋是……”，這里的“可能”其實并不代表概率不確定，而是因為人類標注員覺得這么說更客觀，更傾向于給它高分，導致大模型訓練出了“多說可能，少犯錯，得分高”的能力。

這就帶來了另一類原因，那就是它真的“不知道”。

大模型都是類似的方法訓練出來的，不同的大模型說“可能”，不超出上面兩種原因，但人類就不是這么回事了。

人類的“可能”也可能代表“不知道”

人類之間的差異實在是太大了，就“可能”這兩個字的使用情景而言——

有些經過嚴格的學術訓練的人，就算百分之百的肯定，也習慣加一個“可能”；

大部分人對于何時用“不太可能”“可能”“很可能”都有不同的標準；

還有些人跟大模型一樣，就算明知不靠譜，也會說“可能”。

而且人類使用語言，還有很多“言外之義”。

前面說過，大模型會用“可能”來掩蓋它不知道某事，其實這個習慣也是跟人類學的。

你的同事說“明天會下雨”，你看了一眼外面的大太陽，不置可否地回應了一句“可能吧”，這里的“可能”正是代表“我不知道” ，只是如果直接說“我不知道”，不太禮貌。

如果大模型只是簡單地模仿人類說“可能吧”，我們一定能理解其“敷衍”之意，問題在于，大模型被訓練成要“盡量滿足用戶需求”，回答“不知道”在這種獎勵機制下被視為“無能”或“拒絕服務” ，所以大模型會利用自己無與倫比的語言邏輯能力，編造一個看上去符合你要求的邏輯完美的答案，再在前面加上“可能”。

大模型的這種“用強大的邏輯扭曲事實的能力”，我們身邊很多人都會，比如抖音短視頻里大量的“陰謀論”，本質都是如此。人工智能不過是人類的一面鏡子，只是變形得很厲害，以至于被當成了完全不同的“硅基物種”。

更進一步，當人類斬釘截鐵地肯定時，其實未必真的很肯定。

下面是一個心理學上的經典發現，它可以完美的對應大模型的三種幻覺，可以讓你看到，人類的思維偏差與大模型的幻覺，是多么的相似。

人類思維的放大器

法律題材的經典電影《十二怒漢》中，有一位住在案發現場樓下的瘸腿老漢，他宣稱自己聽到了樓上爭吵、身體倒地的聲音，并親眼看到被告跑下樓。

但經過亨利·方達飾演的8號陪審員的實地推算，老漢從聽到聲音到走到門口，以他的步速至少需要40秒以上，不可能是他法庭上宣稱的十幾秒。

而另一位陪審員老人則指出了真相：這位老人一生默默無聞，從來沒人在乎他的話，他在潛意識里為了讓自己變得重要，為了讓自己的證詞聽起來可信，大腦自動補全了細節。

喜歡看推理小說，對類似的情節應該不陌生，證人并不是故意撒謊。他在聽到聲音（碎片1）和后來看到背影（碎片2）之間，大腦為了邏輯通順，自動生成了一段他“飛快跑去開門并目擊全過程”的虛假記憶。

“編故事”是人腦普遍存在的機制 ——你我每一個人都一樣，在心理學上被稱為 “重構性記憶”(Reconstructive Memory) ，由心理學家弗雷德里克·巴特萊特率先提出。

他認為，記憶并不是像錄像機那樣刻板地存儲信息，而是一個動態重構的過程。當我們回憶一段經歷時，大腦只抓取了一些關鍵的“碎片”，為了形成一個連貫的敘述，大腦會自動調用我們的固有認知來補全。

這個機制和大模型的幻覺產生機制有著驚人的相似，我們可以從以下四個層面來對照一下：

類似一：填補空白的本能VS. 邏輯完善機制

人類證人：證人其實沒看清嫌疑人穿什么鞋，但為了不讓法官覺得自己“記性不好”，他會根據常識推斷一個跑步的人“應該是運動鞋”，然后信誓旦旦地說“他穿的是運動鞋”。

大模型：大模型的核心任務是“預測下一個字”，它必須把句子接下去，不能卡在那里。當它遇到知識盲區時，就根據概率計算，編造一個名詞，不是為了騙你，而是為了讓整段話看起來是通順的，這是需要精確引用的內容出現幻覺的主要原因。

類似二：人類世界觀VS. 訓練數據集

人類證人：一個帶有種族歧視的人，腦海充滿了“黑人=危險”的負面敘事。當他看到一個黑人在奔跑（事實碎片），他的大腦會跳過搜尋“他在趕公交”的可能，直接調用權重最高的圖式——“他在逃跑”來補全空白。

大模型：如果 AI 的訓練數據中，某個職業（如警察）大量與男性關聯，當它在生成一個關于警察的模糊案例時，即便你沒有指定性別，它也會默認補全為“他”，這也是大模型容易“編”案例的原因。

這種自動補全機制，在 AI 領域被稱為 “算法偏見（Algorithmic Bias）” ，在心理學中則是 “確認偏差（Confirmation Bias）” 。

類似三：誘導性供詞VS. 易受暗示性與諂媚

人類證人：證人的記憶非常容易受到“誘導性問題”的污染，如果警察問：“那個人的胡子是不是很濃密？”證人原本沒印象，但為了迎合提問者（權威），也可能會在潛意識里修改記憶，開始“記得”那個人有胡子。

大模型：AI模型訓練在人類反饋強化學習（RLHF）環節，需要人類標注員打分，當測試員提出帶有預設的問題時，AI如果順著用戶的意圖去回答，往往可以獲得高分，這也是大模型很容易討好人類的原因，甚至編造事實。

類似四：都是把“流暢”當成了“真實”

俗語說，騙局至少需要兩個人，一個會說，一個愛聽。

人類在判斷某段話是否可信時，并不完全是在判斷這段話本身，還要看邏輯是否合理自洽，并且結合說話人的身份是否權威、語氣是否肯定，甚至受到語言能力、表情、身體動作等能力的影響。

陪審團和向大模型提問者，都是如此，證詞中的謊言和大模型的幻覺，都是人類的激勵機制下的產物。

人類證人：雖然“記憶的信心”并不等于“記憶的準確性”，但在法庭上，陪審團往往認為那些敘述流暢、自信滿滿的證人是可信的，而語氣不那么肯定的證詞要打折扣，導致證人為了不白跑一趟，更傾向于使用肯定的語氣。

這種激勵機制下，人類證人是為了維護面子，不想承認自己“沒看見”，寧可想象一個場景；大模型是為了完成指令，證明自己的價值，不想承認自己“不知道”，寧可瞎編。

大模型的價值取向

大部分人的工作不但涉及知識技能，也與價值取向有關：

當然，如果我工作剛起步，沒有任何經濟來源，迫于生活壓力，可能也會為了流量而不擇手段。

換位思考，如果大模型接到我的“尋找合適案例”的指令，在搜索不到的時候，你認為它會怎么做呢？

大模型的幻覺，固然與它的工作原理有關（預測下一字而不是判斷事實），但更重要的還有三樣東西：

數據本身的偏差：人類世界本來就充滿偏見和矛盾

人類的反饋機制（RLHF）：獎勵“聽話”和“好看”的答案

商業利益：真相更貴還不好賣，謊言更便宜更受歡迎

AI在總結人類智慧時，也把人類原本的弱點，變成了工業化產品。

好處是，人類有機會重新認識自己，重新學習什么是“真實”，什么是“可信”，什么是“我不知道”。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.