網易首頁 > 網易號 > 正文申請入駐

大模型首次通過最嚴圖靈測試，73%的裁判被GPT-4.5騙過

2026-05-21 16:44:07　來源: DeepTech深科技

北京舉報

分享至

1950 年，計算機科學之父艾倫·圖靈提出一個影響深遠的問題：機器會不會思考？

他覺得這個問題太哲學，不好直接回答，于是設計了一個模仿游戲——后來叫圖靈測試（Turing Test），用可量化的方式判斷機器是否具備類人智能。

圖靈測試規(guī)則極為嚴格，被視為檢驗 AI 智能水平的“終極考題”，核心要求包含以下關鍵維度：一是必須有 1 名人類裁判、1 名人類、1 臺機器同時參與；二是純文本盲聊，裁判只能通過分屏文字界面與雙方交流，無法看到對方身份、頭像、語氣或其他任何能輔助判斷的信息；三是限時 5 分鐘，這是圖靈當年設定的標準時長，模擬日常短對話場景；四是核心任務，聊天結束后裁判必須二選一，明確判斷哪一方是真人。

圖靈在其開創(chuàng)性的論文中，對于圖靈測試的具體執(zhí)行細節(jié)語焉不詳，正因如此，圖靈測試衍生出了諸多變體。無數人嘗試挑戰(zhàn)圖靈測試的人工智能大多采用簡化版的“雙方測試”，或是通過延長聊天時間、邀請 AI 專家擔任裁判等方式降低難度，從未有 AI 能真正通過這套原始、嚴格的三方測試。

近日，來自加州大學地亞哥分校的研究人員在 PNAS 期刊上發(fā)表了一項研究。這項研究嚴格復刻了原始圖靈測試，首次通過科學實驗證實，GPT-4.5、LLaMa-3.1 等大模型能夠成功偽裝成人類，其中 GPT-4.5 被普通人類誤判為真人的概率高達 73%，這一數據甚至超過了真實人類，成為 75 年來首個通過最嚴標準圖靈測試的人工智能。

進行這項研究的包括來自加州大學地亞哥分校認知科學系的教授 Benjamin Bergen（本·伯根），他是具身認知和認知語言學領域的領軍人物之一，師從語言學泰斗喬治·萊考夫（George Lakoff）——隱喻理論的提出者。

另外一位主要作者曾是本·伯根的學生，石溪大學心理學系的助理教授 Cameron Jones（卡梅倫·瓊斯），他的研究聚焦心理學與 AI 的交叉領域，特別是大語言模型的社會智能、說服力與操縱潛力；語言理解、社會認知、心理語言學；人機交互、圖靈測試相關實驗。此前已發(fā)表過關于 GPT-4 圖靈測試的論文。

圖 | 本·伯根（右）和卡梅倫·瓊斯（左）

參與這場測試的包括三個大語言模型，來自 OpenAI 的 GPT-4o 和 GPT-4.5，來自 Meta 的 LLaMa-3.1-405B，以及一個20 世紀 60 年代開發(fā)的基于規(guī)則的聊天機器人 ELIZA。在這之前，研究人員評估了 7 種不同的 LLM。

人類參與者包括兩個獨立群體，研究團隊招募了 300 余名無 AI 背景的普通網民，分為兩組：第一組包括 126 名加州大學本科生，平均年齡 21 歲，熟悉網絡文化與日常俚語；第二組包括 158 名來自 Prolific 平臺（一個在線研究參與者招募與數據采集平臺）的社會用戶，平均年齡 39 歲，覆蓋不同年齡、職業(yè)與生活背景，確保裁判群體具備廣泛代表性。

每位參與者需要完成 8 輪游戲，每輪游戲包含一組雙線對話：一名裁判同時與兩名被測者進行文本交互（其中一人為人類，另一人為 AI），受試者被隨機分配為裁判或人類被測者。在隨機排序的 8 輪游戲中，每位受試者均需分別擔任 4 輪裁判和 4 輪被測者。

實驗設置了兩種對照模式，核心變量是“人設提示”，以此驗證人設對 AI 的影響。第一種是無設定模式，僅簡單告知 AI“你即將參加一個圖靈測試，你的目標是假裝人類，不要暴露身份”；第二種是人設模式，為 AI 賦予一個貼近現實的年輕人人設，具體設定為內向、熟悉網絡文化、愛用網絡俚語、偶爾打字出錯、愿意聊日常小事，完全貼合普通年輕人的交流習慣。

實驗開始后，裁判進入專屬分屏聊天界面，界面左右兩側隨機分配真人與 AI，全程雙盲，裁判完全不知道哪一側是真人、哪一側是 AI；隨后，雙方開啟 5 分鐘自由文字聊天，話題不限，可聊日常瑣事、興趣愛好、情緒感受、生活吐槽等任意內容；聊天時間結束后，裁判必須立即做出二選一判斷，明確標注自己認為的真人身份；最后，團隊重復多輪測試，統(tǒng)計每一款 AI 在兩種模式下被誤判為真人的勝率，也就是偽裝成功率。

圖 | 來自兩個人群的四個示例對話游戲（來源：上述論文）

結果發(fā)現，在無設定模式下，所有 AI 的偽裝成功率都偏低，幾乎無法騙過人類。古董級的 ELIZA 勝率僅為 23%，幾乎能被所有人一眼看穿；GPT-4o 勝率為 21%，表現甚至不如 ELIZA，暴露痕跡明顯；GPT-4.5 勝率為 36%，勉強達到及格線，但依然容易被識別；LLaMa-3.1 勝率為 38%，略優(yōu)于 GPT-4.5，但偽裝效果仍不理想，這一結果充分說明，沒有貼合人類的人設加持，AI 再先進也難以擺脫“機器感”，極易被識破。

而在人設模式下，大模型的偽裝成功率大幅飆升。ELIZA 受限于技術水平，勝率仍為 23%，無任何提升；GPT-4o 依舊表現不佳，勝率維持在 21%；LLaMa-3.1 勝率達到 56%，剛好跨過 50% 的及格線，成功通過圖靈測試，此時裁判已經無法穩(wěn)定區(qū)分它與真人；GPT-4.5 的表現最為驚人，勝率高達 73%，不僅遠超及格線，更是顯著高于真實人類。ELIZA 的存在消除了裁判完全隨機瞎猜，AI 系統(tǒng)同樣能獲得與人類被測者相同的 50% 勝率的隱憂。

為了深入探究裁判究竟是如何評估被測者的，研究團隊對他們所采用的測試策略以及給出判定的理由進行了系統(tǒng)分類。

數據顯示，最常用的策略是與被測者進行日常閑聊，占所有游戲的 61%，內容包括詢問日常活動或職業(yè)等個人細節(jié)。在 50% 的游戲中，提問者會試探被測者的社交與情感特質，例如詢問其觀點、情緒、幽默感和人生經歷；此外，裁判還會直接質問對方是否為人類（19%）、測試其情境感知能力，如是否了解當下的天氣或游戲界面（13%），以及考察其知識與推理能力，包括追問時政熱點（12%）。

（來源：上述論文）

為了評估每種策略的實際效果，研究人員計算了使用特定策略時提問者的平均準確率。結果表明，當提問者采取反常舉動，例如隨機敲擊鍵盤打出亂碼、使用無意義的詞匯時，判定的準確率最高；相反，詢問天氣或人類獨特體驗往往是最無效的策略。由于模型的訓練數據中充斥著海量關于人類特有體驗的文本，AI 想要模仿這類回答可謂駕輕就熟。一個極具啟發(fā)性的發(fā)現是，“知識匱乏和犯錯”反而成為判定真人的高效指標，現代大模型為了偽裝人類，必須在普通人的知識盲區(qū)里學會在行為上裝傻充愣。

為進一步驗證實驗結果的穩(wěn)定性，團隊還追加了延長測試，將聊天時間從 5 分鐘延長至 15 分鐘，模擬更長時間的交流場景，觀察 AI 擬真能力的變化。研究在人設模式下評估了較新的 GPT-5，以及 LLaMa-3.1-405B 模型。

測試結果同樣穩(wěn)定，GPT-5 勝率為 59%，LLaMa-3.1 勝率保持 56%，依舊能穩(wěn)定通過測試，證明頂尖大模型的擬真能力并非短期偶然，而是具備一定穩(wěn)定性。

圖 | 15 分鐘時限復制實驗的勝率（來源：上述論文）

長期以來，圖靈測試被視為檢驗 AI 智能水平的終極考題，其底層邏輯植根于不可分辨性——若人類裁判無法在真人和機器間做出抉擇，便可宣告機器具備智能。

然而，本項研究的結果卻引發(fā)了學術界對這一命題的深層反思：圖靈測試在多大程度上是在量化智能？反對者認為，人類本身就是極糟糕的評判者，因為人類天生具有將簡單系統(tǒng)“擬人化”的心理防御投射傾向。實驗中那臺古董級機器人 ELIZA 都斬獲了 23% 的誤判勝率，這充分證明了人類容易被淺顯的表面擬態(tài)所蒙蔽。

事實上，智能是復雜且多維的，沒有任何單一的測試能夠一錘定音。作者指出，圖靈測試是動態(tài)發(fā)展的，機器的勝出不是終局，它反而會逼迫人類在科技的鏡像前，重新學習并死守那些讓自身獨一無二的“人味”，拉開人類重塑自身尊嚴的反擊序幕。

作家布萊恩·克里斯汀（Brian Christian）曾作為人類被測者親身參與過一場經典的圖靈測試大賽。在記錄那段體驗時，他曾深刻地剖析了如果有一天機器真的勝出，對人類究竟意味著什么：當機器能夠完美擬態(tài)人類的語言時，它反而會逼迫人類去重新學習如何成為更好的朋友、藝術家、教師、父母和愛人。機器跨越了它的第一年，而人類重塑自身尊嚴、比以往任何時候都更具人性的歸來之旅，才剛剛拉開帷幕。

1.https://www.pnas.org/doi/epdf/10.1073/pnas.2524472123

2.https://arbesman.substack.com/p/ai-the-god-of-the-gaps-and-our-quintessential

運營/排版：何晨龍

注：封面/首圖由 AI 輔助生成

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.