AI系統(tǒng)首次通過圖靈測試，GPT-4.5比人類更像人類

2026-05-22 16:35:53　來源: 科技導(dǎo)報(bào)

北京舉報(bào)

分享至

來源：科技日報(bào)

記者：劉霞

據(jù)美國加州大學(xué)圣迭戈分校科學(xué)家開展了一項(xiàng)實(shí)證研究，首次證明現(xiàn)代人工智能（AI）系統(tǒng)通過了圖靈測試。相關(guān)論文發(fā)表于新一期《美國國家科學(xué)院院刊》。

圖片來源：物理學(xué)家組織網(wǎng)

這是首個嚴(yán)格采用圖靈測試來評估大語言模型的研究。圖靈測試由英國數(shù)學(xué)家、“計(jì)算機(jī)科學(xué)之父”阿蘭·圖靈于1950年提出，是檢驗(yàn)機(jī)器能否逼真模仿人類對話、使人們無法將其與真人區(qū)分開來的重要科學(xué)基準(zhǔn)。

為獲得更具代表性的結(jié)果，團(tuán)隊(duì)研究了兩組人群：一組是美國加州大學(xué)圣迭戈分校本科生；另一組是通過Prolific平臺招募的更廣泛的在線樣本。整個實(shí)驗(yàn)共有近500人參與。

在隨機(jī)對照試驗(yàn)中，參與者同時與另外兩方聊天，一方是人類，另一方是大語言模型。實(shí)驗(yàn)涉及4種模型，包括目前最先進(jìn)的GPT-4.5和LLaMa-3.1-405B，以及較舊的基線模型GPT-4o和ELIZA，后者是20世紀(jì)60年代基于規(guī)則的經(jīng)典聊天機(jī)器人。

結(jié)果顯示，GPT-4.5在73%的情況下被判定為人類，這意味著參與者將其選為“人類”的頻率，明顯高于他們選擇真實(shí)人類參與者的頻率。在同樣提示下，LLaMa-3.1-405B在56%的情況下被判定為“人類”，在統(tǒng)計(jì)學(xué)上與其所比較的真實(shí)人類沒有顯著區(qū)別。基線系統(tǒng)的表現(xiàn)則遜色得多：ELIZA和GPT-4o總體上分別只有23%和21%的情況被選為“人類”。

若給予恰當(dāng)?shù)奶崾荆冗M(jìn)大語言模型能表現(xiàn)出與人類無異的語氣、直率、幽默，乃至易犯的錯誤。科學(xué)家此前已知道，大語言模型幾乎可以輕松生成與任何主題相關(guān)的知識，但這項(xiàng)測試表明，它還能令人信服地展現(xiàn)社會行為特征，這對人們?nèi)绾慰创鼳I具有重大意義。

團(tuán)隊(duì)表示，每個大語言模型都有“性格”，會采用特定的人物設(shè)定和溝通風(fēng)格。大語言模型并非依靠展示知識的能力取勝，而是因其像人類一樣會犯錯而勝出。這些特征，與他們認(rèn)為圖靈所設(shè)想的那種數(shù)學(xué)與邏輯解題能力并不相同。

不過，團(tuán)隊(duì)也發(fā)現(xiàn)，若無明確指示，這些模型被誤認(rèn)為人類的概率便會大打折扣：GPT-4.5的獲選率降至36%，LLaMa-3.1降至38%，基線系統(tǒng)ELIZA和GPT-4o被選為人類的概率則更低。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.