![]()
來源:科技日報(bào)
記者:劉霞
據(jù)美國加州大學(xué)圣迭戈分校科學(xué)家開展了一項(xiàng)實(shí)證研究,首次證明現(xiàn)代人工智能(AI)系統(tǒng)通過了圖靈測試。相關(guān)論文發(fā)表于新一期《美國國家科學(xué)院院刊》。
![]()
圖片來源:物理學(xué)家組織網(wǎng)
這是首個嚴(yán)格采用圖靈測試來評估大語言模型的研究。圖靈測試由英國數(shù)學(xué)家、“計(jì)算機(jī)科學(xué)之父”阿蘭·圖靈于1950年提出,是檢驗(yàn)機(jī)器能否逼真模仿人類對話、使人們無法將其與真人區(qū)分開來的重要科學(xué)基準(zhǔn)。
為獲得更具代表性的結(jié)果,團(tuán)隊(duì)研究了兩組人群:一組是美國加州大學(xué)圣迭戈分校本科生;另一組是通過Prolific平臺招募的更廣泛的在線樣本。整個實(shí)驗(yàn)共有近500人參與。
在隨機(jī)對照試驗(yàn)中,參與者同時與另外兩方聊天,一方是人類,另一方是大語言模型。實(shí)驗(yàn)涉及4種模型,包括目前最先進(jìn)的GPT-4.5和LLaMa-3.1-405B,以及較舊的基線模型GPT-4o和ELIZA,后者是20世紀(jì)60年代基于規(guī)則的經(jīng)典聊天機(jī)器人。
結(jié)果顯示,GPT-4.5在73%的情況下被判定為人類,這意味著參與者將其選為“人類”的頻率,明顯高于他們選擇真實(shí)人類參與者的頻率。在同樣提示下,LLaMa-3.1-405B在56%的情況下被判定為“人類”,在統(tǒng)計(jì)學(xué)上與其所比較的真實(shí)人類沒有顯著區(qū)別。基線系統(tǒng)的表現(xiàn)則遜色得多:ELIZA和GPT-4o總體上分別只有23%和21%的情況被選為“人類”。
若給予恰當(dāng)?shù)奶崾荆冗M(jìn)大語言模型能表現(xiàn)出與人類無異的語氣、直率、幽默,乃至易犯的錯誤。科學(xué)家此前已知道,大語言模型幾乎可以輕松生成與任何主題相關(guān)的知識,但這項(xiàng)測試表明,它還能令人信服地展現(xiàn)社會行為特征,這對人們?nèi)绾慰创鼳I具有重大意義。
團(tuán)隊(duì)表示,每個大語言模型都有“性格”,會采用特定的人物設(shè)定和溝通風(fēng)格。大語言模型并非依靠展示知識的能力取勝,而是因其像人類一樣會犯錯而勝出。這些特征,與他們認(rèn)為圖靈所設(shè)想的那種數(shù)學(xué)與邏輯解題能力并不相同。
不過,團(tuán)隊(duì)也發(fā)現(xiàn),若無明確指示,這些模型被誤認(rèn)為人類的概率便會大打折扣:GPT-4.5的獲選率降至36%,LLaMa-3.1降至38%,基線系統(tǒng)ELIZA和GPT-4o被選為人類的概率則更低。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.