網易首頁 > 網易號 > 正文 申請入駐

這不是構建數字心智的方式:推理失敗如何阻礙AI模型實現人類智能

0
分享至

一項新研究的作者認為,現有的大語言模型架構可能無法支撐實現人類級人工智能所需的問題解決能力。



最新研究表明,當今最流行的人工智能工具在架構上的限制,可能會制約它們能夠達到的智能上限。

2月5日發表在預印本平臺arXiv上的一項研究指出,現代大語言模型在其問題解決邏輯中天生容易出現斷裂,即所謂的「推理失敗」。

當大語言模型丟失了可靠完成任務所需的關鍵信息,導致對看似簡單的問題給出錯誤答案時,就發生了推理失敗。該論文是對現有研究的綜述,專門考察了Transformer模型——這是一種神經網絡架構,支撐著包括ChatGPT、Claude和Google Gemini在內的流行AI聊天機器人。

根據大語言模型在「人類最后考試」等評估中的表現,一些科學家認為,底層的神經網絡架構有朝一日可能催生出能夠達到人類級認知的模型。然而,研究人員指出,雖然Transformer架構使大語言模型在語言生成等任務上極為強大,但它也抑制了實現真正人類級推理所需的那種可靠的邏輯過程。

「大語言模型已展現出卓越的推理能力,在廣泛的任務上取得了令人矚目的成果,」研究人員在論文中表示。「盡管取得了這些進步,嚴重的推理失敗依然存在,甚至在看似簡單的場景中也會發生……這種失敗被歸因于模型缺乏整體規劃和深度思考的能力。」

大語言模型的局限性

大語言模型在海量文本數據上進行訓練,通過逐詞預測一個合理的答案來響應用戶的提示。它們通過將稱為「標記」的文本單元串接在一起來實現這一點,這些串接方式基于從訓練數據中學到的統計模式。

Transformer還使用一種稱為「自注意力」的機制來跟蹤長文本序列中單詞和概念之間的關系。自注意力機制加上龐大的訓練數據庫,使得現代聊天機器人非常擅長對用戶提示生成令人信服的答案。

然而,大語言模型并不進行傳統意義上的任何實際「思考」。相反,它們的響應由算法決定。對于需要多步驟真正解決問題的長任務,Transformer可能會丟失關鍵信息,并退回到從訓練數據中學到的模式。這導致了推理失敗。

「這一根本弱點不僅限于基本任務,還擴展到數學問題的組合、多事實聲明驗證以及其他本質上具有組合性的任務,」研究人員在論文中表示。

推理失敗也是為什么大語言模型在被用戶告知回答錯誤后,常常仍然重復同樣的回復;或者對同一問題的不同表述方式給出不同答案——即使被要求逐步解釋其推理過程也是如此。

英國阿蘭·圖靈研究所的高級研究數據科學家費德里科·南尼認為,大語言模型通常呈現為推理的東西,多半只是表面功夫。

「人們發現,如果你告訴大語言模型不要直接回答,而是『一步步思考』并先寫出推理過程,它往往能得到正確答案,」南尼告訴媒體。「但這是一種技巧。這不是人類意義上的真正推理——它仍然只是裝扮成思維鏈的下一詞元預測,」他說。「當我們說這些模型『推理』時,我們實際的意思是,它們寫出一個推理過程——聽起來像是一串合理的推理鏈條。」

現有AI基準測試的不足

研究人員發現,當前評估大語言模型表現的方法在三個關鍵方面存在不足。第一,重新表述提示詞可能會影響結果。第二,基準測試隨著使用次數的增加而退化并受到污染。第三,它們只評估最終結果,而不是模型得出結論所用的推理過程。

這意味著當前的基準測試可能嚴重高估了大語言模型的能力,并低估了它們在現實使用中失敗的頻率。



「我們的立場不是說基準測試有缺陷,而是它們需要進化,」該研究的合著者、加州理工學院的計算機科學與機器人學學生宋培陽通過電子郵件表示。同樣地,南尼表示,基準測試往往會滲入到大語言模型的訓練數據中,這意味著后續的大語言模型會學會如何欺騙這些基準測試。

「除此之外,既然模型已投入生產環境,使用本身也成了一種基準測試,」南尼說。「你把系統擺在用戶面前,看看哪里出問題——這就是新的測試。所以是的,我們需要更好的基準測試,也需要減少依賴AI來檢查AI。但這在實踐中非常困難,因為這些工具已經融入我們的工作方式,直接使用它們極其方便。」

通往通用人工智能的新架構?

與近期其他研究不同,這項新研究并不認為神經網絡方法在追求通用人工智能的道路上是死胡同。相反,研究人員將其比作計算機的早期時代,指出理解大語言模型為何失敗是改進它們的關鍵。

然而,他們確實認為,僅僅在更多數據上訓練模型或擴大模型規模,不太可能獨自解決這個問題。這意味著,開發通用人工智能可能需要一種根本不同的模型構建方法。

「神經網絡,尤其是大語言模型,顯然是通用人工智能圖景的一部分。它們的進展是非凡的,」宋說。「然而,我們的綜述表明,僅靠擴展規模不太可能解決所有推理失敗……[這意味著]達到人類級推理可能需要架構上的創新、更強的世界模型、改進的魯棒性訓練,以及與結構化推理和具身交互的更深度融合。」

南尼對此表示贊同。「從心智哲學的角度來看,我認為我們基本上已經找到了Transformer的極限。它們不是你構建數字心智的方式,」他說。「它們對文本的建模極其出色,以至于幾乎無法分辨一段文字是出自人類還是機器之手。『但這就是它們的本質:語言模型……這種架構的潛力是有限的。』」

如果朋友們喜歡,敬請關注“知新了了”!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1-0,中超第13絕殺中超第6,北京國安終結5輪不勝,張稀哲一劍封喉

1-0,中超第13絕殺中超第6,北京國安終結5輪不勝,張稀哲一劍封喉

側身凌空斬
2026-04-21 20:55:13
霍思燕青島亮相被嘲“又矮又胖”?“整個人顯老氣”。

霍思燕青島亮相被嘲“又矮又胖”?“整個人顯老氣”。

今古深日報
2026-04-21 09:33:52
噩耗!著名演員莫頓因心臟病猝死離世,享年57歲,1周前還有露面

噩耗!著名演員莫頓因心臟病猝死離世,享年57歲,1周前還有露面

素素娛樂
2026-04-21 10:13:12
剛剛!北京時間今天凌晨,中國外交官在聯合國安理會上掀桌子了。

剛剛!北京時間今天凌晨,中國外交官在聯合國安理會上掀桌子了。

牛鍋巴小釩
2026-04-21 17:52:03
對話挪用1700萬的“榜一大姐”:已自首等待警方調查,后來刷票已成任務負擔

對話挪用1700萬的“榜一大姐”:已自首等待警方調查,后來刷票已成任務負擔

封面新聞
2026-04-21 20:38:10
突發!超級地震或致日本國家崩潰,當地專家:富士山或提前噴發

突發!超級地震或致日本國家崩潰,當地專家:富士山或提前噴發

西昆侖Bruce
2026-04-21 18:13:54
跌光340億,電商巨頭炸雷了

跌光340億,電商巨頭炸雷了

投資家
2026-04-21 20:56:20
不插電、沒綠牌!被拋棄的HEV,2026即將席卷全球?

不插電、沒綠牌!被拋棄的HEV,2026即將席卷全球?

新浪財經
2026-04-21 04:53:23
殘疾老兵借廁所被拒后續,官方回應來了,保安被開除,已向其道歉

殘疾老兵借廁所被拒后續,官方回應來了,保安被開除,已向其道歉

千言娛樂記
2026-04-21 14:21:23
格力回應鋁線電機爭議:相關工程機已停產,海信稱靠多三兩銅多500元時代已終結

格力回應鋁線電機爭議:相關工程機已停產,海信稱靠多三兩銅多500元時代已終結

紅星新聞
2026-04-21 20:40:20
再見,皇馬!“億元先生”將轉投曼聯!8500萬頂級后腰“空降”

再見,皇馬!“億元先生”將轉投曼聯!8500萬頂級后腰“空降”

頭狼追球
2026-04-21 09:00:10
1991年中央派人請張學良回大陸,張:回大陸可以,但我有三個要求

1991年中央派人請張學良回大陸,張:回大陸可以,但我有三個要求

史之銘
2026-04-14 18:16:07
“換心”真相大白!向太曝更多內幕,李連杰一夜回春秘密被揭開

“換心”真相大白!向太曝更多內幕,李連杰一夜回春秘密被揭開

楓塵余往逝
2026-03-27 15:35:07
醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
韋德:得知杜蘭特G1不打的時候,我就知道詹姆斯會徹底掌控比賽

韋德:得知杜蘭特G1不打的時候,我就知道詹姆斯會徹底掌控比賽

懂球帝
2026-04-21 12:07:09
上海突然掀桌子:這次救市不太對勁,真正想救的,其實不是樓市

上海突然掀桌子:這次救市不太對勁,真正想救的,其實不是樓市

童童聊娛樂啊
2026-04-21 19:36:44
伊朗:最高領袖完全健康,出于安全考慮,目前錄制穆杰塔巴的任何影像或聲音均不妥當

伊朗:最高領袖完全健康,出于安全考慮,目前錄制穆杰塔巴的任何影像或聲音均不妥當

瀟湘晨報
2026-04-20 22:40:10
笑麻了!長大了竟然能理解反派了,網友:現在真的能共情容嬤嬤

笑麻了!長大了竟然能理解反派了,網友:現在真的能共情容嬤嬤

夜深愛雜談
2026-04-21 20:11:53
突傳大利好,要談成了?

突傳大利好,要談成了?

隔壁老投
2026-04-21 14:39:35
成都蓉城7輪19分!中超歷史第2,僅次7年前國安,西南德比不敗

成都蓉城7輪19分!中超歷史第2,僅次7年前國安,西南德比不敗

奧拜爾
2026-04-21 21:37:33
2026-04-21 22:12:49
知新了了
知新了了
專注于新知、科普的傳播
5960文章數 2272關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

媒體:急于擺脫對華稀土依賴 美企28億美元在巴西搶礦

頭條要聞

媒體:急于擺脫對華稀土依賴 美企28億美元在巴西搶礦

體育要聞

62歲,成為中國足壇最火的人

娛樂要聞

周潤發時隔16年再賣樓,變現數億資產

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

數碼
房產
本地
親子
軍事航空

數碼要聞

OPPO發布影像雙旗艦:專業口袋哈蘇OPPO Find X9 Ultra領銜

房產要聞

年薪40-50萬!海南地產圈還在猛招人

本地新聞

春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

親子要聞

孤獨力有多重要?聰明的父母懂得牢牢把握,影響孩子的人生高度

軍事要聞

特朗普公開對伊開戰真正原因

無障礙瀏覽 進入關懷版