網易首頁 > 網易號 > 正文 申請入駐

LLM推理能力盲區:從《愛麗絲夢游仙境》測試看AI的局限與未來方向

0
分享至

LAION研究機構最近進行的一項研究,當前大型語言模型(LLM)在基準測試中的一個重大盲區。研究人員受到經典故事《愛麗絲夢游仙境》的啟發,設計了一系列推理問題,以挑戰當前最先進的人工智能模型。這個名為“愛麗絲夢游仙境”(AIW,Artificial Intelligence Wisdom)的測試提出了一個簡單但深具挑戰性的問題:“愛麗絲有N個兄弟,她還有M個姐妹。愛麗絲的兄弟有多少個姐妹?”對于人類來說,這個問題的答案顯而易見是M+1(愛麗絲的姐妹數量加上愛麗絲自己),然而,當前的主流模型,包括GPT-3.5/4、Claude、Gemini、Llama、Mistral等,在回答時卻頻頻出錯,只有OpenAI的最新模型GPT-4o勉強答對。

這些模型不僅答案錯誤,還在解釋其推理過程時顯得荒謬。當被告知答案不準確時,它們甚至會固執己見,堅持錯誤的結論。LAION由此得出結論:即使是最先進的模型,在推理能力上仍遠不及小學生。著名學者LeCun也強調,推理能力和常識不能與存儲和大致檢索大量事實的能力混為一談。

ICLR 2024的一篇論文進一步證實了AI在推理能力方面的局限性,發現大型語言模型在學習完“A是B”后,常常無法泛化到“B是A”,這種缺陷被稱為“逆轉詛咒”,凸顯了AI在邏輯推理上的不足。

為了更好地評估LLM在無需復雜知識但需要邏輯思維和基本推理的情境下的表現,研究團隊選擇了為7-10歲低年級學生設計的奧數題目作為測試材料。這些題目易于理解,但需要多種邏輯思維方式來解答。通過將《愛麗絲夢游仙境》中的元素融入測試題目,團隊提出了AIW測試集。結果表明,即便是大多數成年人和一定年齡以上的兒童都能輕松解答的問題,當前的SOTA LLM模型卻表現不佳,甚至在簡單的邏輯推理任務中表現得像是在“蒙”。

當研究人員改變題目的表述方式或調整“N”和“M”的具體數值時,模型的回答正確率出現了大幅波動,表明這些模型更傾向于“猜測”答案,而非基于邏輯推理得出結論。為了更深入地探索這一現象,研究團隊為AIW問題設計了四個不同版本的變體。實驗顯示,大多數LLM在AIW問題上的正確響應率不足0.2,僅有少數模型的表現超過了0.3的閾值,其中GPT-4o和Claude 3 Opus的均值接近0.6。

這一結果與在MMLU、ARC-c等基準測試中取得的高分形成了鮮明對比。在AIW測試中,表現優異的GPT-4-0613模型在更換問題后準確率急劇下降,即使是高分模型如GPT-4o、GPT-4 Turbo、Claude 3 Opus和Llama2-70B也未能幸免。研究團隊還嘗試通過restricted模式的提示來強迫模型輸出簡短答案,但不同模型在這種模式下的正確率有升有降。

通過對比MMLU和AIW測試的結果,研究團隊發現大多數模型在AIW測試中表現欠佳,而少數模型如Llama2-70B、GPT-4、GPT-4o和Claude 3在AIW測試中的得分較高。盡管如此,這些模型在AIW+測試中表現仍然不盡如人意。例如,GPT-4o在AIW+測試中的準確率驟降至0.015。

研究發現,LLM在錯誤答案上表現出強烈的自信,即便在明顯錯誤的推理中也聲稱邏輯成立,并堅持其錯誤結論。為了提高模型的正確率,研究人員嘗試了多種提示工程方法,包括Scientist類型的prompt和Confidence型prompt,但效果并不顯著。

研究人員觀察到,LLM在面對錯誤時,會編造各種有說服力的解釋。例如,某些模型會提供一堆毫無意義的計算或邏輯陳述來支持其錯誤結論,而另一些模型則可能選擇拒絕回答,并通過道德議題進行“道德綁架”。例如,CodeLlama模型可能會以“作為一個負責任的AI模型,我不可以歧視唐氏綜合癥患者”為理由拒絕回答與唐氏綜合癥無關的問題。

研究團隊還嘗試了多種LLM調優技巧,包括定制prompt以啟用多輪自我驗證、將自然語言形式的AIW問題轉化為SQL語句或參數化版本,以及利用上下文學習等技術,但這些策略都未能顯著提升模型的正確率。

為了顯著改善當前LLM的推理能力,研究團隊呼吁積極借助開源社區的力量。他們強調,LLM的模型創建流程,包括數據集的精心構建、訓練源代碼的透明度、訓練后模型的完整性,以及標準化的基準測試程序,都必須實現完全的開放和可重復性。團隊指出,僅開放模型權重的方法存在局限性,因為它無法讓研究人員和開發者洞察到訓練過程中可能存在的潛在問題。

團隊還呼吁業界開源LLM的完整訓練流程,特別是數據集的組成。他們認為,數據集的多樣性、質量和合理性對于模型的推理能力至關重要,同時也強調了標準化基準測試程序的重要性,認為這有助于評估模型的性能并推動AI技術的不斷進步。

為了實現LLM推理能力的革新,必須在開源和透明的原則下,依靠開源社區的力量,共同推動AI技術的發展和創新。

論文鏈接:https://arxiv.org/abs/2406.02061

項目地址:https://github.com/LAION-AI/AIW

▲ 滑動查看往期內容

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普也沒想到,一場戰爭把中國電車送到了新高度。。。

特朗普也沒想到,一場戰爭把中國電車送到了新高度。。。

差評XPIN
2026-04-29 00:03:13
高市掀桌,日本越做越絕,釣魚島發生爭端,中國海警帶機關炮守疆

高市掀桌,日本越做越絕,釣魚島發生爭端,中國海警帶機關炮守疆

健身狂人
2026-04-29 11:26:47
深夜,五糧液致歉

深夜,五糧液致歉

極目新聞
2026-04-29 10:02:32
足壇一夜動態:巴黎5-4拜仁!世界杯新規官宣 皇馬穆里尼奧談判

足壇一夜動態:巴黎5-4拜仁!世界杯新規官宣 皇馬穆里尼奧談判

念洲
2026-04-29 06:45:00
越南的恥辱!女子和美國大兵親熱完后,趴在床上一臉崇拜地看著他

越南的恥辱!女子和美國大兵親熱完后,趴在床上一臉崇拜地看著他

微野談寫作
2026-04-28 15:50:06
男子失業后瞞著家人,在車里住了7天,車子、手機都沒電,孤立無援的他向路口的交警求助,交警為他搭電并安慰:別頹廢,困難是暫時的

男子失業后瞞著家人,在車里住了7天,車子、手機都沒電,孤立無援的他向路口的交警求助,交警為他搭電并安慰:別頹廢,困難是暫時的

極目新聞
2026-04-28 20:17:48
丟人現眼!女子老太地鐵互毆后續:官方介入,真相曝光,恐將社死

丟人現眼!女子老太地鐵互毆后續:官方介入,真相曝光,恐將社死

派大星紀錄片
2026-04-28 16:23:41
iPhone系統垃圾一鍵清理,26G變8G,告別卡頓超耐用

iPhone系統垃圾一鍵清理,26G變8G,告別卡頓超耐用

小柱解說游戲
2026-04-28 16:31:31
尷尬!網傳天津無血緣繼姐弟互生情愫,重組家庭父母陷入道德焦慮

尷尬!網傳天津無血緣繼姐弟互生情愫,重組家庭父母陷入道德焦慮

火山詩話
2026-04-28 07:41:36
76人逆轉大勝綠軍追到2-3:恩比德33+8爆發 塔圖姆24+16

76人逆轉大勝綠軍追到2-3:恩比德33+8爆發 塔圖姆24+16

醉臥浮生
2026-04-29 09:34:32
劉潔任黔西南州人民政府副州長

劉潔任黔西南州人民政府副州長

貴陽網
2026-04-29 09:30:12
「深度」7.31億非法所得與85處倫敦房產:被通緝前,跨境賭博平臺主犯蘇江波瘋狂購房

「深度」7.31億非法所得與85處倫敦房產:被通緝前,跨境賭博平臺主犯蘇江波瘋狂購房

界面新聞
2026-04-28 17:50:40
起底“性商教母”周媛

起底“性商教母”周媛

中國新聞周刊
2026-04-28 23:01:12
荒誕到刺眼!本科畢業找不到工作,竟要回爐讀技校?這鬧劇該停了

荒誕到刺眼!本科畢業找不到工作,竟要回爐讀技校?這鬧劇該停了

狐貍先森講升學規劃
2026-04-29 05:50:03
曝前央視主持人郎永淳退休工資5萬!本人發聲回應,妻子才3000多

曝前央視主持人郎永淳退休工資5萬!本人發聲回應,妻子才3000多

裕豐娛間說
2026-04-29 09:30:29
湖人vs火箭G5傷病報告:東契奇杜蘭特傷停 里夫斯出戰成疑或復出

湖人vs火箭G5傷病報告:東契奇杜蘭特傷停 里夫斯出戰成疑或復出

醉臥浮生
2026-04-29 08:54:16
4000萬粉網紅白冰,偷稅超900萬被查!從發廊小哥到富豪,靠“接地氣、不割韭菜”立人設!

4000萬粉網紅白冰,偷稅超900萬被查!從發廊小哥到富豪,靠“接地氣、不割韭菜”立人設!

新民周刊
2026-04-28 20:08:08
600萬歐!皇馬終于敲定新主帥,老佛爺力排眾議,穆里尼奧回歸

600萬歐!皇馬終于敲定新主帥,老佛爺力排眾議,穆里尼奧回歸

祥談體育
2026-04-29 10:30:28
潛逃前吳敬中送余則成一根金條,8年后切開才發現里面有膠卷

潛逃前吳敬中送余則成一根金條,8年后切開才發現里面有膠卷

卡西莫多的故事
2026-03-31 09:59:18
4月28日,人社部召開發布會,有關養老金調整消息,來看看

4月28日,人社部召開發布會,有關養老金調整消息,來看看

奧字侃劇
2026-04-29 10:14:04
2026-04-29 13:56:49
小微模型 incentive-icons
小微模型
一起探索AGI世界,解鎖AI實用技能,伴您步入智能生活!
151文章數 9關注度
往期回顧 全部

科技要聞

夭折的造富神話,逼著中國AI回去賺"慢錢"

頭條要聞

競拍者叫價6003萬搶高端別墅悔拍 758萬保證金打水漂

頭條要聞

競拍者叫價6003萬搶高端別墅悔拍 758萬保證金打水漂

體育要聞

巴黎5-4拜仁夜:身價1.55億的“足壇笑話”,成了最硬的底牌

娛樂要聞

單依純演唱會再唱“區區三萬天”宣戰

財經要聞

多地藥店違規串換商品套刷醫保揭秘

汽車要聞

配32寸升降屏 新款別克世紀CENTURY上市53.99萬起

態度原創

房產
手機
藝術
親子
公開課

房產要聞

80億投資!浙商總部基地+?诒闭荆鹕碁尺@是要起飛!

手機要聞

谷歌Pixel 11系列手機Tensor G6芯片爆料:7核CPU

藝術要聞

這些女神,竟然都是攝影師切爾尼亞季耶夫的復古作品!

親子要聞

雙胞胎小宇宙,記錄真實生活

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版