網易首頁 > 網易號 > 正文 申請入駐

最新研究:當AI脫離語言,最強大模型視覺測試全輸給學前兒童!

0
分享至

如果你覺得多模態大模型已經“什么都會了”,Gemini 、ChatGPT 智商已經超越人類了,那這篇論文可能會給你潑一盆冷水。

日前,一篇來自arXiv 題為《BabyVision:超越語言的視覺推理》的論文給出了一個驚人的結論:如果完全不依賴語言,只考最基礎的視覺能力,今天最強多模態大模型的表現,還不如三歲小孩。


該篇論文作者為 梁晨等來自 UniPat AI、北京大學、清華大學、阿里巴巴、普林斯頓等的 29 名研究員。

他們給這個研究方向設計了一個新基準,名字叫 BabyVision。

顧名可思義,考的不是博士級的復雜推理,而是人類在學會說話之前就已經具備的視覺能力。

過去一年,多模態模型在各種榜單上進步飛快,做數學題、看圖寫代碼、理解專業圖表,甚至在一些大學、博士水平的測試中超過普通人。

但作者指出,這些測試幾乎都有一個共同點,高度依賴語言、知識和文本推理。

于是他們反過來做了一件事,把語言和知識全部剝離,只剩下視覺本身。

BabyVision 一共只有 388 道題,規模不大,但設計得非?酥啤

問題文本被壓縮到極短,平均只有二十多字,不需要任何背景知識。

題目分布在四類最基礎的視覺能力上:細微差異的辨別、視覺路徑追蹤、空間關系判斷,以及圖形和模式識別。


換句話說,就是“哪個更大”、“線走到哪里”、“這個形狀轉一下會變成什么”、“規律下一格是什么”等,這一類問題。

為了避免“文字投機”,作者在數據構建階段專門過濾了所有可能通過語言猜答案的樣本,甚至還請人反復驗證:如果遮住題目文字,只看圖,人類是否仍然可以完成判斷。

作為對照,他們不僅測了模型,還測了人。

測試對象包括 3 歲、6 歲、10 歲、12 歲的兒童,以及成年人。

結果是,人類的表現,幾乎是壓倒性的。

數據顯示:成年人在 BabyVision 上的平均正確率是 94.1%;6 歲兒童已經可以穩定超過 70%。

而當前表現最好的多模態模型,得分只有 49.7%。


而且,這還不是“平均模型”,而是作者測試中最強的那一個Gemini3-Pro-Preview。

換句話說,在這些不需要語言、只需要“看懂”的任務上,最先進的多模態大模型,整體水平還低于學齡前兒童。

更殘酷的是,模型的弱點并不是集中在某一類題型上,而是系統性的。

論文展示了大量錯誤案例。

比如分不清細微形狀差別、無法連續追蹤一條曲線,比如在二維圖像中構建錯誤的三維關系,或者完全誤判一個簡單的視覺規律。


分析原因,作者認為,問題并不只是模型“沒訓練夠”,而是當前多模態架構本身存在結構性瓶頸。

他們認為,大多數多模態模型的工作方式,本質上是“先看圖,再把視覺信息壓縮成語言 token,然后在語言空間里思考”。

這個過程在面對知識型問題時很高效,但對基礎視覺任務是致命的。

因為圖片細節在壓縮過程中會丟失,連續結構會被打斷,空間關系會被離散化,最終導致模型“會說,但看不清”。



為了驗證是不是“語言這一步”限制了能力,論文還提出了一個擴展實驗,叫 BabyVision-Gen。

在這個設置中,模型不需要用文字回答,而是直接在圖像上生成答案,比如畫出正確路徑、圈出不同區域。

結果顯示,在少數任務上,生成式視覺輸出確實能略微改善表現,但整體差距依然巨大。

這也讓論文的結論顯得更加清晰,即當前多模態模型在“像人一樣看”這件事上,遠沒有達到人類水平,哪怕人類還沒學會說話。

要知道,人類與世界的溝通,先有視覺后有語言,比如嬰兒幾個月大就能辨別形狀、追蹤物體。

但大模型在最基礎的視覺感知上近乎的“失明”表現說明,它們并非真正“看見”了圖像, 而是在用語言知識“猜測”答案。

抱著治病救人的態度,研究團隊還嘗試基于可驗證獎勵的強化學習(RLVR) , 對Qwen3-VL-8B-Thinking 進行訓練,來為大模型進行補救。

結果表明,準確率從 13.1% 提升 4.8 個百分點,到了 17.9%,但距離人類水平仍然遙不可及。


這表明,視覺能力的根本缺陷很難通過后訓練彌補,而可能需要架構層面的創新。

但這篇論文的價值,不在于否定多模態模型的進步,而是對多模態的發展路徑提出了條新的思考路徑。

論文明確指出,想要縮小人與模型之間的差距,靠堆數據、堆語言推理很可能不夠,必須重新思考視覺表征、連續空間建模,以及視覺與推理之間的連接方式。

論文地址為:

https://arxiv.org/pdf/2601.06521v1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
抓了那么多貪官,錢呢?跟我們有關系嗎?

抓了那么多貪官,錢呢?跟我們有關系嗎?

細說職場
2026-05-08 22:15:45
可靠耐用+AI全能,惠普戰66 2025銳龍版深度體驗

可靠耐用+AI全能,惠普戰66 2025銳龍版深度體驗

電腦報
2026-04-27 16:41:46
馬斯克:每年休息兩三天,試過睡不到6小時結果腦子很痛效率很低

馬斯克:每年休息兩三天,試過睡不到6小時結果腦子很痛效率很低

頂級大佬思維
2026-05-09 14:23:20
無錫市一游樂場發生一起腳踏風車船側翻事故,調查報告公布:涉事游船不合格,3人被刑事拘留,4名公職人員被處理

無錫市一游樂場發生一起腳踏風車船側翻事故,調查報告公布:涉事游船不合格,3人被刑事拘留,4名公職人員被處理

極目新聞
2026-05-09 08:12:25
女子190元買榴蓮“僅退款”被拘,往返1600公里討公道的河南商家最新發聲:買家才20多歲,她父母想協商和解,我要求依法處理,并公開道歉

女子190元買榴蓮“僅退款”被拘,往返1600公里討公道的河南商家最新發聲:買家才20多歲,她父母想協商和解,我要求依法處理,并公開道歉

大風新聞
2026-05-09 10:00:07
安徽巨星夜崩盤,窮到欠薪卻敢辦大型演唱會,粉絲淪為韭菜太扎心

安徽巨星夜崩盤,窮到欠薪卻敢辦大型演唱會,粉絲淪為韭菜太扎心

法老不說教
2026-05-09 15:11:16
原廣州軍區副司令員兼南海艦隊司令員王永國逝世,享年87歲

原廣州軍區副司令員兼南海艦隊司令員王永國逝世,享年87歲

澎湃新聞
2026-05-09 12:08:29
89歲謝賢被CoCo爆料,分手原因:他身體跟不上我,張柏芝也被牽連

89歲謝賢被CoCo爆料,分手原因:他身體跟不上我,張柏芝也被牽連

好賢觀史記
2026-05-08 15:57:30
以游客身份入境,未經許可拍攝!8名中國人在泰國拍短劇被捕

以游客身份入境,未經許可拍攝!8名中國人在泰國拍短劇被捕

大象新聞
2026-05-09 13:54:19
昨晚漲到想辭職了

昨晚漲到想辭職了

販財局
2026-05-09 09:21:00
“德國駕校”事件:他們自稱司機,把女性稱為汽車,迷藥稱為汽油,當受害者因藥物而失去意識后,則被稱為死豬。

“德國駕!笔录核麄冏苑Q司機,把女性稱為汽車,迷藥稱為汽油,當受害者因藥物而失去意識后,則被稱為死豬。

貼小君
2026-05-09 00:04:11
央視拒付天價轉播費僅48小時,難堪的一幕發生,鄭欽文也被拉下水

央視拒付天價轉播費僅48小時,難堪的一幕發生,鄭欽文也被拉下水

混沌錄
2026-05-09 16:18:09
同樣“糊弄消費者”的套路,在國外直接挨捶了

同樣“糊弄消費者”的套路,在國外直接挨捶了

走讀新生
2026-05-09 11:21:16
劉楚恬:2歲出道年入百萬,因長相甜美被禁止整容,如今長什么樣

劉楚恬:2歲出道年入百萬,因長相甜美被禁止整容,如今長什么樣

蹲坑看世界
2026-05-07 15:09:16
國產“新偉哥”!效力是西地那非8倍,副作用卻更少

國產“新偉哥”!效力是西地那非8倍,副作用卻更少

鬼菜生活
2026-05-09 11:20:07
“4只皮皮蝦1035元”門店停業,標價牌撤下椅子堆疊,店內監控提交相關部門,店主病逝后家屬已回老家;三亞將發布詳細調查報告

“4只皮皮蝦1035元”門店停業,標價牌撤下椅子堆疊,店內監控提交相關部門,店主病逝后家屬已回老家;三亞將發布詳細調查報告

大象新聞
2026-05-09 14:46:04
SK海力士人均將分320萬元:“帶飛”周邊房價,員工地位超越醫生律師;CPU三巨頭年內市值增6.4萬億元;美伊連續兩天在霍爾木茲海峽交火|一周國際財經

SK海力士人均將分320萬元:“帶飛”周邊房價,員工地位超越醫生律師;CPU三巨頭年內市值增6.4萬億元;美伊連續兩天在霍爾木茲海峽交火|一周國際財經

每日經濟新聞
2026-05-09 16:48:15
德國出局后,邱黨不忍了!炮轟國際乒聯:這樣的賽制,意義何在?

德國出局后,邱黨不忍了!炮轟國際乒聯:這樣的賽制,意義何在?

十點街球體育
2026-05-09 15:57:44
外賣小哥冒死沖進火場救火 被物業收取50元“滅火器使用費”

外賣小哥冒死沖進火場救火 被物業收取50元“滅火器使用費”

閃電新聞
2026-05-09 09:31:06
衡水中學的清北人數徹底崩了!巔峰期275人,跌至2025年的45人…

衡水中學的清北人數徹底崩了!巔峰期275人,跌至2025年的45人…

火山詩話
2026-05-08 17:44:41
2026-05-09 19:16:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
503文章數 74關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

數碼
教育
藝術
房產
公開課

數碼要聞

當貝2S Ultra:AI智養+干濕分離+全色域燈,養魚一步到位

教育要聞

商學院地理位置怎么影響求職?雷丁與北部城市的差距,比你想的大

藝術要聞

齊白石 紫藤蜜蜂

房產要聞

低價甩賣!?谶@個地標商業,無人接盤!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版