无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

李飛飛再出手,空間智能的ImageNet來了

0
分享至

ImageNet之后,李飛飛再出手!

李飛飛團隊最新發布ESI-Bench——一個專門用來評測具身空間智能的新基準。



過去的空間智能評測默認給模型最優觀測,而ESI-Bench第一個把觀察者變成行動者,閉合了感知-行動回路。

它為具身空間智能領域提供了一個系統性的評測框架,覆蓋人類核心空間認知能力的四大維度。

論文的核心結論是:現在的AI看圖很厲害,但離「會動、會摸、會主動找答案」的空間智能還差得遠



ESI-Bench是什么

ESI-Bench發布的背景,是由于目前的空間智能benchmark,測的都是「被動感知」。

把一張或幾張圖片扔給模型,問「A物體在B物體的左邊還是右邊」「這個杯子能裝多少水」「抽屜里有沒有東西」,這樣的題目測出來的是模型的視力,而非空間推理能力。

反觀人類是怎么做的?人類會站起來繞到物體背后去看,會把抽屜拉開,會把水倒出來量一量。

這就是ESI-Bench的核心立場:把觀察者變成行動者



現實世界里,智能體必須像人類一樣,主動決定行動、獲取證據,再基于新觀測做下一步判斷。團隊把它稱為「感知-行動回路」(Perception-Action Loop)。

ESI-Bench就是這樣一套超越現有基準的空間智能新評測基準,它包含10個任務類別,29個子類別,3081個任務實例,全部在OmniGibson仿真平臺上構建,場景素材來自BEHAVIOR-1K場景庫。



所有任務圍繞Spelke的四大核心知識系統設計,也就是人類嬰兒天生就具備的空間直覺:物體表征、布局與幾何、數量表征、目標導向行動。

它的關鍵設定在于行動強制。每一道題,AI智能體必須主動行動才能拿到足夠信息作答。模型不能坐在原地等圖片,它要決定往哪走、看什么、拿什么、怎么操作。



舉幾個具體的例子:

比如評測中有一道「剛性容納」題:給定幾個容器和幾個物體,要求把物體全部裝進去。有的容器開口小、有的內部有隔板、有的蓋子需要掀開才能看到真實容量。

模型必須走近、俯身、甚至把容器拿起來從底部觀察,才能判斷能不能裝得下。



還有「液體體積」題:兩個杯子,從外觀看不出容量差異,模型需要把水倒進去測試,或者直接拿起來掂量。

這么一說,大家應該也能直觀感受到這套評測基準的設計理念:

正確答案不在任何單張圖片里,智能體必須主動行動并推理出正確結果

團隊特別指出,與此前工作相比,ESI-Bench在三個地方有所超越:





從空間感知到空間能力:在這里,智能體不僅根據他們能感知到什么來評估,還根據他們是否知道部署哪些具體能力來解決空間任務來評估;

選擇性感知:智能體必須確定哪些觀察值得獲取,優先考慮與任務相關的信息而不是冗余或無信息的輸入;

解決感知歧義:智能體必須通過誤導性觀察進行推理,以推斷隱藏的空間結構和超越直接觀察的潛在物理約束。

測完發現了啥?3個核心結論

團隊拿當前最強的多模態大模型做了全面測試,包括GPT-5和Gemini系列。



這是最主要的實驗結果圖,包含了ESI-Bench在被動感知、主動探索、Oracle三種范式下的各項任務準確率,涵蓋2D+VLM、3D+LLM及人類基線。

核心結論有3個。

第一,感知不是瓶頸,行動才是

好消息是,主動探索確實有效。在沒有額外指令的情況下,智能體自發涌現出多種空間策略。

比如繞到物體背后觀察(move-behind)、切換俯視角度(top-down)、把物體拿起來(pick-up)、把水倒出來驗證(pour-out)。



Gemini 3.1在「部分遮擋」任務上,如果給到最佳觀察視角,準確率從14.6%暴漲到95.1%。

這說明,模型本身的感知能力是好的,只要給對視角,它就能看得懂。



但問題在于,模型自己找不到那個對的視角。

更糟糕的問題在于,被動多視角策略不僅沒用,反而有害。

讓GPT-5多看幾張隨機角度的圖片,空間距離任務的準確率從53.9%降到49.1%。圖看得多了,分反而低了。

GPT-5和Gemini 3.1在主動探索中達到正確答案所需的平均步數



團隊把這個現象命名為「動作盲視」(Action Blindness),一個差動作導致一個差視角,差視角觸發更差動作,形成不可逆的級聯失敗。

在結構圍合任務上,主動探索策略和上帝視角的差距高達49.7%。



也就是說,空間智能的卡點不在于視覺模型不夠強,而是行動策略幾乎為零

第二,3D重建不是萬能藥,不完美的3D比2D更坑。

既然2D被動看圖不行,那上3D呢?這也是當前很多具身智能團隊的路子,先重建三維場景,再在場景圖上做推理。

結果發現,如果給的是真值3D(上帝視角的完美幾何),那確實很強。

Gemini在材質透明任務上,2D版本得分44.0%,3D版本得分60.4%,提升16.4個百分點。在需要精確深度信息的任務上,3D grounding有天然優勢。

但如果是真實重建呢?團隊用當前最先進的VGGT模型做場景重建,再把重建結果喂給推理模型。

結果那叫一個慘不忍睹:幾何配置任務上,2D基線得分27.5%,VGGT重建后的場景圖得分只有9.9%。



這說明,不完美的3D不是中性失敗,它是負向失敗。幾何偽影、遮擋補全錯誤、深度估計偏差,把這些失真信息編碼成場景圖,就等于給推理模型喂了一份「有毒」的輸入。

相比之下,2D雖然信息少,但至少不失真;3D如果重建質量不過關,比2D還不如。

第三,元認知缺陷:模型不知道自己看沒看夠。

論文里還有一組對比實驗,探討了智能體和人類的空間推理能力究竟還有多大差距。

結果發現,盡管人類與模型之間存在感知差距,但該差距可能比普遍認為的要小。

在部分類別中,模型的被動表現甚至能與人類持平或超越人類。

在真實軌跡條件下,Gemini在部分遮擋任務上達到88.4%的準確率,而人類為87.4%;GPT-5在材質透明度任務上達到96.3%,人類則為97.2%。



然而在主動探索場景下,二者的差距急劇顯現。

人類憑借明確的觀察目標和停止時機,表現遠超模型,且主動探索的表現更接近真實軌跡下的被動表現。

例如在物理接觸任務中,人類準確率為88.3%,而 GPT-5僅為 64.2%;在材質透明度任務中,人類準確率為93.6%,Gemini 3.1則為52.3%。

通過分析模型與人類的探索軌跡,團隊發現人類表現出更強的認知謹慎性:在做出判斷前會收集更多觀測,主動尋找可能證偽當前假設的視角,并在模糊情境下降低置信度。

而模型則會過早停止探索,即便證據存在模糊性,也僅在少數步驟后就以高置信度做出判斷,進而產生與場景狀態相悖的空間幻覺。



模型的過度自信,還因動作選擇的方向偏差而加劇:模型不會探查正交角度或尋找能推翻初始印象的視角,而是反復向同一方向移動,積累的是冗余信息而非有效觀測。

團隊把它定性為元認知(metacognition)缺陷:模型不知道自己不知道。

它缺乏一種內建的「懷疑機制」,無法評估當前信息是否充分,無法根據矛盾證據調整信念。

這個問題從根本上區別于感知能力,也是一個更加底層的挑戰,僅靠更強的視覺編碼器或更多的探索步驟無法解決。

論文作者

最后,再介紹一下這項工作的作者團隊。



一作是Yining Hong

Yining Hong,斯坦福大學的博士后,導師為Yejin Choi教授,同時受到Leonidas Guibas教授、吳家俊教授和李飛飛教授的密切指導。



她曾在UCLA獲得計算機科學博士學位,本科就讀于上海交通大學電子工程系。

此外,她還是一名職業音樂家,平時會和樂隊一起巡演,同時也是CVPR 2026的社交主席,負責組織CVPR招待會和音樂表演。

Jiageng Liu(劉家耕),加州大學洛杉磯分校(UCLA)Mobility Lab的博士生。



其本科就讀于浙江大學竺可楨榮譽學院及計算機科學與技術學院的圖靈班,獲人工智能學士學位。

Han Yin,清華大學本科生,斯坦福大學Intern,專業為計算機科學與技術。



李飛飛、吳佳俊(Jiajun Wu)、Yejin Choi,三位斯坦福教授,也同時出現在作者列表里。





另外還有來自西北大學的Manling Li教授和斯坦福的Leonidas Guibas教授參與。


[1]https://arxiv.org/abs/2605.18746
[2]https://esi-bench.github.io/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全球天然氣價格暴漲,中國進口俄氣過剩,溢價三倍含淚轉售日韓印

全球天然氣價格暴漲,中國進口俄氣過剩,溢價三倍含淚轉售日韓印

孤煙暮蟬
2026-05-22 16:06:37
《百年孤獨》最殘忍的一句話:陪你走完這一生的從來不是愛情也不是親情,是你自己都沒發現的靈魂里這兩樣東西

《百年孤獨》最殘忍的一句話:陪你走完這一生的從來不是愛情也不是親情,是你自己都沒發現的靈魂里這兩樣東西

心理觀察局
2026-05-17 08:35:17
零跑汽車:37人集體曠工,誰在逼沉默的工人掀桌子?

零跑汽車:37人集體曠工,誰在逼沉默的工人掀桌子?

新浪財經
2026-05-21 21:09:22
半夜轉雨 明顯降水在下周一前后!

半夜轉雨 明顯降水在下周一前后!

上海預警發布
2026-05-22 17:21:52
港股大模型概念股爆發

港股大模型概念股爆發

第一財經資訊
2026-05-22 13:44:03
35萬的瑪莎拉蒂,刺痛了多少豪車玩家!

35萬的瑪莎拉蒂,刺痛了多少豪車玩家!

蔣東文
2026-05-19 21:24:32
于娜節目公開胖到230斤的原因,和媽媽同住,不吃主食一頓吃5個菜

于娜節目公開胖到230斤的原因,和媽媽同住,不吃主食一頓吃5個菜

一盅情懷
2026-05-21 09:28:42
諾蘭爭議新片《奧德賽》片長曝光!剛公布就被撤除

諾蘭爭議新片《奧德賽》片長曝光!剛公布就被撤除

3DM游戲
2026-05-22 10:48:13
孩子自卑時,鼓勵是虛、比較是害、安慰是廢,真正聰明的父母只做這兩件事

孩子自卑時,鼓勵是虛、比較是害、安慰是廢,真正聰明的父母只做這兩件事

心理觀察局
2026-05-16 10:13:45
許家印認罪!2.4萬億窟窿,家族只拿走500億,其余真金白銀去哪了

許家印認罪!2.4萬億窟窿,家族只拿走500億,其余真金白銀去哪了

蜉蝣說
2026-04-23 09:41:11
誰炸了以色列核基地?48 小時驚天反轉,特朗普不打伊朗了

誰炸了以色列核基地?48 小時驚天反轉,特朗普不打伊朗了

面包夾知識
2026-05-20 18:34:32
歐盟要對中國動手?商務部靈魂拷問:你們的商品哪個不是產能過剩

歐盟要對中國動手?商務部靈魂拷問:你們的商品哪個不是產能過剩

菁菁子衿
2026-05-21 19:58:19
強降雨區域轉移,湖北安徽河南將成暴雨大暴雨集中地,局地累計雨量或具有一定極端性

強降雨區域轉移,湖北安徽河南將成暴雨大暴雨集中地,局地累計雨量或具有一定極端性

極目新聞
2026-05-22 18:30:33
米切爾場下眼神渙散!賽后采訪疑似對哈登微詞 騎士0-2落后陷危局

米切爾場下眼神渙散!賽后采訪疑似對哈登微詞 騎士0-2落后陷危局

顏小白的籃球夢
2026-05-22 11:13:09
生育大局已定:不出意外的話,2026年起中國人口將迎來3大變化

生育大局已定:不出意外的話,2026年起中國人口將迎來3大變化

虎哥閑聊
2026-05-22 10:44:40
修好的水泥路不翼而飛?湖南安化縣:不屬實

修好的水泥路不翼而飛?湖南安化縣:不屬實

界面新聞
2026-05-22 16:40:12
亞歷山大用殘酷的現實告訴雷霆隊,贏得與馬刺的系列賽并非易事

亞歷山大用殘酷的現實告訴雷霆隊,贏得與馬刺的系列賽并非易事

好火子
2026-05-21 22:48:46
啪姐泳裝合集曝光:Gucci上衣配丁字褲,辣度超標

啪姐泳裝合集曝光:Gucci上衣配丁字褲,辣度超標

赴一場山海啊
2026-05-22 01:26:23
認知越低,人越犟

認知越低,人越犟

細說職場
2026-05-19 15:44:21
美媒痛批特朗普:最愚蠢的錯誤,就是將中國定義為"同等級"對手

美媒痛批特朗普:最愚蠢的錯誤,就是將中國定義為"同等級"對手

天啟大世界
2026-05-22 14:55:32
2026-05-22 18:56:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12674文章數 176467關注度
往期回顧 全部

科技要聞

雷軍:輸給特斯拉不丟人

頭條要聞

80后地產女王自殺倒在樓市黎明前 曾稱或面臨刑事責任

頭條要聞

80后地產女王自殺倒在樓市黎明前 曾稱或面臨刑事責任

體育要聞

最糟糕裁判?他想要退役當市長

娛樂要聞

周也戀情曝光!對象身份不簡單

財經要聞

證監會擬對老虎、富途、長橋依法嚴厲處罰

汽車要聞

舒適智能配置滿 昊鉑S600開著沒那么運動也挺好

態度原創

家居
時尚
本地
親子
軍事航空

家居要聞

低調傳承 溫潤沉靜

沒想到今年最火的發型是它,從18歲到80歲都適合

本地新聞

用云錦的方式,打開江蘇南京

親子要聞

國際愛膚日|孩子癢到睡不著、血染秋衣秋褲?警惕特應性皮炎“偷”走童年

軍事要聞

俄羅斯試射具備核打擊能力的高超音速導彈

無障礙瀏覽 進入關懷版