ImageNet之后,李飛飛再出手!
李飛飛團隊最新發布ESI-Bench——一個專門用來評測具身空間智能的新基準。
![]()
過去的空間智能評測默認給模型最優觀測,而ESI-Bench第一個把觀察者變成行動者,閉合了感知-行動回路。
它為具身空間智能領域提供了一個系統性的評測框架,覆蓋人類核心空間認知能力的四大維度。
論文的核心結論是:現在的AI看圖很厲害,但離「會動、會摸、會主動找答案」的空間智能還差得遠
![]()
ESI-Bench是什么
ESI-Bench發布的背景,是由于目前的空間智能benchmark,測的都是「被動感知」。
把一張或幾張圖片扔給模型,問「A物體在B物體的左邊還是右邊」「這個杯子能裝多少水」「抽屜里有沒有東西」,這樣的題目測出來的是模型的視力,而非空間推理能力。
反觀人類是怎么做的?人類會站起來繞到物體背后去看,會把抽屜拉開,會把水倒出來量一量。
這就是ESI-Bench的核心立場:把觀察者變成行動者
![]()
現實世界里,智能體必須像人類一樣,主動決定行動、獲取證據,再基于新觀測做下一步判斷。團隊把它稱為「感知-行動回路」(Perception-Action Loop)。
ESI-Bench就是這樣一套超越現有基準的空間智能新評測基準,它包含10個任務類別,29個子類別,3081個任務實例,全部在OmniGibson仿真平臺上構建,場景素材來自BEHAVIOR-1K場景庫。
![]()
所有任務圍繞Spelke的四大核心知識系統設計,也就是人類嬰兒天生就具備的空間直覺:物體表征、布局與幾何、數量表征、目標導向行動。
它的關鍵設定在于行動強制。每一道題,AI智能體必須主動行動才能拿到足夠信息作答。模型不能坐在原地等圖片,它要決定往哪走、看什么、拿什么、怎么操作。
![]()
舉幾個具體的例子:
比如評測中有一道「剛性容納」題:給定幾個容器和幾個物體,要求把物體全部裝進去。有的容器開口小、有的內部有隔板、有的蓋子需要掀開才能看到真實容量。
模型必須走近、俯身、甚至把容器拿起來從底部觀察,才能判斷能不能裝得下。
![]()
還有「液體體積」題:兩個杯子,從外觀看不出容量差異,模型需要把水倒進去測試,或者直接拿起來掂量。
這么一說,大家應該也能直觀感受到這套評測基準的設計理念:
正確答案不在任何單張圖片里,智能體必須主動行動并推理出正確結果
團隊特別指出,與此前工作相比,ESI-Bench在三個地方有所超越:
![]()
![]()
從空間感知到空間能力:在這里,智能體不僅根據他們能感知到什么來評估,還根據他們是否知道部署哪些具體能力來解決空間任務來評估;
選擇性感知:智能體必須確定哪些觀察值得獲取,優先考慮與任務相關的信息而不是冗余或無信息的輸入;
解決感知歧義:智能體必須通過誤導性觀察進行推理,以推斷隱藏的空間結構和超越直接觀察的潛在物理約束。
測完發現了啥?3個核心結論
團隊拿當前最強的多模態大模型做了全面測試,包括GPT-5和Gemini系列。
![]()
這是最主要的實驗結果圖,包含了ESI-Bench在被動感知、主動探索、Oracle三種范式下的各項任務準確率,涵蓋2D+VLM、3D+LLM及人類基線。
核心結論有3個。
第一,感知不是瓶頸,行動才是
好消息是,主動探索確實有效。在沒有額外指令的情況下,智能體自發涌現出多種空間策略。
比如繞到物體背后觀察(move-behind)、切換俯視角度(top-down)、把物體拿起來(pick-up)、把水倒出來驗證(pour-out)。
![]()
Gemini 3.1在「部分遮擋」任務上,如果給到最佳觀察視角,準確率從14.6%暴漲到95.1%。
這說明,模型本身的感知能力是好的,只要給對視角,它就能看得懂。
![]()
但問題在于,模型自己找不到那個對的視角。
更糟糕的問題在于,被動多視角策略不僅沒用,反而有害。
讓GPT-5多看幾張隨機角度的圖片,空間距離任務的準確率從53.9%降到49.1%。圖看得多了,分反而低了。
GPT-5和Gemini 3.1在主動探索中達到正確答案所需的平均步數
![]()
團隊把這個現象命名為「動作盲視」(Action Blindness),一個差動作導致一個差視角,差視角觸發更差動作,形成不可逆的級聯失敗。
在結構圍合任務上,主動探索策略和上帝視角的差距高達49.7%。
![]()
也就是說,空間智能的卡點不在于視覺模型不夠強,而是行動策略幾乎為零
第二,3D重建不是萬能藥,不完美的3D比2D更坑。
既然2D被動看圖不行,那上3D呢?這也是當前很多具身智能團隊的路子,先重建三維場景,再在場景圖上做推理。
結果發現,如果給的是真值3D(上帝視角的完美幾何),那確實很強。
Gemini在材質透明任務上,2D版本得分44.0%,3D版本得分60.4%,提升16.4個百分點。在需要精確深度信息的任務上,3D grounding有天然優勢。
但如果是真實重建呢?團隊用當前最先進的VGGT模型做場景重建,再把重建結果喂給推理模型。
結果那叫一個慘不忍睹:幾何配置任務上,2D基線得分27.5%,VGGT重建后的場景圖得分只有9.9%。
![]()
這說明,不完美的3D不是中性失敗,它是負向失敗。幾何偽影、遮擋補全錯誤、深度估計偏差,把這些失真信息編碼成場景圖,就等于給推理模型喂了一份「有毒」的輸入。
相比之下,2D雖然信息少,但至少不失真;3D如果重建質量不過關,比2D還不如。
第三,元認知缺陷:模型不知道自己看沒看夠。
論文里還有一組對比實驗,探討了智能體和人類的空間推理能力究竟還有多大差距。
結果發現,盡管人類與模型之間存在感知差距,但該差距可能比普遍認為的要小。
在部分類別中,模型的被動表現甚至能與人類持平或超越人類。
在真實軌跡條件下,Gemini在部分遮擋任務上達到88.4%的準確率,而人類為87.4%;GPT-5在材質透明度任務上達到96.3%,人類則為97.2%。
![]()
然而在主動探索場景下,二者的差距急劇顯現。
人類憑借明確的觀察目標和停止時機,表現遠超模型,且主動探索的表現更接近真實軌跡下的被動表現。
例如在物理接觸任務中,人類準確率為88.3%,而 GPT-5僅為 64.2%;在材質透明度任務中,人類準確率為93.6%,Gemini 3.1則為52.3%。
通過分析模型與人類的探索軌跡,團隊發現人類表現出更強的認知謹慎性:在做出判斷前會收集更多觀測,主動尋找可能證偽當前假設的視角,并在模糊情境下降低置信度。
而模型則會過早停止探索,即便證據存在模糊性,也僅在少數步驟后就以高置信度做出判斷,進而產生與場景狀態相悖的空間幻覺。
![]()
模型的過度自信,還因動作選擇的方向偏差而加劇:模型不會探查正交角度或尋找能推翻初始印象的視角,而是反復向同一方向移動,積累的是冗余信息而非有效觀測。
團隊把它定性為元認知(metacognition)缺陷:模型不知道自己不知道。
它缺乏一種內建的「懷疑機制」,無法評估當前信息是否充分,無法根據矛盾證據調整信念。
這個問題從根本上區別于感知能力,也是一個更加底層的挑戰,僅靠更強的視覺編碼器或更多的探索步驟無法解決。
論文作者
最后,再介紹一下這項工作的作者團隊。
![]()
一作是Yining Hong
Yining Hong,斯坦福大學的博士后,導師為Yejin Choi教授,同時受到Leonidas Guibas教授、吳家俊教授和李飛飛教授的密切指導。
![]()
她曾在UCLA獲得計算機科學博士學位,本科就讀于上海交通大學電子工程系。
此外,她還是一名職業音樂家,平時會和樂隊一起巡演,同時也是CVPR 2026的社交主席,負責組織CVPR招待會和音樂表演。
Jiageng Liu(劉家耕),加州大學洛杉磯分校(UCLA)Mobility Lab的博士生。
![]()
其本科就讀于浙江大學竺可楨榮譽學院及計算機科學與技術學院的圖靈班,獲人工智能學士學位。
Han Yin,清華大學本科生,斯坦福大學Intern,專業為計算機科學與技術。
![]()
李飛飛、吳佳俊(Jiajun Wu)、Yejin Choi,三位斯坦福教授,也同時出現在作者列表里。
![]()
![]()
另外還有來自西北大學的Manling Li教授和斯坦福的Leonidas Guibas教授參與。
[1]https://arxiv.org/abs/2605.18746
[2]https://esi-bench.github.io/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.