无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

李飛飛再出手,空間智能的ImageNet來了

0
分享至

ImageNet之后,李飛飛再出手!

李飛飛團隊最新發布ESI-Bench——一個專門用來評測具身空間智能的新基準。



過去的空間智能評測默認給模型最優觀測,而ESI-Bench第一個把觀察者變成行動者,閉合了感知-行動回路。

它為具身空間智能領域提供了一個系統性的評測框架,覆蓋人類核心空間認知能力的四大維度。

論文的核心結論是:現在的AI看圖很厲害,但離「會動、會摸、會主動找答案」的空間智能還差得遠



ESI-Bench是什么

ESI-Bench發布的背景,是由于目前的空間智能benchmark,測的都是「被動感知」。

把一張或幾張圖片扔給模型,問「A物體在B物體的左邊還是右邊」「這個杯子能裝多少水」「抽屜里有沒有東西」,這樣的題目測出來的是模型的視力,而非空間推理能力。

反觀人類是怎么做的?人類會站起來繞到物體背后去看,會把抽屜拉開,會把水倒出來量一量。

這就是ESI-Bench的核心立場:把觀察者變成行動者



現實世界里,智能體必須像人類一樣,主動決定行動、獲取證據,再基于新觀測做下一步判斷。團隊把它稱為「感知-行動回路」(Perception-Action Loop)。

ESI-Bench就是這樣一套超越現有基準的空間智能新評測基準,它包含10個任務類別,29個子類別,3081個任務實例,全部在OmniGibson仿真平臺上構建,場景素材來自BEHAVIOR-1K場景庫。



所有任務圍繞Spelke的四大核心知識系統設計,也就是人類嬰兒天生就具備的空間直覺:物體表征、布局與幾何、數量表征、目標導向行動。

它的關鍵設定在于行動強制。每一道題,AI智能體必須主動行動才能拿到足夠信息作答。模型不能坐在原地等圖片,它要決定往哪走、看什么、拿什么、怎么操作。



舉幾個具體的例子:

比如評測中有一道「剛性容納」題:給定幾個容器和幾個物體,要求把物體全部裝進去。有的容器開口小、有的內部有隔板、有的蓋子需要掀開才能看到真實容量。

模型必須走近、俯身、甚至把容器拿起來從底部觀察,才能判斷能不能裝得下。



還有「液體體積」題:兩個杯子,從外觀看不出容量差異,模型需要把水倒進去測試,或者直接拿起來掂量。

這么一說,大家應該也能直觀感受到這套評測基準的設計理念:

正確答案不在任何單張圖片里,智能體必須主動行動并推理出正確結果

團隊特別指出,與此前工作相比,ESI-Bench在三個地方有所超越:





從空間感知到空間能力:在這里,智能體不僅根據他們能感知到什么來評估,還根據他們是否知道部署哪些具體能力來解決空間任務來評估;

選擇性感知:智能體必須確定哪些觀察值得獲取,優先考慮與任務相關的信息而不是冗余或無信息的輸入;

解決感知歧義:智能體必須通過誤導性觀察進行推理,以推斷隱藏的空間結構和超越直接觀察的潛在物理約束。

測完發現了啥?3個核心結論

團隊拿當前最強的多模態大模型做了全面測試,包括GPT-5和Gemini系列。



這是最主要的實驗結果圖,包含了ESI-Bench在被動感知、主動探索、Oracle三種范式下的各項任務準確率,涵蓋2D+VLM、3D+LLM及人類基線。

核心結論有3個。

第一,感知不是瓶頸,行動才是

好消息是,主動探索確實有效。在沒有額外指令的情況下,智能體自發涌現出多種空間策略。

比如繞到物體背后觀察(move-behind)、切換俯視角度(top-down)、把物體拿起來(pick-up)、把水倒出來驗證(pour-out)。



Gemini 3.1在「部分遮擋」任務上,如果給到最佳觀察視角,準確率從14.6%暴漲到95.1%。

這說明,模型本身的感知能力是好的,只要給對視角,它就能看得懂。



但問題在于,模型自己找不到那個對的視角。

更糟糕的問題在于,被動多視角策略不僅沒用,反而有害。

讓GPT-5多看幾張隨機角度的圖片,空間距離任務的準確率從53.9%降到49.1%。圖看得多了,分反而低了。

GPT-5和Gemini 3.1在主動探索中達到正確答案所需的平均步數



團隊把這個現象命名為「動作盲視」(Action Blindness),一個差動作導致一個差視角,差視角觸發更差動作,形成不可逆的級聯失敗。

在結構圍合任務上,主動探索策略和上帝視角的差距高達49.7%。



也就是說,空間智能的卡點不在于視覺模型不夠強,而是行動策略幾乎為零

第二,3D重建不是萬能藥,不完美的3D比2D更坑。

既然2D被動看圖不行,那上3D呢?這也是當前很多具身智能團隊的路子,先重建三維場景,再在場景圖上做推理。

結果發現,如果給的是真值3D(上帝視角的完美幾何),那確實很強。

Gemini在材質透明任務上,2D版本得分44.0%,3D版本得分60.4%,提升16.4個百分點。在需要精確深度信息的任務上,3D grounding有天然優勢。

但如果是真實重建呢?團隊用當前最先進的VGGT模型做場景重建,再把重建結果喂給推理模型。

結果那叫一個慘不忍睹:幾何配置任務上,2D基線得分27.5%,VGGT重建后的場景圖得分只有9.9%。



這說明,不完美的3D不是中性失敗,它是負向失敗。幾何偽影、遮擋補全錯誤、深度估計偏差,把這些失真信息編碼成場景圖,就等于給推理模型喂了一份「有毒」的輸入。

相比之下,2D雖然信息少,但至少不失真;3D如果重建質量不過關,比2D還不如。

第三,元認知缺陷:模型不知道自己看沒看夠。

論文里還有一組對比實驗,探討了智能體和人類的空間推理能力究竟還有多大差距。

結果發現,盡管人類與模型之間存在感知差距,但該差距可能比普遍認為的要小。

在部分類別中,模型的被動表現甚至能與人類持平或超越人類。

在真實軌跡條件下,Gemini在部分遮擋任務上達到88.4%的準確率,而人類為87.4%;GPT-5在材質透明度任務上達到96.3%,人類則為97.2%。



然而在主動探索場景下,二者的差距急劇顯現。

人類憑借明確的觀察目標和停止時機,表現遠超模型,且主動探索的表現更接近真實軌跡下的被動表現。

例如在物理接觸任務中,人類準確率為88.3%,而 GPT-5僅為 64.2%;在材質透明度任務中,人類準確率為93.6%,Gemini 3.1則為52.3%。

通過分析模型與人類的探索軌跡,團隊發現人類表現出更強的認知謹慎性:在做出判斷前會收集更多觀測,主動尋找可能證偽當前假設的視角,并在模糊情境下降低置信度。

而模型則會過早停止探索,即便證據存在模糊性,也僅在少數步驟后就以高置信度做出判斷,進而產生與場景狀態相悖的空間幻覺。



模型的過度自信,還因動作選擇的方向偏差而加劇:模型不會探查正交角度或尋找能推翻初始印象的視角,而是反復向同一方向移動,積累的是冗余信息而非有效觀測。

團隊把它定性為元認知(metacognition)缺陷:模型不知道自己不知道。

它缺乏一種內建的「懷疑機制」,無法評估當前信息是否充分,無法根據矛盾證據調整信念。

這個問題從根本上區別于感知能力,也是一個更加底層的挑戰,僅靠更強的視覺編碼器或更多的探索步驟無法解決。

論文作者

最后,再介紹一下這項工作的作者團隊。



一作是Yining Hong

Yining Hong,斯坦福大學的博士后,導師為Yejin Choi教授,同時受到Leonidas Guibas教授、吳家俊教授和李飛飛教授的密切指導。



她曾在UCLA獲得計算機科學博士學位,本科就讀于上海交通大學電子工程系。

此外,她還是一名職業音樂家,平時會和樂隊一起巡演,同時也是CVPR 2026的社交主席,負責組織CVPR招待會和音樂表演。

Jiageng Liu(劉家耕),加州大學洛杉磯分校(UCLA)Mobility Lab的博士生。



其本科就讀于浙江大學竺可楨榮譽學院及計算機科學與技術學院的圖靈班,獲人工智能學士學位。

Han Yin,清華大學本科生,斯坦福大學Intern,專業為計算機科學與技術。



李飛飛、吳佳俊(Jiajun Wu)、Yejin Choi,三位斯坦福教授,也同時出現在作者列表里。





另外還有來自西北大學的Manling Li教授和斯坦福的Leonidas Guibas教授參與。


[1]https://arxiv.org/abs/2605.18746
[2]https://esi-bench.github.io/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳數首談14年婚姻,盲目聽從丈夫安排,身患重病后現狀如何?

陳數首談14年婚姻,盲目聽從丈夫安排,身患重病后現狀如何?

瑛派兒老黃
2026-05-30 20:23:51
毒性堪比砒霜!正大量上市,一旦發苦趕緊吐掉!醫生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦發苦趕緊吐掉!醫生:煮熟也有毒

路醫生健康科普
2026-05-30 20:15:03
女子車禍住院遭男醫生侵犯后續,細節不堪入目,院方最新回應來了

女子車禍住院遭男醫生侵犯后續,細節不堪入目,院方最新回應來了

可愛的巴比龍
2026-05-30 10:07:23
重磅消息!開始放水了?

重磅消息!開始放水了?

混知房產
2026-05-30 07:36:26
06年男子打工借宿同學家,被同學母親一眼看中,意外改變了他一生

06年男子打工借宿同學家,被同學母親一眼看中,意外改變了他一生

小月文史
2025-03-11 18:44:56
日本全境調兵直逼臺海,連夜轉移12萬居民,表面避難實則清空戰場

日本全境調兵直逼臺海,連夜轉移12萬居民,表面避難實則清空戰場

紀中百大事
2026-05-31 09:36:03
韓國邁出關鍵一步:正式啟動核潛艇計劃!旁邊的日本怕要坐不住了

韓國邁出關鍵一步:正式啟動核潛艇計劃!旁邊的日本怕要坐不住了

老誡科普
2026-05-29 22:13:52
中國沒給面子,普京回國后沉默一周認清現實,終究找上哈薩克斯坦

中國沒給面子,普京回國后沉默一周認清現實,終究找上哈薩克斯坦

小陸搞笑日常
2026-05-31 04:35:20
杭州一大樓半年外賣被偷126次,民警用了這一招,一個月來再也沒丟過

杭州一大樓半年外賣被偷126次,民警用了這一招,一個月來再也沒丟過

都市快報橙柿互動
2026-05-30 17:40:21
張雪變于東來“迷弟”,直播間里豪刷3萬元成“榜一大哥”,直言:我可能成為不了您,但有信心做到您的一半

張雪變于東來“迷弟”,直播間里豪刷3萬元成“榜一大哥”,直言:我可能成為不了您,但有信心做到您的一半

極目新聞
2026-05-30 10:33:33
烏克蘭拆解“榛樹”導彈,結果震驚西方,七十年代古董為何能破盾

烏克蘭拆解“榛樹”導彈,結果震驚西方,七十年代古董為何能破盾

通鑒史智
2026-05-31 10:01:04
比亞迪吹爆璇璣A3:完全自研、中國最強!評論區一點面子都不給

比亞迪吹爆璇璣A3:完全自研、中國最強!評論區一點面子都不給

譚談社會
2026-05-29 16:29:54
英國公布的圓明園被毀前照片,美如仙境,引發世界關注

英國公布的圓明園被毀前照片,美如仙境,引發世界關注

賤議你讀史
2026-05-23 15:23:34
被人事開除后,我誰也沒告訴,董事長得知后卻:誰把我妹辭了?

被人事開除后,我誰也沒告訴,董事長得知后卻:誰把我妹辭了?

麥子情感故事
2026-05-30 17:09:16
5月31日,人社部2026年養老金調整公布了嗎?高于6000元不漲了嗎

5月31日,人社部2026年養老金調整公布了嗎?高于6000元不漲了嗎

社保小達人
2026-05-31 09:49:47
從1-2至3-2!北京國安絕境大逆轉,法比奧創紀錄,重慶3分鐘丟2球

從1-2至3-2!北京國安絕境大逆轉,法比奧創紀錄,重慶3分鐘丟2球

汪星人喲
2026-05-30 22:02:12
固態電池神話破滅在即?中科院重大突破將改寫2026電池江湖

固態電池神話破滅在即?中科院重大突破將改寫2026電池江湖

徐云流浪中國
2026-05-30 18:37:49
極端高溫下,莫迪勸印度人多喝水,印度人破防大罵:我們沒水喝!

極端高溫下,莫迪勸印度人多喝水,印度人破防大罵:我們沒水喝!

觀史搜尋著
2026-05-30 11:57:25
現任孩子沒拿到繼承權,前妻姐真是贏麻了!

現任孩子沒拿到繼承權,前妻姐真是贏麻了!

BenSir本色說
2026-05-30 22:02:27
18歲翻墻離家從軍,父親:我就當你死了!23年后一封急信讓他淚崩

18歲翻墻離家從軍,父親:我就當你死了!23年后一封急信讓他淚崩

磊子講史
2026-05-26 11:55:22
2026-05-31 10:47:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12710文章數 176474關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

稻城亞丁景區是否有權在省道上"設卡" 央媒調查

頭條要聞

稻城亞丁景區是否有權在省道上"設卡" 央媒調查

體育要聞

巴黎再度捧起歐冠獎杯 槍手眾將黯然神傷

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

字節跳動的 "一盤大棋"

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

家居
房產
旅游
手機
軍事航空

家居要聞

云棲 舒展如流云

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

旅游要聞

重磅劇透!300+海外旅行商齊聚北京,新體驗帶動新消費!——2026北京入境旅游發展大會6月1日高能啟幕,五大板塊搶先看!

手機要聞

nova十周年大作!華為nova 16系列下周亮相:頂流代言+麒麟9系芯片

軍事要聞

美防長參加"香會" 就美中關系最新表態

無障礙瀏覽 進入關懷版