无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<p id="6z9dd"></p>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

李飛飛再出手，空間智能的ImageNet來了

2026-05-22 16:22:31　來源: 量子位

北京舉報

0

分享至

ImageNet之后，李飛飛再出手！

李飛飛團隊最新發布ESI-Bench——一個專門用來評測具身空間智能的新基準。

過去的空間智能評測默認給模型最優觀測，而ESI-Bench第一個把觀察者變成行動者，閉合了感知-行動回路。

它為具身空間智能領域提供了一個系統性的評測框架，覆蓋人類核心空間認知能力的四大維度。

論文的核心結論是：現在的AI看圖很厲害，但離「會動、會摸、會主動找答案」的空間智能還差得遠

ESI-Bench是什么

ESI-Bench發布的背景，是由于目前的空間智能benchmark，測的都是「被動感知」。

把一張或幾張圖片扔給模型，問「A物體在B物體的左邊還是右邊」「這個杯子能裝多少水」「抽屜里有沒有東西」，這樣的題目測出來的是模型的視力，而非空間推理能力。

反觀人類是怎么做的？人類會站起來繞到物體背后去看，會把抽屜拉開，會把水倒出來量一量。

這就是ESI-Bench的核心立場：把觀察者變成行動者

現實世界里，智能體必須像人類一樣，主動決定行動、獲取證據，再基于新觀測做下一步判斷。團隊把它稱為「感知-行動回路」（Perception-Action Loop）。

ESI-Bench就是這樣一套超越現有基準的空間智能新評測基準，它包含10個任務類別，29個子類別，3081個任務實例，全部在OmniGibson仿真平臺上構建，場景素材來自BEHAVIOR-1K場景庫。

所有任務圍繞Spelke的四大核心知識系統設計，也就是人類嬰兒天生就具備的空間直覺：物體表征、布局與幾何、數量表征、目標導向行動。

它的關鍵設定在于行動強制。每一道題，AI智能體必須主動行動才能拿到足夠信息作答。模型不能坐在原地等圖片，它要決定往哪走、看什么、拿什么、怎么操作。

舉幾個具體的例子：

比如評測中有一道「剛性容納」題：給定幾個容器和幾個物體，要求把物體全部裝進去。有的容器開口小、有的內部有隔板、有的蓋子需要掀開才能看到真實容量。

模型必須走近、俯身、甚至把容器拿起來從底部觀察，才能判斷能不能裝得下。

還有「液體體積」題：兩個杯子，從外觀看不出容量差異，模型需要把水倒進去測試，或者直接拿起來掂量。

這么一說，大家應該也能直觀感受到這套評測基準的設計理念：

正確答案不在任何單張圖片里，智能體必須主動行動并推理出正確結果

團隊特別指出，與此前工作相比，ESI-Bench在三個地方有所超越：

從空間感知到空間能力：在這里，智能體不僅根據他們能感知到什么來評估，還根據他們是否知道部署哪些具體能力來解決空間任務來評估；

選擇性感知：智能體必須確定哪些觀察值得獲取，優先考慮與任務相關的信息而不是冗余或無信息的輸入；

解決感知歧義：智能體必須通過誤導性觀察進行推理，以推斷隱藏的空間結構和超越直接觀察的潛在物理約束。

測完發現了啥？3個核心結論

團隊拿當前最強的多模態大模型做了全面測試，包括GPT-5和Gemini系列。

這是最主要的實驗結果圖，包含了ESI-Bench在被動感知、主動探索、Oracle三種范式下的各項任務準確率，涵蓋2D+VLM、3D+LLM及人類基線。

核心結論有3個。

第一，感知不是瓶頸，行動才是

好消息是，主動探索確實有效。在沒有額外指令的情況下，智能體自發涌現出多種空間策略。

比如繞到物體背后觀察（move-behind）、切換俯視角度（top-down）、把物體拿起來（pick-up）、把水倒出來驗證（pour-out）。

Gemini 3.1在「部分遮擋」任務上，如果給到最佳觀察視角，準確率從14.6%暴漲到95.1%。

這說明，模型本身的感知能力是好的，只要給對視角，它就能看得懂。

但問題在于，模型自己找不到那個對的視角。

更糟糕的問題在于，被動多視角策略不僅沒用，反而有害。

讓GPT-5多看幾張隨機角度的圖片，空間距離任務的準確率從53.9%降到49.1%。圖看得多了，分反而低了。

GPT-5和Gemini 3.1在主動探索中達到正確答案所需的平均步數

團隊把這個現象命名為「動作盲視」（Action Blindness），一個差動作導致一個差視角，差視角觸發更差動作，形成不可逆的級聯失敗。

在結構圍合任務上，主動探索策略和上帝視角的差距高達49.7%。

也就是說，空間智能的卡點不在于視覺模型不夠強，而是行動策略幾乎為零

第二，3D重建不是萬能藥，不完美的3D比2D更坑。

既然2D被動看圖不行，那上3D呢？這也是當前很多具身智能團隊的路子，先重建三維場景，再在場景圖上做推理。

結果發現，如果給的是真值3D（上帝視角的完美幾何），那確實很強。

Gemini在材質透明任務上，2D版本得分44.0%，3D版本得分60.4%，提升16.4個百分點。在需要精確深度信息的任務上，3D grounding有天然優勢。

但如果是真實重建呢？團隊用當前最先進的VGGT模型做場景重建，再把重建結果喂給推理模型。

結果那叫一個慘不忍睹：幾何配置任務上，2D基線得分27.5%，VGGT重建后的場景圖得分只有9.9%。

這說明，不完美的3D不是中性失敗，它是負向失敗。幾何偽影、遮擋補全錯誤、深度估計偏差，把這些失真信息編碼成場景圖，就等于給推理模型喂了一份「有毒」的輸入。

相比之下，2D雖然信息少，但至少不失真；3D如果重建質量不過關，比2D還不如。

第三，元認知缺陷：模型不知道自己看沒看夠。

論文里還有一組對比實驗，探討了智能體和人類的空間推理能力究竟還有多大差距。

結果發現，盡管人類與模型之間存在感知差距，但該差距可能比普遍認為的要小。

在部分類別中，模型的被動表現甚至能與人類持平或超越人類。

在真實軌跡條件下，Gemini在部分遮擋任務上達到88.4%的準確率，而人類為87.4%；GPT-5在材質透明度任務上達到96.3%，人類則為97.2%。

然而在主動探索場景下，二者的差距急劇顯現。

人類憑借明確的觀察目標和停止時機，表現遠超模型，且主動探索的表現更接近真實軌跡下的被動表現。

例如在物理接觸任務中，人類準確率為88.3%，而 GPT-5僅為 64.2%；在材質透明度任務中，人類準確率為93.6%，Gemini 3.1則為52.3%。

通過分析模型與人類的探索軌跡，團隊發現人類表現出更強的認知謹慎性：在做出判斷前會收集更多觀測，主動尋找可能證偽當前假設的視角，并在模糊情境下降低置信度。

而模型則會過早停止探索，即便證據存在模糊性，也僅在少數步驟后就以高置信度做出判斷，進而產生與場景狀態相悖的空間幻覺。

模型的過度自信，還因動作選擇的方向偏差而加劇：模型不會探查正交角度或尋找能推翻初始印象的視角，而是反復向同一方向移動，積累的是冗余信息而非有效觀測。

團隊把它定性為元認知（metacognition）缺陷：模型不知道自己不知道。

它缺乏一種內建的「懷疑機制」，無法評估當前信息是否充分，無法根據矛盾證據調整信念。

這個問題從根本上區別于感知能力，也是一個更加底層的挑戰，僅靠更強的視覺編碼器或更多的探索步驟無法解決。

論文作者

最后，再介紹一下這項工作的作者團隊。

一作是Yining Hong

Yining Hong，斯坦福大學的博士后，導師為Yejin Choi教授，同時受到Leonidas Guibas教授、吳家俊教授和李飛飛教授的密切指導。

她曾在UCLA獲得計算機科學博士學位，本科就讀于上海交通大學電子工程系。

此外，她還是一名職業音樂家，平時會和樂隊一起巡演，同時也是CVPR 2026的社交主席，負責組織CVPR招待會和音樂表演。

Jiageng Liu（劉家耕），加州大學洛杉磯分校（UCLA）Mobility Lab的博士生。

其本科就讀于浙江大學竺可楨榮譽學院及計算機科學與技術學院的圖靈班，獲人工智能學士學位。

Han Yin，清華大學本科生，斯坦福大學Intern，專業為計算機科學與技術。

李飛飛、吳佳俊（Jiajun Wu）、Yejin Choi，三位斯坦福教授，也同時出現在作者列表里。

另外還有來自西北大學的Manling Li教授和斯坦福的Leonidas Guibas教授參與。

[1]https://arxiv.org/abs/2605.18746
[2]https://esi-bench.github.io/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

李飛飛李曼玲團隊發布空間理論：AI的空間智能還在三歲小孩階段

DeepTech深科技 2026-03-31 15:06:46
0 跟貼 0
00后兄弟輟學創業，盯上Sora弱點，3個月融資2900萬

智東西 2026-01-04 18:09:55
1 跟貼 1

李飛飛做AI游戲拿了4個億，像刷抖音一樣玩游戲

量子位 2026-05-09 18:53:55
0 跟貼 0

IF 20+ 雙一區 TOP 期刊，國人發文第一，主編為中國學者，專注生物活性材料領域

生物學霸 2026-05-30 17:11:38
0 跟貼 0
寧德時代吳凱：今年將有一系列鈉離子電池產品實現規模化量產

每日經濟新聞 2026-05-30 14:41:08
4 跟貼 4

女子吃了隔夜見手青連撞兩輛車，回家后還對著空氣輔導作業

南陽日報 2026-05-30 17:19:03
304 跟貼 304

新一輪大模型要來了！Blackwell加持下，AI能力更強了？

華爾街見聞官方 2026-05-29 14:46:14
4 跟貼 4
孩子去“光頭強家”，對著床上被子一頭栽下去，沒想到是模型！

笑出豬叫的趣聞閣 2026-05-26 17:08:43
1 跟貼 1

登頂HuggingFace日榜！γ-World：把世界模型從單機打到聯機

機器之心Pro 2026-05-30 12:39:17
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
迪迪蝦來了！比亞迪全車智能體正式落地

唐長老KAI 2026-05-31 04:49:45
0 跟貼 0
【半佛】讓小孩學AI屬于浪費時間？

硬核的半佛仙人 2026-05-27 12:58:43
0 跟貼 0
這不是煙囪！三維拆解發電廠冷卻塔工作原理

宇宙科學探索 2026-05-29 15:40:45
14 跟貼 14
創意設計版WorkBuddy來了！騰訊發布智能體創意工作室Miora

量子位 2026-05-29 16:30:49
3 跟貼 3
扎哈羅娃：俄將對羅馬尼亞迅速采取報復措施

參考消息 2026-05-30 11:58:56
28651 跟貼 28651
智能體從「單兵作戰」到「精銳團隊」 -1

機器之心Pro 2026-04-28 16:55:35
0 跟貼 0
英偉達提出Gamma-World：世界模型從「一個人玩」到「多人共處」

量子位 2026-05-30 11:16:51
0 跟貼 0
大變局！智能體可以直接炒股了，美國知名券商宣布支持AI代理炒股

每日經濟新聞 2026-05-28 23:21:27
0 跟貼 0
集采百元一盒藥，藥店竟賣3960元，為何賣出如此高價？記者調查

新京報 2026-05-30 11:58:09
4257 跟貼 4257
"香會"現場！他們排隊與中方代表打招呼

看看新聞Knews 2026-05-31 01:05:40
34 跟貼 34
財務部搞AI，先別造超人，雇個項目經理

我是一個養蝦人 2026-05-31 00:41:51
0 跟貼 0
湖北省召開全省領導干部會議

新京報 2026-05-30 13:13:05
10 跟貼 10
23歲業余愛好者靠ChatGPT破解60年數學難題

量子位 2026-04-30 10:33:26
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
百度希望外界看到的，是各種能干活的智能體，在拉動業績猛漲

時代周報 2026-05-28 23:23:03
0 跟貼 0
比亞迪全新超級智能體迪迪蝦實力怎么樣？

新能車 2026-05-29 10:02:56
0 跟貼 0
人民直擊｜三問張家口風電項目1.9億“天價”補償后續

人民資訊 2026-05-31 09:15:09
315 跟貼 315
烏克蘭士兵在極近距離擊斃俄羅斯士兵的戰斗場景

軍武大狼 2026-05-29 02:39:39
1497 跟貼 1497
用上帝視覺看賈似道，就可以理解了

小叮當剪輯 2026-05-30 08:40:14
0 跟貼 0
萬億估值背后：SpaceX成功的四個可借鑒戰略

秦朔朋友圈 2026-05-31 00:03:26
0 跟貼 0
特朗普兒子的公司正在烏克蘭測試人形戰斗機器人

深度Militaire 2026-05-31 09:16:54
0 跟貼 0
當AI從租GPU走向賣Token，誰會賺到真正的錢？

虎嗅APP 2026-05-19 00:08:10
17 跟貼 17
磁流變+AI智能預瞄，極狐首款MPV上市就搞“高端局”，19.48萬起

知嘹汽車 2026-05-29 15:21:36
45 跟貼 45
AI實時渲染的無限流可視化瀏覽器Flipbook

量子位 2026-05-02 18:24:35
0 跟貼 0
中超上半程收官戰，泰山隊輸得不難看

齊魯壹點 2026-05-30 23:33:13
116 跟貼 116
為了逃避考試，他發明了最好的壓縮算法，zip的歷史可謂一波三折

量子位 2026-04-29 06:41:21
0 跟貼 0
如何養一只懂事的小龍蝦？養蝦達人10天速成班

量子位 2026-03-20 04:40:46
2 跟貼 2
話題｜寶貴3分讓國安喘口氣，這個休賽期要做的事真不少

北青網-北京青年報 2026-05-31 07:54:06
8 跟貼 8
95后博士休學創業押注AI空間游戲，未上線先出圈吸粉百萬

DeepTech深科技 2025-12-24 21:29:55
0 跟貼 0
用小學乘法造出地表最強超算解不開的密碼

量子位 2026-04-02 19:32:45
0 跟貼 0

陳數首談14年婚姻，盲目聽從丈夫安排，身患重病后現狀如何？

陳數首談14年婚姻，盲目聽從丈夫安排，身患重病后現狀如何？

瑛派兒老黃

2026-05-30 20:23:51

毒性堪比砒霜！正大量上市，一旦發苦趕緊吐掉！醫生：煮熟也有毒

毒性堪比砒霜！正大量上市，一旦發苦趕緊吐掉！醫生：煮熟也有毒

路醫生健康科普

2026-05-30 20:15:03

女子車禍住院遭男醫生侵犯后續，細節不堪入目，院方最新回應來了

女子車禍住院遭男醫生侵犯后續，細節不堪入目，院方最新回應來了

可愛的巴比龍

2026-05-30 10:07:23

重磅消息！開始放水了?

混知房產

2026-05-30 07:36:26

06年男子打工借宿同學家，被同學母親一眼看中，意外改變了他一生

06年男子打工借宿同學家，被同學母親一眼看中，意外改變了他一生

小月文史

2025-03-11 18:44:56

日本全境調兵直逼臺海，連夜轉移12萬居民，表面避難實則清空戰場

日本全境調兵直逼臺海，連夜轉移12萬居民，表面避難實則清空戰場

紀中百大事

2026-05-31 09:36:03

韓國邁出關鍵一步：正式啟動核潛艇計劃！旁邊的日本怕要坐不住了

韓國邁出關鍵一步：正式啟動核潛艇計劃！旁邊的日本怕要坐不住了

老誡科普

2026-05-29 22:13:52

中國沒給面子，普京回國后沉默一周認清現實，終究找上哈薩克斯坦

中國沒給面子，普京回國后沉默一周認清現實，終究找上哈薩克斯坦

小陸搞笑日常

2026-05-31 04:35:20

杭州一大樓半年外賣被偷126次，民警用了這一招，一個月來再也沒丟過

杭州一大樓半年外賣被偷126次，民警用了這一招，一個月來再也沒丟過

都市快報橙柿互動

2026-05-30 17:40:21

張雪變于東來“迷弟”，直播間里豪刷3萬元成“榜一大哥”，直言：我可能成為不了您，但有信心做到您的一半

張雪變于東來“迷弟”，直播間里豪刷3萬元成“榜一大哥”，直言：我可能成為不了您，但有信心做到您的一半

極目新聞

2026-05-30 10:33:33

烏克蘭拆解“榛樹”導彈，結果震驚西方，七十年代古董為何能破盾

烏克蘭拆解“榛樹”導彈，結果震驚西方，七十年代古董為何能破盾

通鑒史智

2026-05-31 10:01:04

比亞迪吹爆璇璣A3：完全自研、中國最強！評論區一點面子都不給

比亞迪吹爆璇璣A3：完全自研、中國最強！評論區一點面子都不給

譚談社會

2026-05-29 16:29:54

英國公布的圓明園被毀前照片，美如仙境，引發世界關注

英國公布的圓明園被毀前照片，美如仙境，引發世界關注

賤議你讀史

2026-05-23 15:23:34

被人事開除后，我誰也沒告訴，董事長得知后卻：誰把我妹辭了？

被人事開除后，我誰也沒告訴，董事長得知后卻：誰把我妹辭了？

麥子情感故事

2026-05-30 17:09:16

5月31日，人社部2026年養老金調整公布了嗎？高于6000元不漲了嗎

5月31日，人社部2026年養老金調整公布了嗎？高于6000元不漲了嗎

社保小達人

2026-05-31 09:49:47

從1-2至3-2！北京國安絕境大逆轉，法比奧創紀錄，重慶3分鐘丟2球

從1-2至3-2！北京國安絕境大逆轉，法比奧創紀錄，重慶3分鐘丟2球

汪星人喲

2026-05-30 22:02:12

固態電池神話破滅在即？中科院重大突破將改寫2026電池江湖

固態電池神話破滅在即？中科院重大突破將改寫2026電池江湖

徐云流浪中國

2026-05-30 18:37:49

極端高溫下，莫迪勸印度人多喝水，印度人破防大罵：我們沒水喝！

極端高溫下，莫迪勸印度人多喝水，印度人破防大罵：我們沒水喝！

觀史搜尋著

2026-05-30 11:57:25

現任孩子沒拿到繼承權，前妻姐真是贏麻了！

現任孩子沒拿到繼承權，前妻姐真是贏麻了！

BenSir本色說

2026-05-30 22:02:27

18歲翻墻離家從軍，父親：我就當你死了！23年后一封急信讓他淚崩

18歲翻墻離家從軍，父親：我就當你死了！23年后一封急信讓他淚崩

磊子講史

2026-05-26 11:55:22

追蹤人工智能動態

12710文章數 176474關注度

往期回顧全部

科技要聞

戴爾諾基亞又回來了！AI重估老牌科技公司

頭條要聞

稻城亞丁景區是否有權在省道上"設卡" 央媒調查

頭條要聞

稻城亞丁景區是否有權在省道上"設卡" 央媒調查

體育要聞

巴黎再度捧起歐冠獎杯槍手眾將黯然神傷

娛樂要聞

賈玲最新動作！侯明昊給虞書欣抬轎！

財經要聞

字節跳動的 "一盤大棋"

汽車要聞

900V+3.2秒破百領克10+&領克10上市16.99萬元起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

房產

旅游

手機

軍事航空

家居要聞

云棲舒展如流云

蜂鳥餐椅線面交錯
古老而持久石影扶手椅
生與命相依舊公寓改造

房產要聞

紅動五月！全國搶入核心資產，廣州盯緊凱旋新世界！

旅游要聞

重磅劇透！300+海外旅行商齊聚北京，新體驗帶動新消費！——2026北京入境旅游發展大會6月1日高能啟幕，五大板塊搶先看！

手機要聞

nova十周年大作！華為nova 16系列下周亮相：頂流代言+麒麟9系芯片

軍事要聞

美防長參加"香會" 就美中關系最新表態

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<small id="pwahk"><tbody id="pwahk"><noframes id="pwahk"></noframes></tbody></small>

<source id="pwahk"></source>