從擬合數(shù)據(jù)到構(gòu)建世界：李飛飛的空間智能理論 theory of space

2026-04-17 14:27:39　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

在 2026 年 ICLR（國際學(xué)習(xí)表征會(huì)議）的舞臺上，斯坦福大學(xué)李飛飛團(tuán)隊(duì)與西北大學(xué)李曼玲玲團(tuán)隊(duì)聯(lián)手，針對具身智能長期困局 ——空間認(rèn)知薄弱、數(shù)據(jù)效率低下、人機(jī)交互脫節(jié)，發(fā)布六項(xiàng)重磅研究，從基準(zhǔn)構(gòu)建、數(shù)據(jù)生成、推理優(yōu)化三大維度形成閉環(huán)。當(dāng)我們拆解技術(shù)表象，會(huì)發(fā)現(xiàn)每一項(xiàng)突破背后，都懸而未決著關(guān)乎智能本質(zhì)的深層追問：我們?yōu)槟Ｐ蜆?gòu)建的 “空間信念”，究竟是在模擬人類的認(rèn)知邏輯，還是在擬合訓(xùn)練數(shù)據(jù)的分布？所謂的 “世界模型”，捕捉的是物理世界的底層規(guī)律，還是海量數(shù)據(jù)中的統(tǒng)計(jì)慣性？當(dāng)多模態(tài)模型聲稱 “理解” 了空間，它是真的看見了三維世界，還是在用語言的先驗(yàn)知識反哺、甚至扭曲視覺信息？今天，我們以空間為核心線索，循著問題驅(qū)動(dòng)的認(rèn)知路徑，深度拆解這篇 ICLR 2026 的核心論文《Theory of Space》。

第一階元問題追問：我們到底在討論「空間」的什么本質(zhì)？核心問題：為什么被動(dòng)的空間推理，永遠(yuǎn)無法替代主動(dòng)的空間認(rèn)知？

在展開理論之前，我們必須先錨定「空間」的 3 個(gè)不可回避的本質(zhì)屬性 —— 這也是整篇論文的立論根基，所有的框架、方法、發(fā)現(xiàn)由此生發(fā)：

空間的本質(zhì)是「部分可觀測」的：真實(shí)物理空間中，沒有任何智能體可以一次性獲得全局完整觀測，墻后、門外、視野盲區(qū)的空間結(jié)構(gòu)永遠(yuǎn)是隱狀態(tài)，你必須通過行動(dòng)才能讓不可見變?yōu)榭梢姟?/p>

空間的認(rèn)知是「具身依賴」的：認(rèn)知科學(xué)經(jīng)典的「主動(dòng) - 被動(dòng)空間學(xué)習(xí)實(shí)驗(yàn)」（Held & Hein, 1963）早已證明：哪怕接收完全相同的視覺信息，主動(dòng)移動(dòng)的個(gè)體對空間的理解，遠(yuǎn)優(yōu)于被動(dòng)接收信息的個(gè)體 —— 空間認(rèn)知不是對畫面的處理，而是對「行動(dòng) - 觀測」因果鏈的建模。

空間的表征是「信念驅(qū)動(dòng)」的：你對空間的所有判斷，都基于你腦海中那張看不見的「認(rèn)知地圖」，而非眼前的瞬時(shí)畫面。你能閉著眼睛從客廳走到臥室，不是因?yàn)槟憧吹搅寺罚且驗(yàn)槟阆嘈趴臻g的結(jié)構(gòu)是穩(wěn)定的、可預(yù)測的。

基于這三個(gè)本質(zhì)，論文拋出了整個(gè)工作的元問題：

當(dāng)前的多模態(tài)基礎(chǔ)模型，已經(jīng)在被動(dòng)空間推理任務(wù)上表現(xiàn)出色，但它們能否在部分可觀測的環(huán)境中，通過自主的、目標(biāo)驅(qū)動(dòng)的探索，構(gòu)建、維護(hù)、修正并利用一套連貫的內(nèi)部空間信念？

這個(gè)問題直接擊穿了此前所有空間智能評測的核心缺陷：

被動(dòng)推理 benchmark（如單圖 / 多圖空間問答）：把空間變成了開卷考試，完全規(guī)避了「部分可觀測」這個(gè)空間的核心屬性；

任務(wù)驅(qū)動(dòng)的具身 benchmark（如導(dǎo)航、指令跟隨）：把空間探索變成了完成特定目標(biāo)的手段，無法衡量模型是否真的構(gòu)建了通用的空間認(rèn)知，還是只是學(xué)會(huì)了任務(wù)特定的捷徑。

而《Theory of Space》（后文簡稱 ToS）的核心突破，就是把「空間」從一個(gè)推理任務(wù)的場景，變成了智能體需要主動(dòng)建模的隱狀態(tài)對象—— 就像心智理論（Theory of Mind, ToM）建模他人不可見的心理狀態(tài)，ToS 建模世界不可見的空間結(jié)構(gòu)。

第二階理論框架：以空間信念為核心，定義可形式化的空間能力體系核心問題：如果空間認(rèn)知的核心是「內(nèi)在空間信念」，我們該如何用一套嚴(yán)謹(jǐn)?shù)目蚣埽x、拆解并形式化這套能力？

論文以「空間信念的全生命周期」為線索，給出了 ToS 的嚴(yán)格定義與形式化框架，徹底把模糊的「空間感」變成了可拆解、可測量的科學(xué)問題。

2.1 核心定義：什么是「空間理論（Theory of Space）」？

ToS 的正式定義是：

具身智能體通過自主主動(dòng)探索，從時(shí)序性的、局部的觀測中，構(gòu)建、動(dòng)態(tài)修正、并利用內(nèi)部空間信念的能力。

其中，內(nèi)部空間信念是核心載體：它是智能體在工作記憶中維護(hù)的、關(guān)于空間布局與物體空間關(guān)系的心智模型，對應(yīng)神經(jīng)科學(xué)中經(jīng)典的「認(rèn)知地圖」（Tolman, 1948）。

論文在部分可觀測馬爾可夫決策過程（POMDP）的框架下，對 ToS 做了形式化：

設(shè)真實(shí)空間結(jié)構(gòu)為S，智能體與空間交互的時(shí)序歷史為

智能體的內(nèi)部空間信念，是對真實(shí)空間結(jié)構(gòu)的后驗(yàn)概率近似：

ToS 的能力，就是對這個(gè)概率信念進(jìn)行三大核心操作的能力，而這三大操作恰好對應(yīng)了空間信念從無到有、從靜態(tài)到動(dòng)態(tài)、從內(nèi)隱到可用的完整生命周期。

2.2 三大核心能力：空間信念的全生命周期閉環(huán)

以「空間」為線索，三大能力形成了完全閉環(huán)的邏輯鏈條，沒有任何一環(huán)可以脫離空間的本質(zhì)屬性：

核心能力

空間本質(zhì)對應(yīng)

形式化定義

核心追問

構(gòu)建（Construct）

空間的部分可觀測性：必須通過主動(dòng)探索，把局部觀測整合成全局一致的空間表征

智能體整合時(shí)序交互歷史 ht ，逼近真實(shí)空間結(jié)構(gòu)的后驗(yàn)分布 P(S∣ht) ，形成全局連貫的認(rèn)知地圖

模型是真的在拼出完整的空間，還是只是在記憶碎片化的觀測？

修正（Revise）

空間的動(dòng)態(tài)非平穩(wěn)性：真實(shí)空間會(huì)發(fā)生變化，智能體必須用新的觀測覆蓋過時(shí)的先驗(yàn)信念

當(dāng)空間結(jié)構(gòu)從 S 變?yōu)? S′ ，智能體通過新的探索 Δh ，讓信念 Bt+Δt 收斂到新的后驗(yàn) P(S′∣ht+Δt)

模型能發(fā)現(xiàn)空間的變化，還是會(huì)抱著過時(shí)的信念一錯(cuò)到底？

利用（Exploit）

空間的任務(wù)可用性：空間認(rèn)知的最終價(jià)值，是支撐導(dǎo)航、視角轉(zhuǎn)換、空間推理等下游任務(wù)

智能體基于當(dāng)前信念 Bt 生成策略 π(at∣Bt) ，完成下游空間任務(wù) T ，任務(wù)性能直接衡量信念的質(zhì)量

模型的「腦海地圖」是真的能用，還是只是無法落地的幻覺？

2.3 理論對標(biāo)：ToS 與 ToM 的鏡像關(guān)系 —— 空間信念的「錯(cuò)誤信念范式」

這里是論文最核心的理論創(chuàng)新之一：它完全復(fù)刻了發(fā)展心理學(xué)中心智理論（ToM）的經(jīng)典評測邏輯，為空間認(rèn)知引入了錯(cuò)誤信念范式。

ToM 核心評測是「莎莉 - 安妮任務(wù)」：看孩子能否理解他人持有錯(cuò)誤的信念，核心是區(qū)分「自己知道的事實(shí)」和「他人的信念」；
ToS 核心評測是「空間錯(cuò)誤信念任務(wù)」：看模型能否區(qū)分「自己之前構(gòu)建的舊信念」和「空間變化后的新事實(shí)」，核心是衡量信念修正能力。

這個(gè)設(shè)計(jì)直接把空間認(rèn)知從「工程問題」提升到了「認(rèn)知科學(xué)問題」，也讓 ToS 框架有了跨學(xué)科的嚴(yán)謹(jǐn)性。

第三階方法范式：如何把「黑箱的空間信念」變成可測量、可診斷的科學(xué)對象？核心問題：空間信念藏在模型的黑箱里，我們該如何把它顯性化，同時(shí)精準(zhǔn)定位模型在空間認(rèn)知中的失效環(huán)節(jié)？

論文以「空間信念的全流程測量」為線索，設(shè)計(jì)了一套完整的評測范式，核心解決兩個(gè)問題：① 如何還原真實(shí)空間的部分可觀測性，讓模型做真正的主動(dòng)探索；② 如何打開黑箱，直接測量模型的內(nèi)在空間信念，而不只是看最終任務(wù)的對錯(cuò)。

3.1 環(huán)境設(shè)計(jì)：還原空間的本質(zhì)屬性，雙模態(tài)拆解失效根源

為了精準(zhǔn)定位模型的失效是來自「空間感知」還是「空間推理」，論文構(gòu)建了文本、視覺雙平行環(huán)境，二者共享完全一致的空間布局，唯一區(qū)別是觀測模態(tài)：

文本世界：隔離純空間推理能力。每次觀測返回符號化的空間信息（如「椅子在左前方，中等距離」），沒有視覺感知噪聲，直接測試模型對空間關(guān)系的建模、整合與推理能力；

視覺世界：還原真實(shí)具身場景。每次觀測返回第一人稱 RGB 圖像，模型必須先從圖像中提取物體、方向、距離等空間信息，再進(jìn)行推理，完整覆蓋「感知→表征→信念→推理」的全鏈路。

同時(shí)，環(huán)境嚴(yán)格遵循空間的真實(shí)約束：

動(dòng)作空間聚焦高層空間決策，而非底層電機(jī)控制：僅保留Goto（移動(dòng)到可見物體）、Rotate（原地旋轉(zhuǎn)）、Observe（觀測當(dāng)前視野）、Query（查詢物體坐標(biāo)），并給不同動(dòng)作設(shè)置成本，倒逼模型做高效探索；

空間布局為程序化生成的多房間網(wǎng)格結(jié)構(gòu)，嚴(yán)格控制房間數(shù)量、物體密度，保證實(shí)驗(yàn)的可重復(fù)性與可擴(kuò)展性；

觀測嚴(yán)格遵循 90° 視野約束，只有當(dāng)前視野內(nèi)的物體可被觀測，完美還原空間的「部分可觀測性」。

3.2 評測體系的三大核心支柱：以空間信念為核心的全鏈路測量

論文徹底拋棄了「只看最終任務(wù)準(zhǔn)確率」的傳統(tǒng)評測邏輯，設(shè)計(jì)了三大支柱，完整覆蓋空間信念的構(gòu)建、修正、利用全流程：

支柱 1：任務(wù)無關(guān)的主動(dòng)探索—— 從「被動(dòng)答題者」到「主動(dòng)探索者」

這是 ToS 范式和傳統(tǒng) benchmark 的核心區(qū)別：

模型的核心目標(biāo)不是完成某個(gè)特定任務(wù)，而是通過自主選擇行動(dòng)，以最小的成本構(gòu)建最完整、最準(zhǔn)確的空間信念；
模型必須自主決定「下一步看哪里、去哪里」，自主決定「什么時(shí)候探索足夠了，可以終止」；
核心衡量指標(biāo)是探索效率：用歸一化信息增益衡量每步行動(dòng)能降低多少空間不確定性，用步數(shù)衡量探索成本。

為了隔離「探索能力」和「推理能力」，論文還設(shè)計(jì)了兩個(gè)腳本化的代理智能體（Proxy Agent）作為黃金基線：

SCOUT 代理：用于視覺環(huán)境，采用「旋轉(zhuǎn)掃描 - 逐個(gè)房間遍歷」的策略，9 步即可完成全環(huán)境覆蓋，是最優(yōu)的無先驗(yàn)探索策略；
STRATEGIST 代理：用于文本環(huán)境，基于 AC-3約束傳播算法，主動(dòng)選擇最大程度降低物體位置不確定性的視角，是最優(yōu)信念驅(qū)動(dòng)探索策略。

支柱 2：信念利用評估—— 雙維度衡量空間信念的可用性

論文基于空間認(rèn)知發(fā)展理論，把空間信念的利用拆分為兩個(gè)層級，完整覆蓋從低級到高級的空間推理能力：

路徑信念（Route Belief）：以自我為中心（egocentric）的路徑級空間理解，對應(yīng)人類導(dǎo)航時(shí)的「沿路標(biāo)走」的能力，包括成對空間關(guān)系判斷、視角轉(zhuǎn)換、動(dòng)作 - 視圖預(yù)測等任務(wù)；

全局測繪信念（Survey Belief）：以環(huán)境為中心（allocentric）的地圖級空間理解，對應(yīng)人類「腦海里有張鳥瞰圖」的能力，包括全局坐標(biāo)預(yù)測、心理旋轉(zhuǎn)、視圖 - 位置定位等任務(wù)。

這兩個(gè)維度的設(shè)計(jì)，精準(zhǔn)區(qū)分了模型是只會(huì)「記住走過的路」，還是真的構(gòu)建了全局一致的空間認(rèn)知地圖。

支柱 3：核心創(chuàng)新 —— 空間信念探針（Belief Probing）

這是整篇論文最具突破性的方法設(shè)計(jì)：它不再把模型的空間信念當(dāng)成黑箱，而是在探索的每一步，都讓模型把內(nèi)在的認(rèn)知地圖顯性化輸出，直接測量信念的質(zhì)量、穩(wěn)定性與不確定性。

論文設(shè)計(jì)了兩類互補(bǔ)的信念探針，完整覆蓋「已知的空間」和「未知的空間」：

認(rèn)知地圖探針（Cognitive Map Probing）：測量模型對已觀測空間的信念質(zhì)量

不確定性地圖探針（Uncertainty Map Probing）：測量模型對未觀測空間的不確定性建模能力

3.3 信念修正的專屬評測：空間錯(cuò)誤信念范式

論文復(fù)刻 ToM 的錯(cuò)誤信念任務(wù)，設(shè)計(jì)了專門的動(dòng)態(tài)環(huán)境實(shí)驗(yàn)：

先讓模型完成初始探索，構(gòu)建完整的空間信念；
在模型不知情的情況下，秘密移動(dòng) / 旋轉(zhuǎn) 4 個(gè)物體，改變空間結(jié)構(gòu)；
讓模型重新探索環(huán)境，測試它能否發(fā)現(xiàn)變化、識別變化的物體、并更新自己的認(rèn)知地圖。

論文還專門定義了信念慣性（Belief Inertia）指標(biāo)，量化模型是否會(huì)被過時(shí)的先驗(yàn)信念帶偏 —— 哪怕看到了新的證據(jù)，依然堅(jiān)持舊的空間坐標(biāo) / 朝向，這是衡量空間信念動(dòng)態(tài)修正能力的核心指標(biāo)。

第四階核心發(fā)現(xiàn)：SOTA 基礎(chǔ)模型的空間認(rèn)知，到底在哪里系統(tǒng)性失效？核心問題：基于 ToS 框架的全鏈路診斷，當(dāng)前頂尖模型的空間能力，到底處于什么水平？哪些環(huán)節(jié)是無法繞過的核心瓶頸？

論文對 GPT-5.2、Gemini-3 Pro、Claude-4.5 Sonnet、GLM-4.6V、Qwen3-VL 等主流 SOTA 模型做了全面評測，所有發(fā)現(xiàn)都緊扣「空間信念的全生命周期」線索，從探索、構(gòu)建、穩(wěn)定性、修正四個(gè)維度，給出了精準(zhǔn)的診斷結(jié)論。

4.1 核心瓶頸 1：主動(dòng) - 被動(dòng)鴻溝 —— 主動(dòng)探索是空間認(rèn)知的第一卡點(diǎn)

論文最核心的實(shí)證發(fā)現(xiàn)：所有模型在主動(dòng)探索場景下的性能，都顯著低于被動(dòng)推理場景，且環(huán)境越復(fù)雜，鴻溝越大。

核心數(shù)據(jù)：視覺環(huán)境下，GPT-5.2 被動(dòng)推理平均準(zhǔn)確率 57.1%，主動(dòng)探索直接掉到 46.0%；Gemini-3 Pro 從 60.5% 掉到 57.3%；文本環(huán)境下，GPT-5.2 被動(dòng)準(zhǔn)確率 90.4%，主動(dòng)探索僅 72.0%；

底層原因：模型無法有效建模空間不確定性，不知道「哪里最該去看」。GPT-5.2 采用「見門就進(jìn)」的無策略探索，經(jīng)常遺漏當(dāng)前房間的物體，路徑高度冗余；Gemini-3 Pro 雖然采用了更系統(tǒng)的「旋轉(zhuǎn)掃描」策略，更接近 SCOUT 代理，但依然達(dá)不到最優(yōu)探索效率；

關(guān)鍵結(jié)論：哪怕模型擁有極強(qiáng)的空間推理能力（被動(dòng)場景下的高性能），如果無法自主高效地獲取信息，依然無法構(gòu)建可靠的空間信念 —— 這就像一個(gè)擁有超強(qiáng)記憶力的人，卻不會(huì)規(guī)劃路線，永遠(yuǎn)畫不出完整的地圖。

4.2 核心瓶頸 2：模態(tài)鴻溝 —— 視覺空間認(rèn)知的感知 - 表征耦合失效

論文通過雙環(huán)境對比，發(fā)現(xiàn)了極其顯著的模態(tài)差距：所有模型在文本世界的性能，都碾壓視覺世界，且差距在信念構(gòu)建、穩(wěn)定性、修正全環(huán)節(jié)普遍存在。

核心數(shù)據(jù)：認(rèn)知地圖探針顯示，文本環(huán)境下 GPT-5.2 的位置準(zhǔn)確率 91.0%，朝向準(zhǔn)確率 75.1%；而視覺環(huán)境下，位置準(zhǔn)確率僅 20.2%，朝向準(zhǔn)確率 42.0%；Gemini-3 Pro 在文本環(huán)境位置準(zhǔn)確率 92.5%，視覺環(huán)境僅 32.2%；

底層原因：視覺空間認(rèn)知存在雙重瓶頸：① 初級感知瓶頸：模型很難從第一人稱圖像中精準(zhǔn)提取物體的朝向、距離、相對位置等空間信息，尤其是物體朝向的識別，接近隨機(jī)水平；② 感知 - 表征耦合瓶頸：模型無法把瞬時(shí)的視覺觀測，穩(wěn)定地整合到全局的 allocentric 認(rèn)知地圖中，局部觀測和全局信念經(jīng)常出現(xiàn)矛盾。

4.3 核心瓶頸 3：信念不穩(wěn)定性 —— 空間記憶的時(shí)序衰減與漂移

通過認(rèn)知地圖探針的時(shí)序追蹤，論文發(fā)現(xiàn)了一個(gè)被傳統(tǒng)評測完全忽略的關(guān)鍵問題：模型的空間信念是高度不穩(wěn)定的，哪怕一開始正確感知到的空間信息，也會(huì)在后續(xù)探索中被錯(cuò)誤覆蓋，出現(xiàn)「越看越錯(cuò)」的信念漂移。

核心數(shù)據(jù)：視覺環(huán)境下，GPT-5.2 的信念穩(wěn)定性僅 56.4%，Gemini-3 Pro 僅 61.8%；而文本環(huán)境下，二者的穩(wěn)定性分別達(dá)到 86.0% 和 84.8%；
底層原因：模型缺乏穩(wěn)定的空間記憶維護(hù)機(jī)制，新的觀測會(huì)無差別地覆蓋舊的記憶，無法區(qū)分「經(jīng)過驗(yàn)證的確定事實(shí)」和「新的觀測證據(jù)」，導(dǎo)致全局認(rèn)知地圖的精度隨著探索步數(shù)增加反而下降；
關(guān)鍵結(jié)論：傳統(tǒng)評測只看最終的地圖精度，卻忽略了時(shí)序穩(wěn)定性 —— 而真實(shí)世界的具身導(dǎo)航，恰恰需要長期穩(wěn)定的空間信念，這是當(dāng)前模型的核心短板。

4.4 核心瓶頸 4：信念慣性 —— 空間先驗(yàn)的修正機(jī)制完全失效

通過空間錯(cuò)誤信念范式，論文發(fā)現(xiàn)了當(dāng)前模型空間認(rèn)知最致命的缺陷：模型存在極強(qiáng)的空間信念慣性，尤其是視覺模態(tài)下，哪怕直接觀測到了空間的變化，也無法覆蓋過時(shí)的先驗(yàn)信念。

核心數(shù)據(jù)：文本環(huán)境下，GPT-5.2 的位置信念慣性僅 5.5%，朝向 12.5%；而視覺環(huán)境下，位置信念慣性飆升至 68.9%，朝向 34.7%；Gemini-3 Pro 視覺環(huán)境下的位置信念慣性也高達(dá) 51.1%；
底層原因：模型的空間信念一旦形成，就會(huì)產(chǎn)生極強(qiáng)的先驗(yàn)偏見，無法有效檢測「新觀測」和「舊信念」之間的沖突，更無法用新的證據(jù)更新全局地圖；尤其是視覺模態(tài)下，模型對物體朝向的記憶幾乎是固化的，哪怕看到了物體轉(zhuǎn)了方向，依然堅(jiān)持初始的朝向判斷；
關(guān)鍵結(jié)論：當(dāng)前模型的空間認(rèn)知，本質(zhì)上是「一次性的靜態(tài)建圖」，而真實(shí)世界的空間是動(dòng)態(tài)變化的 —— 家具會(huì)移動(dòng)、門會(huì)開關(guān)、路會(huì)被堵，無法動(dòng)態(tài)修正信念的空間認(rèn)知，在真實(shí)具身場景中完全不可用。

第五階核心意義與未來：ToS 到底重構(gòu)了什么？核心問題：這套以空間為核心的理論框架，到底給具身智能、基礎(chǔ)模型的發(fā)展，帶來了哪些底層范式的變革？ 5.1 學(xué)術(shù)意義：重構(gòu)了空間智能的評測范式

ToS 徹底打破了此前空間智能評測的兩大誤區(qū)：

打破了「被動(dòng)推理 = 空間認(rèn)知」的誤區(qū)：把空間智能的核心，從「對給定信息的推理」，拉回到了「對未知空間的主動(dòng)探索」，回歸了空間的本質(zhì)屬性；

打破了「任務(wù)成功 = 認(rèn)知正確」的誤區(qū)：用信念探針直接打開模型的黑箱，從「看結(jié)果」變成了「看過程」，可以精準(zhǔn)定位模型的失效環(huán)節(jié)，而不是只給出一個(gè)籠統(tǒng)的準(zhǔn)確率。

同時(shí)，它為具身智能的「世界模型」提供了一套可定義、可測量、可優(yōu)化的具體框架 —— 世界模型最核心的組件，就是對空間結(jié)構(gòu)的建模，而 ToS 把這個(gè)模糊的概念，變成了可落地的科研范式。

5.2 產(chǎn)業(yè)意義：指明了下一代具身 AI 的核心優(yōu)化方向

當(dāng)前的機(jī)器人、自動(dòng)駕駛、具身 Agent，最大的落地瓶頸之一，就是在未知、動(dòng)態(tài)環(huán)境中的空間認(rèn)知能力 —— 而 ToS 的診斷結(jié)論，直接給出了明確的優(yōu)化路徑：

必須為基礎(chǔ)模型設(shè)計(jì)不確定性感知的主動(dòng)探索策略，讓模型學(xué)會(huì)「知道自己不知道什么」，并主動(dòng)選擇能最大程度降低不確定性的行動(dòng)；

必須解決視覺空間的感知 - 表征解耦問題，讓模型能從第一人稱視覺中，穩(wěn)定提取并整合空間信息，構(gòu)建全局一致的認(rèn)知地圖；

必須為模型設(shè)計(jì)穩(wěn)定的空間記憶維護(hù)與更新機(jī)制，解決信念漂移和信念慣性問題，讓模型能在長時(shí)序探索中保持信念穩(wěn)定，同時(shí)能根據(jù)環(huán)境變化動(dòng)態(tài)修正信念。

5.3 終極追問：空間認(rèn)知，是通用人工智能的必經(jīng)之路嗎？

論文的結(jié)尾，留下了一個(gè)最值得深思的問題：人類的高級認(rèn)知能力，很大程度上是在與物理空間的交互中演化而來的 —— 我們的抽象推理、因果建模、心智理論，都根植于我們對空間的理解。那么，對于通用人工智能而言，真正的空間認(rèn)知能力，是不是從「被動(dòng)處理信息的語言模型」，走向「主動(dòng)與世界交互的具身智能」的必經(jīng)之路？

回答是肯定的，空間認(rèn)知是AGI的必經(jīng)之路，而《Theory of Space》這篇論文，恰恰為這個(gè)問題的回答，提供了第一套嚴(yán)謹(jǐn)?shù)摹⒖闪炕摹⒖傻睦碚撆c實(shí)驗(yàn)框架。

全文核心線索復(fù)盤

整篇論文的邏輯，完全以「空間」為核心線索：

從空間的本質(zhì)屬性（部分可觀測、具身依賴、信念驅(qū)動(dòng)）出發(fā)，提出終極元問題；

以空間信念的全生命周期為核心，構(gòu)建了「構(gòu)建 - 修正 - 利用」的理論框架；

以空間信念的顯性化測量為目標(biāo)，設(shè)計(jì)了「主動(dòng)探索 - 信念利用 - 信念探針」的方法范式；

以空間信念的全鏈路診斷為核心，發(fā)現(xiàn)了當(dāng)前模型的四大系統(tǒng)性瓶頸；

最終回歸空間認(rèn)知在通用智能中的核心地位，重構(gòu)了具身智能的評測與發(fā)展范式。

這篇Theory of Space最大突破在于它打破了將具身智能等同于 “視覺識別” 或 “導(dǎo)航工程” 的窄化認(rèn)知，完成了從 “擬合數(shù)據(jù)” 到 “構(gòu)建世界”的范式升級。它不再將空間智能僅僅視為處理圖像的能力，而是將其升維為構(gòu)建內(nèi)在 “認(rèn)知地圖” 與維護(hù) “空間信念” 的因果推理能力—— 標(biāo)志著具身智能從被動(dòng)的 “統(tǒng)計(jì)學(xué)習(xí)”，進(jìn)化為能主動(dòng)探索、理解并適應(yīng)動(dòng)態(tài)環(huán)境的 “世界建模”。

更關(guān)鍵的是，它通過“空間錯(cuò)誤信念”等顛覆性設(shè)計(jì)，揭示了當(dāng)前模型本質(zhì)上是 “靜態(tài)的一次性建圖”，而非真正具備時(shí)序穩(wěn)定性與動(dòng)態(tài)修正能力的智能體。

這一框架重構(gòu)了我們對具身智能的理解：真正的空間智能，不是從圖像中提取像素特征，而是能否像人類一樣，在部分可觀測的世界中，通過主動(dòng)行動(dòng)消除不確定性、生成連貫的內(nèi)在模型，并以此驅(qū)動(dòng)下游決策。這是一次從 “算法優(yōu)化” 到 “認(rèn)知本質(zhì)” 的世界觀級跨越。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.