在 2026 年 ICLR(國際學(xué)習(xí)表征會(huì)議)的舞臺上,斯坦福大學(xué)李飛飛團(tuán)隊(duì)與西北大學(xué)李曼玲玲團(tuán)隊(duì)聯(lián)手,針對具身智能長期困局 ——空間認(rèn)知薄弱、數(shù)據(jù)效率低下、人機(jī)交互脫節(jié),發(fā)布六項(xiàng)重磅研究,從基準(zhǔn)構(gòu)建、數(shù)據(jù)生成、推理優(yōu)化三大維度形成閉環(huán)。當(dāng)我們拆解技術(shù)表象,會(huì)發(fā)現(xiàn)每一項(xiàng)突破背后,都懸而未決著關(guān)乎智能本質(zhì)的深層追問:我們?yōu)槟P蜆?gòu)建的 “空間信念”,究竟是在模擬人類的認(rèn)知邏輯,還是在擬合訓(xùn)練數(shù)據(jù)的分布?所謂的 “世界模型”,捕捉的是物理世界的底層規(guī)律,還是海量數(shù)據(jù)中的統(tǒng)計(jì)慣性?當(dāng)多模態(tài)模型聲稱 “理解” 了空間,它是真的看見了三維世界,還是在用語言的先驗(yàn)知識反哺、甚至扭曲視覺信息?今天,我們以空間為核心線索,循著問題驅(qū)動(dòng)的認(rèn)知路徑,深度拆解這篇 ICLR 2026 的核心論文《Theory of Space》。
第一階 元問題追問:我們到底在討論「空間」的什么本質(zhì)? 核心問題:為什么被動(dòng)的空間推理,永遠(yuǎn)無法替代主動(dòng)的空間認(rèn)知?
在展開理論之前,我們必須先錨定「空間」的 3 個(gè)不可回避的本質(zhì)屬性 —— 這也是整篇論文的立論根基,所有的框架、方法、發(fā)現(xiàn)由此生發(fā):
空間的本質(zhì)是「部分可觀測」的:真實(shí)物理空間中,沒有任何智能體可以一次性獲得全局完整觀測,墻后、門外、視野盲區(qū)的空間結(jié)構(gòu)永遠(yuǎn)是隱狀態(tài),你必須通過行動(dòng)才能讓不可見變?yōu)榭梢姟?/p>
空間的認(rèn)知是「具身依賴」的:認(rèn)知科學(xué)經(jīng)典的「主動(dòng) - 被動(dòng)空間學(xué)習(xí)實(shí)驗(yàn)」(Held & Hein, 1963)早已證明:哪怕接收完全相同的視覺信息,主動(dòng)移動(dòng)的個(gè)體對空間的理解,遠(yuǎn)優(yōu)于被動(dòng)接收信息的個(gè)體 —— 空間認(rèn)知不是對畫面的處理,而是對「行動(dòng) - 觀測」因果鏈的建模。
空間的表征是「信念驅(qū)動(dòng)」的:你對空間的所有判斷,都基于你腦海中那張看不見的「認(rèn)知地圖」,而非眼前的瞬時(shí)畫面。你能閉著眼睛從客廳走到臥室,不是因?yàn)槟憧吹搅寺罚且驗(yàn)槟阆嘈趴臻g的結(jié)構(gòu)是穩(wěn)定的、可預(yù)測的。
基于這三個(gè)本質(zhì),論文拋出了整個(gè)工作的元問題:
當(dāng)前的多模態(tài)基礎(chǔ)模型,已經(jīng)在被動(dòng)空間推理任務(wù)上表現(xiàn)出色,但它們能否在部分可觀測的環(huán)境中,通過自主的、目標(biāo)驅(qū)動(dòng)的探索,構(gòu)建、維護(hù)、修正并利用一套連貫的內(nèi)部空間信念?
這個(gè)問題直接擊穿了此前所有空間智能評測的核心缺陷:
被動(dòng)推理 benchmark(如單圖 / 多圖空間問答):把空間變成了開卷考試,完全規(guī)避了「部分可觀測」這個(gè)空間的核心屬性;
任務(wù)驅(qū)動(dòng)的具身 benchmark(如導(dǎo)航、指令跟隨):把空間探索變成了完成特定目標(biāo)的手段,無法衡量模型是否真的構(gòu)建了通用的空間認(rèn)知,還是只是學(xué)會(huì)了任務(wù)特定的捷徑。
而《Theory of Space》(后文簡稱 ToS)的核心突破,就是把「空間」從一個(gè)推理任務(wù)的場景,變成了智能體需要主動(dòng)建模的隱狀態(tài)對象—— 就像心智理論(Theory of Mind, ToM)建模他人不可見的心理狀態(tài),ToS 建模世界不可見的空間結(jié)構(gòu)。
第二階 理論框架:以空間信念為核心,定義可形式化的空間能力體系 核心問題:如果空間認(rèn)知的核心是「內(nèi)在空間信念」,我們該如何用一套嚴(yán)謹(jǐn)?shù)目蚣埽x、拆解并形式化這套能力?
論文以「空間信念的全生命周期」為線索,給出了 ToS 的嚴(yán)格定義與形式化框架,徹底把模糊的「空間感」變成了可拆解、可測量的科學(xué)問題。
2.1 核心定義:什么是「空間理論(Theory of Space)」?
ToS 的正式定義是:
具身智能體通過自主主動(dòng)探索,從時(shí)序性的、局部的觀測中,構(gòu)建、動(dòng)態(tài)修正、并利用內(nèi)部空間信念的能力。
其中,內(nèi)部空間信念是核心載體:它是智能體在工作記憶中維護(hù)的、關(guān)于空間布局與物體空間關(guān)系的心智模型,對應(yīng)神經(jīng)科學(xué)中經(jīng)典的「認(rèn)知地圖」(Tolman, 1948)。
論文在部分可觀測馬爾可夫決策過程(POMDP)的框架下,對 ToS 做了形式化:
設(shè)真實(shí)空間結(jié)構(gòu)為S,智能體與空間交互的時(shí)序歷史為
智能體的內(nèi)部空間信念,是對真實(shí)空間結(jié)構(gòu)的后驗(yàn)概率近似:
ToS 的能力,就是對這個(gè)概率信念進(jìn)行三大核心操作的能力,而這三大操作恰好對應(yīng)了空間信念從無到有、從靜態(tài)到動(dòng)態(tài)、從內(nèi)隱到可用的完整生命周期。
2.2 三大核心能力:空間信念的全生命周期閉環(huán)
以「空間」為線索,三大能力形成了完全閉環(huán)的邏輯鏈條,沒有任何一環(huán)可以脫離空間的本質(zhì)屬性:
核心能力
空間本質(zhì)對應(yīng)
形式化定義
核心追問
構(gòu)建(Construct)
空間的部分可觀測性:必須通過主動(dòng)探索,把局部觀測整合成全局一致的空間表征
智能體整合時(shí)序交互歷史 ht ,逼近真實(shí)空間結(jié)構(gòu)的后驗(yàn)分布 P(S∣ht) ,形成全局連貫的認(rèn)知地圖
模型是真的在拼出完整的空間,還是只是在記憶碎片化的觀測?
修正(Revise)
空間的動(dòng)態(tài)非平穩(wěn)性:真實(shí)空間會(huì)發(fā)生變化,智能體必須用新的觀測覆蓋過時(shí)的先驗(yàn)信念
當(dāng)空間結(jié)構(gòu)從 S 變?yōu)? S′ ,智能體通過新的探索 Δh ,讓信念 Bt+Δt 收斂到新的后驗(yàn) P(S′∣ht+Δt)
模型能發(fā)現(xiàn)空間的變化,還是會(huì)抱著過時(shí)的信念一錯(cuò)到底?
利用(Exploit)
空間的任務(wù)可用性:空間認(rèn)知的最終價(jià)值,是支撐導(dǎo)航、視角轉(zhuǎn)換、空間推理等下游任務(wù)
智能體基于當(dāng)前信念 Bt 生成策略 π(at∣Bt) ,完成下游空間任務(wù) T ,任務(wù)性能直接衡量信念的質(zhì)量
模型的「腦海地圖」是真的能用,還是只是無法落地的幻覺?
2.3 理論對標(biāo):ToS 與 ToM 的鏡像關(guān)系 —— 空間信念的「錯(cuò)誤信念范式」
這里是論文最核心的理論創(chuàng)新之一:它完全復(fù)刻了發(fā)展心理學(xué)中心智理論(ToM)的經(jīng)典評測邏輯,為空間認(rèn)知引入了錯(cuò)誤信念范式。
ToM 核心評測是「莎莉 - 安妮任務(wù)」:看孩子能否理解他人持有錯(cuò)誤的信念,核心是區(qū)分「自己知道的事實(shí)」和「他人的信念」;
ToS 核心評測是「空間錯(cuò)誤信念任務(wù)」:看模型能否區(qū)分「自己之前構(gòu)建的舊信念」和「空間變化后的新事實(shí)」,核心是衡量信念修正能力。
這個(gè)設(shè)計(jì)直接把空間認(rèn)知從「工程問題」提升到了「認(rèn)知科學(xué)問題」,也讓 ToS 框架有了跨學(xué)科的嚴(yán)謹(jǐn)性。
第三階 方法范式:如何把「黑箱的空間信念」變成可測量、可診斷的科學(xué)對象? 核心問題:空間信念藏在模型的黑箱里,我們該如何把它顯性化,同時(shí)精準(zhǔn)定位模型在空間認(rèn)知中的失效環(huán)節(jié)?
論文以「空間信念的全流程測量」為線索,設(shè)計(jì)了一套完整的評測范式,核心解決兩個(gè)問題:① 如何還原真實(shí)空間的部分可觀測性,讓模型做真正的主動(dòng)探索;② 如何打開黑箱,直接測量模型的內(nèi)在空間信念,而不只是看最終任務(wù)的對錯(cuò)。
3.1 環(huán)境設(shè)計(jì):還原空間的本質(zhì)屬性,雙模態(tài)拆解失效根源
為了精準(zhǔn)定位模型的失效是來自「空間感知」還是「空間推理」,論文構(gòu)建了文本、視覺雙平行環(huán)境,二者共享完全一致的空間布局,唯一區(qū)別是觀測模態(tài):
文本世界:隔離純空間推理能力。每次觀測返回符號化的空間信息(如「椅子在左前方,中等距離」),沒有視覺感知噪聲,直接測試模型對空間關(guān)系的建模、整合與推理能力;
視覺世界:還原真實(shí)具身場景。每次觀測返回第一人稱 RGB 圖像,模型必須先從圖像中提取物體、方向、距離等空間信息,再進(jìn)行推理,完整覆蓋「感知→表征→信念→推理」的全鏈路。
同時(shí),環(huán)境嚴(yán)格遵循空間的真實(shí)約束:
動(dòng)作空間聚焦高層空間決策,而非底層電機(jī)控制:僅保留Goto(移動(dòng)到可見物體)、Rotate(原地旋轉(zhuǎn))、Observe(觀測當(dāng)前視野)、Query(查詢物體坐標(biāo)),并給不同動(dòng)作設(shè)置成本,倒逼模型做高效探索;
空間布局為程序化生成的多房間網(wǎng)格結(jié)構(gòu),嚴(yán)格控制房間數(shù)量、物體密度,保證實(shí)驗(yàn)的可重復(fù)性與可擴(kuò)展性;
觀測嚴(yán)格遵循 90° 視野約束,只有當(dāng)前視野內(nèi)的物體可被觀測,完美還原空間的「部分可觀測性」。
3.2 評測體系的三大核心支柱:以空間信念為核心的全鏈路測量
論文徹底拋棄了「只看最終任務(wù)準(zhǔn)確率」的傳統(tǒng)評測邏輯,設(shè)計(jì)了三大支柱,完整覆蓋空間信念的構(gòu)建、修正、利用全流程:
支柱 1:任務(wù)無關(guān)的主動(dòng)探索—— 從「被動(dòng)答題者」到「主動(dòng)探索者」
這是 ToS 范式和傳統(tǒng) benchmark 的核心區(qū)別:
模型的核心目標(biāo)不是完成某個(gè)特定任務(wù),而是通過自主選擇行動(dòng),以最小的成本構(gòu)建最完整、最準(zhǔn)確的空間信念;
模型必須自主決定「下一步看哪里、去哪里」,自主決定「什么時(shí)候探索足夠了,可以終止」;
核心衡量指標(biāo)是探索效率:用歸一化信息增益衡量每步行動(dòng)能降低多少空間不確定性,用步數(shù)衡量探索成本。
為了隔離「探索能力」和「推理能力」,論文還設(shè)計(jì)了兩個(gè)腳本化的代理智能體(Proxy Agent)作為黃金基線:
SCOUT 代理:用于視覺環(huán)境,采用「旋轉(zhuǎn)掃描 - 逐個(gè)房間遍歷」的策略,9 步即可完成全環(huán)境覆蓋,是最優(yōu)的無先驗(yàn)探索策略;
STRATEGIST 代理:用于文本環(huán)境,基于 AC-3約束傳播算法,主動(dòng)選擇最大程度降低物體位置不確定性的視角,是最優(yōu)信念驅(qū)動(dòng)探索策略。
論文基于空間認(rèn)知發(fā)展理論,把空間信念的利用拆分為兩個(gè)層級,完整覆蓋從低級到高級的空間推理能力:
路徑信念(Route Belief):以自我為中心(egocentric)的路徑級空間理解,對應(yīng)人類導(dǎo)航時(shí)的「沿路標(biāo)走」的能力,包括成對空間關(guān)系判斷、視角轉(zhuǎn)換、動(dòng)作 - 視圖預(yù)測等任務(wù);
全局測繪信念(Survey Belief):以環(huán)境為中心(allocentric)的地圖級空間理解,對應(yīng)人類「腦海里有張鳥瞰圖」的能力,包括全局坐標(biāo)預(yù)測、心理旋轉(zhuǎn)、視圖 - 位置定位等任務(wù)。
這兩個(gè)維度的設(shè)計(jì),精準(zhǔn)區(qū)分了模型是只會(huì)「記住走過的路」,還是真的構(gòu)建了全局一致的空間認(rèn)知地圖。
支柱 3:核心創(chuàng)新 —— 空間信念探針(Belief Probing)
這是整篇論文最具突破性的方法設(shè)計(jì):它不再把模型的空間信念當(dāng)成黑箱,而是在探索的每一步,都讓模型把內(nèi)在的認(rèn)知地圖顯性化輸出,直接測量信念的質(zhì)量、穩(wěn)定性與不確定性。
論文設(shè)計(jì)了兩類互補(bǔ)的信念探針,完整覆蓋「已知的空間」和「未知的空間」:
認(rèn)知地圖探針(Cognitive Map Probing):測量模型對已觀測空間的信念質(zhì)量
不確定性地圖探針(Uncertainty Map Probing):測量模型對未觀測空間的不確定性建模能力
3.3 信念修正的專屬評測:空間錯(cuò)誤信念范式
論文復(fù)刻 ToM 的錯(cuò)誤信念任務(wù),設(shè)計(jì)了專門的動(dòng)態(tài)環(huán)境實(shí)驗(yàn):
先讓模型完成初始探索,構(gòu)建完整的空間信念;
在模型不知情的情況下,秘密移動(dòng) / 旋轉(zhuǎn) 4 個(gè)物體,改變空間結(jié)構(gòu);
讓模型重新探索環(huán)境,測試它能否發(fā)現(xiàn)變化、識別變化的物體、并更新自己的認(rèn)知地圖。
論文還專門定義了信念慣性(Belief Inertia)指標(biāo),量化模型是否會(huì)被過時(shí)的先驗(yàn)信念帶偏 —— 哪怕看到了新的證據(jù),依然堅(jiān)持舊的空間坐標(biāo) / 朝向,這是衡量空間信念動(dòng)態(tài)修正能力的核心指標(biāo)。
第四階 核心發(fā)現(xiàn):SOTA 基礎(chǔ)模型的空間認(rèn)知,到底在哪里系統(tǒng)性失效? 核心問題:基于 ToS 框架的全鏈路診斷,當(dāng)前頂尖模型的空間能力,到底處于什么水平?哪些環(huán)節(jié)是無法繞過的核心瓶頸?
論文對 GPT-5.2、Gemini-3 Pro、Claude-4.5 Sonnet、GLM-4.6V、Qwen3-VL 等主流 SOTA 模型做了全面評測,所有發(fā)現(xiàn)都緊扣「空間信念的全生命周期」線索,從探索、構(gòu)建、穩(wěn)定性、修正四個(gè)維度,給出了精準(zhǔn)的診斷結(jié)論。
4.1 核心瓶頸 1:主動(dòng) - 被動(dòng)鴻溝 —— 主動(dòng)探索是空間認(rèn)知的第一卡點(diǎn)
論文最核心的實(shí)證發(fā)現(xiàn):所有模型在主動(dòng)探索場景下的性能,都顯著低于被動(dòng)推理場景,且環(huán)境越復(fù)雜,鴻溝越大。
核心數(shù)據(jù):視覺環(huán)境下,GPT-5.2 被動(dòng)推理平均準(zhǔn)確率 57.1%,主動(dòng)探索直接掉到 46.0%;Gemini-3 Pro 從 60.5% 掉到 57.3%;文本環(huán)境下,GPT-5.2 被動(dòng)準(zhǔn)確率 90.4%,主動(dòng)探索僅 72.0%;
底層原因:模型無法有效建模空間不確定性,不知道「哪里最該去看」。GPT-5.2 采用「見門就進(jìn)」的無策略探索,經(jīng)常遺漏當(dāng)前房間的物體,路徑高度冗余;Gemini-3 Pro 雖然采用了更系統(tǒng)的「旋轉(zhuǎn)掃描」策略,更接近 SCOUT 代理,但依然達(dá)不到最優(yōu)探索效率;
關(guān)鍵結(jié)論:哪怕模型擁有極強(qiáng)的空間推理能力(被動(dòng)場景下的高性能),如果無法自主高效地獲取信息,依然無法構(gòu)建可靠的空間信念 —— 這就像一個(gè)擁有超強(qiáng)記憶力的人,卻不會(huì)規(guī)劃路線,永遠(yuǎn)畫不出完整的地圖。
4.2 核心瓶頸 2:模態(tài)鴻溝 —— 視覺空間認(rèn)知的感知 - 表征耦合失效
論文通過雙環(huán)境對比,發(fā)現(xiàn)了極其顯著的模態(tài)差距:所有模型在文本世界的性能,都碾壓視覺世界,且差距在信念構(gòu)建、穩(wěn)定性、修正全環(huán)節(jié)普遍存在。
核心數(shù)據(jù):認(rèn)知地圖探針顯示,文本環(huán)境下 GPT-5.2 的位置準(zhǔn)確率 91.0%,朝向準(zhǔn)確率 75.1%;而視覺環(huán)境下,位置準(zhǔn)確率僅 20.2%,朝向準(zhǔn)確率 42.0%;Gemini-3 Pro 在文本環(huán)境位置準(zhǔn)確率 92.5%,視覺環(huán)境僅 32.2%;
底層原因:視覺空間認(rèn)知存在雙重瓶頸:① 初級感知瓶頸:模型很難從第一人稱圖像中精準(zhǔn)提取物體的朝向、距離、相對位置等空間信息,尤其是物體朝向的識別,接近隨機(jī)水平;② 感知 - 表征耦合瓶頸:模型無法把瞬時(shí)的視覺觀測,穩(wěn)定地整合到全局的 allocentric 認(rèn)知地圖中,局部觀測和全局信念經(jīng)常出現(xiàn)矛盾。
4.3 核心瓶頸 3:信念不穩(wěn)定性 —— 空間記憶的時(shí)序衰減與漂移
通過認(rèn)知地圖探針的時(shí)序追蹤,論文發(fā)現(xiàn)了一個(gè)被傳統(tǒng)評測完全忽略的關(guān)鍵問題:模型的空間信念是高度不穩(wěn)定的,哪怕一開始正確感知到的空間信息,也會(huì)在后續(xù)探索中被錯(cuò)誤覆蓋,出現(xiàn)「越看越錯(cuò)」的信念漂移。
核心數(shù)據(jù):視覺環(huán)境下,GPT-5.2 的信念穩(wěn)定性僅 56.4%,Gemini-3 Pro 僅 61.8%;而文本環(huán)境下,二者的穩(wěn)定性分別達(dá)到 86.0% 和 84.8%;
底層原因:模型缺乏穩(wěn)定的空間記憶維護(hù)機(jī)制,新的觀測會(huì)無差別地覆蓋舊的記憶,無法區(qū)分「經(jīng)過驗(yàn)證的確定事實(shí)」和「新的觀測證據(jù)」,導(dǎo)致全局認(rèn)知地圖的精度隨著探索步數(shù)增加反而下降;
關(guān)鍵結(jié)論:傳統(tǒng)評測只看最終的地圖精度,卻忽略了時(shí)序穩(wěn)定性 —— 而真實(shí)世界的具身導(dǎo)航,恰恰需要長期穩(wěn)定的空間信念,這是當(dāng)前模型的核心短板。
通過空間錯(cuò)誤信念范式,論文發(fā)現(xiàn)了當(dāng)前模型空間認(rèn)知最致命的缺陷:模型存在極強(qiáng)的空間信念慣性,尤其是視覺模態(tài)下,哪怕直接觀測到了空間的變化,也無法覆蓋過時(shí)的先驗(yàn)信念。
核心數(shù)據(jù):文本環(huán)境下,GPT-5.2 的位置信念慣性僅 5.5%,朝向 12.5%;而視覺環(huán)境下,位置信念慣性飆升至 68.9%,朝向 34.7%;Gemini-3 Pro 視覺環(huán)境下的位置信念慣性也高達(dá) 51.1%;
底層原因:模型的空間信念一旦形成,就會(huì)產(chǎn)生極強(qiáng)的先驗(yàn)偏見,無法有效檢測「新觀測」和「舊信念」之間的沖突,更無法用新的證據(jù)更新全局地圖;尤其是視覺模態(tài)下,模型對物體朝向的記憶幾乎是固化的,哪怕看到了物體轉(zhuǎn)了方向,依然堅(jiān)持初始的朝向判斷;
關(guān)鍵結(jié)論:當(dāng)前模型的空間認(rèn)知,本質(zhì)上是「一次性的靜態(tài)建圖」,而真實(shí)世界的空間是動(dòng)態(tài)變化的 —— 家具會(huì)移動(dòng)、門會(huì)開關(guān)、路會(huì)被堵,無法動(dòng)態(tài)修正信念的空間認(rèn)知,在真實(shí)具身場景中完全不可用。
ToS 徹底打破了此前空間智能評測的兩大誤區(qū):
打破了「被動(dòng)推理 = 空間認(rèn)知」的誤區(qū):把空間智能的核心,從「對給定信息的推理」,拉回到了「對未知空間的主動(dòng)探索」,回歸了空間的本質(zhì)屬性;
打破了「任務(wù)成功 = 認(rèn)知正確」的誤區(qū):用信念探針直接打開模型的黑箱,從「看結(jié)果」變成了「看過程」,可以精準(zhǔn)定位模型的失效環(huán)節(jié),而不是只給出一個(gè)籠統(tǒng)的準(zhǔn)確率。
同時(shí),它為具身智能的「世界模型」提供了一套可定義、可測量、可優(yōu)化的具體框架 —— 世界模型最核心的組件,就是對空間結(jié)構(gòu)的建模,而 ToS 把這個(gè)模糊的概念,變成了可落地的科研范式。
5.2 產(chǎn)業(yè)意義:指明了下一代具身 AI 的核心優(yōu)化方向
當(dāng)前的機(jī)器人、自動(dòng)駕駛、具身 Agent,最大的落地瓶頸之一,就是在未知、動(dòng)態(tài)環(huán)境中的空間認(rèn)知能力 —— 而 ToS 的診斷結(jié)論,直接給出了明確的優(yōu)化路徑:
必須為基礎(chǔ)模型設(shè)計(jì)不確定性感知的主動(dòng)探索策略,讓模型學(xué)會(huì)「知道自己不知道什么」,并主動(dòng)選擇能最大程度降低不確定性的行動(dòng);
必須解決視覺空間的感知 - 表征解耦問題,讓模型能從第一人稱視覺中,穩(wěn)定提取并整合空間信息,構(gòu)建全局一致的認(rèn)知地圖;
必須為模型設(shè)計(jì)穩(wěn)定的空間記憶維護(hù)與更新機(jī)制,解決信念漂移和信念慣性問題,讓模型能在長時(shí)序探索中保持信念穩(wěn)定,同時(shí)能根據(jù)環(huán)境變化動(dòng)態(tài)修正信念。
5.3 終極追問:空間認(rèn)知,是通用人工智能的必經(jīng)之路嗎?
論文的結(jié)尾,留下了一個(gè)最值得深思的問題:人類的高級認(rèn)知能力,很大程度上是在與物理空間的交互中演化而來的 —— 我們的抽象推理、因果建模、心智理論,都根植于我們對空間的理解。那么,對于通用人工智能而言,真正的空間認(rèn)知能力,是不是從「被動(dòng)處理信息的語言模型」,走向「主動(dòng)與世界交互的具身智能」的必經(jīng)之路?
回答是肯定的,空間認(rèn)知是AGI的必經(jīng)之路,而《Theory of Space》這篇論文,恰恰為這個(gè)問題的回答,提供了第一套嚴(yán)謹(jǐn)?shù)摹⒖闪炕摹⒖傻睦碚撆c實(shí)驗(yàn)框架。
全文核心線索復(fù)盤
整篇論文的邏輯,完全以「空間」為核心線索:
從空間的本質(zhì)屬性(部分可觀測、具身依賴、信念驅(qū)動(dòng))出發(fā),提出終極元問題;
以空間信念的全生命周期為核心,構(gòu)建了「構(gòu)建 - 修正 - 利用」的理論框架;
以空間信念的顯性化測量為目標(biāo),設(shè)計(jì)了「主動(dòng)探索 - 信念利用 - 信念探針」的方法范式;
以空間信念的全鏈路診斷為核心,發(fā)現(xiàn)了當(dāng)前模型的四大系統(tǒng)性瓶頸;
最終回歸空間認(rèn)知在通用智能中的核心地位,重構(gòu)了具身智能的評測與發(fā)展范式。
這篇Theory of Space最大突破在于它打破了將具身智能等同于 “視覺識別” 或 “導(dǎo)航工程” 的窄化認(rèn)知,完成了從 “擬合數(shù)據(jù)” 到 “構(gòu)建世界”的范式升級。它不再將空間智能僅僅視為處理圖像的能力,而是將其升維為構(gòu)建內(nèi)在 “認(rèn)知地圖” 與維護(hù) “空間信念” 的因果推理能力—— 標(biāo)志著具身智能從被動(dòng)的 “統(tǒng)計(jì)學(xué)習(xí)”,進(jìn)化為能主動(dòng)探索、理解并適應(yīng)動(dòng)態(tài)環(huán)境的 “世界建模”。
更關(guān)鍵的是,它通過“空間錯(cuò)誤信念”等顛覆性設(shè)計(jì),揭示了當(dāng)前模型本質(zhì)上是 “靜態(tài)的一次性建圖”,而非真正具備時(shí)序穩(wěn)定性與動(dòng)態(tài)修正能力的智能體。
這一框架重構(gòu)了我們對具身智能的理解:真正的空間智能,不是從圖像中提取像素特征,而是能否像人類一樣,在部分可觀測的世界中,通過主動(dòng)行動(dòng)消除不確定性、生成連貫的內(nèi)在模型,并以此驅(qū)動(dòng)下游決策。這是一次從 “算法優(yōu)化” 到 “認(rèn)知本質(zhì)” 的世界觀級跨越。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.