網易首頁 > 網易號 > 正文申請入駐

入選ECCV2026！清華開源空間模型打敗Gemini：世界變化中持續學習

2026-06-22 11:44:13　來源: 量子位

河北舉報

分享至

允中發自凹非寺
量子位 | 公眾號 QbitAI

在機器人、自動駕駛、AR等真實場景中，空間理解從來都不是“看一眼圖像”就能解決的問題。

相機持續移動、視角不斷變化、目標時隱時現，空間信息從來不是明確且集中的，而是往往分散在長時間視頻流里，模型不僅要“看得見”，更要“記得住、連得起來、還能持續更新”

這使得流式空間智能成為多模態大模型邁向真實世界應用的一道關鍵門檻。

這篇文章的出發點是思考：多模態Agent如何在動態變化的世界中持續更新自己，而不是每次都像第一次看見世界。

真實世界不是一張靜態圖片，也不是一段固定長度的視頻，而是一段持續展開的經驗流

正如人理解空間，也不是一次性看完整個房間，而是在移動、觀察、遺忘、修正中，逐漸形成穩定的空間記憶。

近日，由清華大學博士生劉芳甫擔任一作，聯合多位研究者共同完成的Spatial-TTT，被計算機視覺頂級會議ECCV 2026正式接收。

ECCV與CVPR、ICCV通常并稱為計算機視覺三大頂級會議，每兩年舉辦一屆，用率常年偏低。

對于一項工作而言，入選ECCV不只是多了一個會議標簽，也意味著它需要在研究問題、方法創新與實驗完整性上接受嚴格的同行評審。

Spatial-TTT瞄準的，正是多模態模型從“看懂畫面”邁向“理解真實空間”過程中一個尚未解決的核心問題：

當視頻不斷延長，模型能否不依賴無限膨脹的上下文，而是在觀看過程中，持續形成并更新自己的空間記憶？

實驗中，僅有2B參數的Spatial-TTT，在論文測試的多個專項空間智能基準上超過GPT-5、Gemini-3-pro等閉源模型，并能夠處理最長120分鐘的流式視頻。

它所給出的答案可以概括為一句話：

讓模型不只是看視頻，而是在觀看過程中，邊看、邊更新、邊“長出”一份空間記憶

能看長視頻，不等于能夠記住和理解空間

空間智能的難點，從來不只是“把上下文做長”，而是空間信息該如何在時間維度上被選擇、組織、保留下來

在真實場景中，模型面對的是一段持續涌入的視覺流：

相機移動會改變視角，遮擋會打斷觀察，物體的顯隱又會讓關鍵證據散落在相距很遠的時刻。

現有方法嘗試過引入深度信息、多視角輸入、空間專項微調數據，乃至訓練專用空間模型，但大多仍局限于單張圖像或短視頻片段，很難擴展到真實應用中動輒幾十分鐘、幾小時的長時程流式視頻。

更進一步看，問題的核心并不只是模型"窗口不夠長"，而是它缺少一種機制，能在推理過程中不斷把新觀察吸收進內部狀態，再把這些狀態組織成一份可供后續調用的空間記憶。

傳統的靜態推理范式很難解決這一點，而TTT恰好提供了另一種可能：讓模型在推理時邊看邊更新參數，用參數本身的變化來承擔記憶功能。

Spatial-TTT：把模型參數變成動態記憶

為應對上述挑戰，研究團隊提出Spatial-TTT，將fast weights作為一種緊湊的非線性記憶，在處理視頻流的同時進行在線更新，不斷累積跨時間的3D空間證據。

與把整段視頻一次性塞進上下文不同，Spatial-TTT更像是在持續“維護一份空間狀態”

每當新的視頻chunk到來，模型就對已有的空間記憶做一次增量式刷新。

TTT概念并不新，難的是讓它真正理解空間

TTT此前已經被用于語言建模、新視角合成和視頻生成，但流式視覺空間理解有其特殊性：

模型既要保留預訓練階段形成的視覺—語言能力，又要顯式利用視頻token的局部幾何與時間連續性，還需要足夠密集的監督，教會快速權重哪些空間信息值得長期保留。

圍繞這三個問題，Spatial-TTT分別設計了混合架構、空間預測機制和密集場景描述監督

設計一：混合式TTT架構，完美兼顧預訓練知識和長視頻處理

直接把所有注意力層替換成TTT層，理論上效率更高，但會破壞原始多模態模型的跨模態對齊與語義能力，相當于在獲得長程記憶的同時，丟失了模型原本的語義理解能力。

為此，研究團隊設計了混合式TTT架構

在解碼器中按照3:1的比例交錯插入TTT層與標準self-attention anchor layers，其中75%的層采用TTT，負責將長程信息寫入快速權重；
25%的層保留標準全注意力，作為錨定層，維持預訓練模型已有的語義理解和跨模態推理能力。

也就是說，Spatial-TTT并非用TTT取代注意力，而是讓兩者各自承擔不同角色：TTT負責記得更久，全注意力負責理解得更準。

與此同時，為提升大塊視覺token的處理效率，模型還引入了large-chunk更新，并搭配并行的sliding-window attention

前者大幅提升GPU利用率，避免傳統TTT小塊頻繁更新導致的效率低下，以及強行切斷幀內空間結構的問題；

后者則保證chunk內部仍具有完整的因果局部交互，避免空間連續性被更新邊界打斷。

兩者分工明確：滑動窗口負責處理近期幀和局部結構，快速權重則負責跨塊保存更長期的信息。

這一設計讓模型在長視頻場景下既具備線性復雜度帶來的可擴展性，又不會犧牲局部時空建模能力。

設計二：Spatial-predictive mechanism，讓在線記憶真正“懂空間”

僅僅把TTT搬到視頻中還不夠。

研究團隊觀察到，傳統TTT中Q/K/V通常通過逐點線性投影生成，這意味著每個視覺token在進入快速權重之前，主要被當成一個孤立單元處理——

這種方式忽略了視覺token之間天然存在的局部幾何結構和時間連續性，不利于空間狀態的穩定更新。

但視覺空間信息天然存在于局部關系中，如果忽略這種局部連續性，快速權重就需要從零開始推斷幾何關系，記憶也更容易變得碎片化。

為此，Spatial-TTT在TTT分支中引入了空間預測機制（spatial-predictive mechanism），對Q/K/V加入輕量級3D時空卷積。

經過這一處理，fast weights學到的就不再是孤立token之間的映射，而是時空上下文到時空上下文的預測關系，從而能更好地捕捉幾何對應、視角變化與時間連續性，顯著增強在線更新的穩定性與有效性。

設計三：稠密場景描述監督，模型從“會答題”走向“維護全局3D記憶”

現有空間智能數據大多是稀疏、局部的Q&A監督，例如判斷兩個物體的相對關系，或者回答一個整數計數問題——

這類短答案，只能覆蓋場景狀態中的極小部分，對fast weights學習長期有效的更新動態幫助有限。

問題在于，快速權重需要學習的是如何持續維護整個場景，而不僅僅是提取某個局部答案。

如果訓練中只問桌子和椅子的關系，模型就沒有動力記住房間里其他物體，也沒有動力形成完整的空間布局。

因此，研究團隊構建了一份稠密的3D場景描述數據

這份數據要求模型生成覆蓋場景全局語境、物體類別與數量、空間關系等內容的scene walkthrough，用更高覆蓋率的監督信號來訓練fast weights。

該訓練采用兩階段spatial-aware progressive training方式：第一階段，模型先在密集場景描述上學習如何“記住整個空間”，形成全局3D意識；

第二階段，再用數百萬條spatial VQA數據，進一步強化方向判斷、距離估計、計數、房間大小估計和路線規劃等流式空間推理能力。

實驗結果：不僅更會“想空間”，也更能“撐長視頻”

實驗結果顯示，Spatial-TTT在多個空間智能基準上都取得了非常強的表現。

在VSI-Bench上，作為一個2B規模模型，Spatial-TTT-2B取得了64.4的平均分，超過多種閉源與開源基線；

其中在Absolute Distance、Relative Direction、Route Plan、Appearance Order等任務上表現尤為突出，說明它在度量級空間估計、方向判斷與路徑規劃等任務上具備更強能力。

在更考驗多視角細粒度空間推理的MindCube-Tiny上，Spatial-TTT拿下76.2%的準確率，比最強閉源基線Gemini-3-pro（63.9%）高出12個百分點，比代表性開源空間模型MindCube-3B（51.7%）高出近25個百分點。

論文有效證明了Spatial-TTT在視角變化與遮擋條件下展現出更穩健的空間推理能力。

在考驗“長期記憶”的VSI-SUPER系列任務上，Spatial-TTT的優勢進一步被放大。

對于需要長時間累計證據的VSI-SUPER-Count，Spatial-TTT在10、30、60、120分鐘視頻上的得分，分別達到31.8、45.6、36.2、38.4；

相比之下，一些通用多模態模型和空間模型在更長視頻上要么性能快速崩塌，要么直接OOM（內存/顯存耗盡）。

而之所以能在更長時程下保持穩定，正是因為Spatial-TTT通過在線更新逐步整合新觀察，而不是被動依賴一次性長上下文處理。

深度分析：Spatial-TTT的提升究竟來自哪里？

消融實驗表明，Spatial-TTT的性能提升并不是單一技巧帶來的，而是三個設計協同發力的結果：

去掉空間預測機制，VSI-Bench平均分從64.4降到62.1；
去掉密集場景描述監督，降到61.3；
如果完全去掉混合架構、只用純TTT結構，平均分直接掉到53.9。

這說明架構設計、時空歸納偏置與監督信號之間存在顯著的協同效應。

效率分析同樣值得關注。

在1024幀輸入設置下，Spatial-TTT-2B的峰值顯存占用為11.9GB，理論計算量為799.4 TFLOPs；

相比之下，行業領先的大廠模型分別為21.2GB和1403.1 TFLOPs——

也就是說，Spatial-TTT在長上下文下實現了超過40%的顯存與計算節省。

此外，帶顯式幾何編碼器的Spatial-MLLM-4B在512幀和1024幀場景下已無法運行。

總結與展望：從“保存更多內容”，走向“形成持續的世界狀態”

Spatial-TTT最值得關注的，不只是一個2B模型在多個空間智能基準上的領先成績，它還提供了一種重新理解長視頻記憶問題的方式。

傳統長上下文方案試圖保留更多歷史內容，Spatial-TTT則進一步追問：

模型能否將持續到來的視覺觀察，轉化為一份能夠不斷更新、修正和調用的內部空間狀態？

它不需要永久保存每一幀畫面，卻需要知道自己經過了哪里、看到了什么，以及空間關系如何隨著新的觀察發生變化。

這對于真正進入物理世界的Agent尤其重要。

機器人不會只進入一次房間，自動駕駛系統不會只經過一次路口，AR設備也不會只觀察幾秒鐘的環境。

它們需要在長期運行中積累空間經驗，讓此前的觀察真正影響之后的感知與決策，而不是在每一次任務開始時重新理解周圍世界。

對于這些需要長期連續運行的Physical Agent系統而言，這項入選ECCV 2026的工作所提供的，或許不只是一個表現更強的空間智能模型，更是一條從流式視覺感知走向持續世界狀態建模的路徑。

更關鍵的變化在于，過去的觀察開始參與下一次判斷與行動。

當空間信息能夠被持續積累、修正和調用，Agent面對的就不再是一幀幀彼此割裂的畫面，而是一個具有連續性、能夠被理解并進一步作用于其中的世界。

論文鏈接：https://arxiv.org/pdf/2603.12255
項目主頁：https://liuff19.github.io/Spatial-TTT/
GitHub：https://github.com/THU-SI/Spatial-TTT/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

CVPR 2026 | 20步也能穩住畫質，這個擴散加速方法不一樣

機器之心Pro 2026-04-10 18:40:17
0 跟貼 0
13人團隊叫板Anthropic：我們造了一個更快更便宜的大模型

DeepTech深科技 2026-06-20 17:13:28
44 跟貼 44

GaussianDWM：用3D高斯表示統一自動駕駛場景理解與多模態生成

機器之心Pro 2026-06-14 19:24:09
0 跟貼 0

快手開源GoLongRL：23K樣本、9大任務類型，長上下文RL荒時代結束

機器之心Pro 2026-06-21 19:52:29
0 跟貼 0
經典之作PPO算法：曾被NeurIPS拒了

機器之心Pro 2026-06-22 11:02:18
0 跟貼 0

哈？改個URL就行！alphaXiv甩出論文復現神器，單卡也能跑

機器之心Pro 2026-06-21 17:10:57
0 跟貼 0

告別「單科專家」：首個Agent全面進化框架EEVEE發布

機器之心Pro 2026-06-22 13:12:53
0 跟貼 0
李飛飛李曼玲團隊發布空間理論：AI的空間智能還在三歲小孩階段

DeepTech深科技 2026-03-31 15:06:46
0 跟貼 0

恩和發布BPL協議語言，定位生物制造的“工業級編譯器”

鈦媒體APP 2026-06-22 10:00:22
0 跟貼 0
25億美金估值，零收入、這家公司試圖用大腦算法破解AI能耗危機

DeepTech深科技 2026-06-21 21:13:02
1 跟貼 1
ICML 2026｜從「鑒偽」到「修復」，AI圖像取證進入閉環時代

機器之心Pro 2026-06-21 19:01:01
0 跟貼 0
從眼控到腦控，蔡磊化身“賽博軀體”稱將把意識傳送到具身機器人

第一財經資訊 2026-06-21 15:40:24
684 跟貼 684
95后博士休學創業押注AI空間游戲，未上線先出圈吸粉百萬

DeepTech深科技 2025-12-24 21:29:55
0 跟貼 0
FlashAR：僅用0.05%數據，讓預訓練好的自回歸圖像模型飛起來

機器之心Pro 2026-05-24 17:52:21
0 跟貼 0
中科院工業人工智能研究所世界模型PAIWorld登頂WorldArena榜單！

機器之心Pro 2026-06-22 13:16:43
0 跟貼 0
安心養蝦！從OpenClaw看云上AI安全落地路徑

量子位 2026-03-31 20:40:57
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
對談樓天城：Harness會成為AI時代最關鍵的能力之一

量子位 2026-05-06 15:41:08
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
王曉野：Working Agent將是下一個爆發點

量子位 2026-05-21 08:05:51
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
邱錫鵬：未來我們一定會進入泛情境智能時代

量子位 2026-05-21 08:04:26
0 跟貼 0
微信終于要給 AI 手機開門了｜AI 器物志

愛范兒 2026-06-22 12:10:51
0 跟貼 0
LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
Anthropic的AI讀心術，讓人類讀懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟貼 0
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0
電RAM vs DRAM：AI算力時代，電容正在復刻存儲器的價值重估之路

華爾街見聞官方 2026-06-22 11:40:04
0 跟貼 0
36氪首發 | 聯想之星險峰聯合領投，AI算力中心感知與效能管理方案商完成天使輪融資

36氪 2026-06-22 13:14:11
0 跟貼 0
CVPR 2026 | 從視覺Token內在變化量出發，實現VLM無損加速1.87倍

機器之心Pro 2026-03-16 11:56:33
0 跟貼 0
媒體：兩大核武國家“水仗”升級巴基斯坦陷入恐慌

中國新聞周刊 2026-06-21 19:23:56
5220 跟貼 5220
馬斯克預判中國AI2027年追平Fable。智譜唐杰反駁：用不了那么久

究竟視頻 2026-06-21 01:07:24
85 跟貼 85
大學生實習日薪180元弄丟客戶6.5萬元勞力士表

極目新聞 2026-06-21 14:57:13
5328 跟貼 5328
OneReason：當推薦系統學會思考

機器之心Pro 2026-06-09 20:21:15
0 跟貼 0
NASA衛星圖像顯示：昨日和今日克里米亞多地出現火情！

頭條劉博士看美國 2026-06-20 11:04:24
20 跟貼 20

量子位

追蹤人工智能動態

12825文章數 176502關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

教育

親子

藝術

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

入選ECCV2026！清華開源空間模型打敗Gemini：世界變化中持續學習

能看長視頻，不等于能夠記住和理解空間

Spatial-TTT：把模型參數變成動態記憶

TTT概念并不新，難的是讓它真正理解空間

實驗結果：不僅更會“想空間”，也更能“撐長視頻”

深度分析：Spatial-TTT的提升究竟來自哪里？

總結與展望：從“保存更多內容”，走向“形成持續的世界狀態”

智譜盤中狂飆超40%，市值破萬億港元

37歲男子愛上女主播月賺5千打賞14萬 父親:智商有問題

37歲男子愛上女主播月賺5千打賞14萬 父親:智商有問題

法國球星祝中國隊下屆世界杯取得好成績

韓紅幫馮小剛宣傳，結果翻車了…

“床墊界的特斯拉”破產了

全面提升 全新理想L8 livis將家用舒適再進化

態度原創

商業清零式退潮，大量住宅登場！三亞又要大規模調規！

代詞指代：英語作文連貫性的“隱形殺手”，你真的掌握了嗎？

除螨噴霧劑對嬰兒安全嗎？2026 母嬰級認證除螨噴霧劑 TOP 榜，仙貝寧無刺激寶寶可用

冷軍 人物油畫寫生8幅

能看長視頻，不等于能夠記住和理解空間

TTT概念并不新，難的是讓它真正理解空間

實驗結果：不僅更會“想空間”，也更能“撐長視頻”

深度分析：Spatial-TTT的提升究竟來自哪里？

總結與展望：從“保存更多內容”，走向“形成持續的世界狀態”

智譜盤中狂飆超40%，市值破萬億港元

37歲男子愛上女主播月賺5千打賞14萬父親:智商有問題

37歲男子愛上女主播月賺5千打賞14萬父親:智商有問題

韓紅幫馮小剛宣傳，結果翻車了…

全面提升全新理想L8 livis將家用舒適再進化

商業清零式退潮，大量住宅登場！三亞又要大規模調規！

除螨噴霧劑對嬰兒安全嗎？2026 母嬰級認證除螨噴霧劑 TOP 榜，仙貝寧無刺激寶寶可用

冷軍人物油畫寫生8幅