无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

入選ECCV2026!清華開源空間模型打敗Gemini:世界變化中持續學習

0
分享至

允中 發自 凹非寺
量子位 | 公眾號 QbitAI

在機器人、自動駕駛、AR等真實場景中,空間理解從來都不是“看一眼圖像”就能解決的問題。

相機持續移動、視角不斷變化、目標時隱時現,空間信息從來不是明確且集中的,而是往往分散在長時間視頻流里,模型不僅要“看得見”,更要“記得住、連得起來、還能持續更新”

這使得流式空間智能成為多模態大模型邁向真實世界應用的一道關鍵門檻。

這篇文章的出發點是思考:多模態Agent如何在動態變化的世界中持續更新自己,而不是每次都像第一次看見世界。

真實世界不是一張靜態圖片,也不是一段固定長度的視頻,而是一段持續展開的經驗流

正如人理解空間,也不是一次性看完整個房間,而是在移動、觀察、遺忘、修正中,逐漸形成穩定的空間記憶。

近日,由清華大學博士生劉芳甫擔任一作,聯合多位研究者共同完成的Spatial-TTT,被計算機視覺頂級會議ECCV 2026正式接收。



ECCV與CVPR、ICCV通常并稱為計算機視覺三大頂級會議,每兩年舉辦一屆,用率常年偏低。

對于一項工作而言,入選ECCV不只是多了一個會議標簽,也意味著它需要在研究問題、方法創新與實驗完整性上接受嚴格的同行評審。

Spatial-TTT瞄準的,正是多模態模型從“看懂畫面”邁向“理解真實空間”過程中一個尚未解決的核心問題:

當視頻不斷延長,模型能否不依賴無限膨脹的上下文,而是在觀看過程中,持續形成并更新自己的空間記憶?

實驗中,僅有2B參數的Spatial-TTT,在論文測試的多個專項空間智能基準上超過GPT-5、Gemini-3-pro等閉源模型,并能夠處理最長120分鐘的流式視頻。

它所給出的答案可以概括為一句話:

讓模型不只是看視頻,而是在觀看過程中,邊看、邊更新、邊“長出”一份空間記憶

能看長視頻,不等于能夠記住和理解空間

空間智能的難點,從來不只是“把上下文做長”,而是空間信息該如何在時間維度上被選擇、組織、保留下來

在真實場景中,模型面對的是一段持續涌入的視覺流:

相機移動會改變視角,遮擋會打斷觀察,物體的顯隱又會讓關鍵證據散落在相距很遠的時刻。

現有方法嘗試過引入深度信息、多視角輸入、空間專項微調數據,乃至訓練專用空間模型,但大多仍局限于單張圖像或短視頻片段,很難擴展到真實應用中動輒幾十分鐘、幾小時的長時程流式視頻。

更進一步看,問題的核心并不只是模型"窗口不夠長",而是它缺少一種機制,能在推理過程中不斷把新觀察吸收進內部狀態,再把這些狀態組織成一份可供后續調用的空間記憶。

傳統的靜態推理范式很難解決這一點,而TTT恰好提供了另一種可能:讓模型在推理時邊看邊更新參數,用參數本身的變化來承擔記憶功能。



Spatial-TTT:把模型參數變成動態記憶

為應對上述挑戰,研究團隊提出Spatial-TTT,將fast weights作為一種緊湊的非線性記憶,在處理視頻流的同時進行在線更新,不斷累積跨時間的3D空間證據。

與把整段視頻一次性塞進上下文不同,Spatial-TTT更像是在持續“維護一份空間狀態”

每當新的視頻chunk到來,模型就對已有的空間記憶做一次增量式刷新。



TTT概念并不新,難的是讓它真正理解空間

TTT此前已經被用于語言建模、新視角合成和視頻生成,但流式視覺空間理解有其特殊性:

模型既要保留預訓練階段形成的視覺—語言能力,又要顯式利用視頻token的局部幾何與時間連續性,還需要足夠密集的監督,教會快速權重哪些空間信息值得長期保留。

圍繞這三個問題,Spatial-TTT分別設計了混合架構、空間預測機制和密集場景描述監督

設計一:混合式TTT架構,完美兼顧預訓練知識和長視頻處理

直接把所有注意力層替換成TTT層,理論上效率更高,但會破壞原始多模態模型的跨模態對齊與語義能力,相當于在獲得長程記憶的同時,丟失了模型原本的語義理解能力。

為此,研究團隊設計了混合式TTT架構

  • 在解碼器中按照3:1的比例交錯插入TTT層與標準self-attention anchor layers,其中75%的層采用TTT,負責將長程信息寫入快速權重;
  • 25%的層保留標準全注意力,作為錨定層,維持預訓練模型已有的語義理解和跨模態推理能力。

也就是說,Spatial-TTT并非用TTT取代注意力,而是讓兩者各自承擔不同角色:TTT負責記得更久,全注意力負責理解得更準。

與此同時,為提升大塊視覺token的處理效率,模型還引入了large-chunk更新,并搭配并行的sliding-window attention

前者大幅提升GPU利用率,避免傳統TTT小塊頻繁更新導致的效率低下,以及強行切斷幀內空間結構的問題;

后者則保證chunk內部仍具有完整的因果局部交互,避免空間連續性被更新邊界打斷。

兩者分工明確:滑動窗口負責處理近期幀和局部結構,快速權重則負責跨塊保存更長期的信息。

這一設計讓模型在長視頻場景下既具備線性復雜度帶來的可擴展性,又不會犧牲局部時空建模能力。

設計二:Spatial-predictive mechanism,讓在線記憶真正“懂空間”

僅僅把TTT搬到視頻中還不夠。

研究團隊觀察到,傳統TTT中Q/K/V通常通過逐點線性投影生成,這意味著每個視覺token在進入快速權重之前,主要被當成一個孤立單元處理——

這種方式忽略了視覺token之間天然存在的局部幾何結構和時間連續性,不利于空間狀態的穩定更新。

但視覺空間信息天然存在于局部關系中,如果忽略這種局部連續性,快速權重就需要從零開始推斷幾何關系,記憶也更容易變得碎片化。

為此,Spatial-TTT在TTT分支中引入了空間預測機制(spatial-predictive mechanism),對Q/K/V加入輕量級3D時空卷積。

經過這一處理,fast weights學到的就不再是孤立token之間的映射,而是時空上下文到時空上下文的預測關系,從而能更好地捕捉幾何對應、視角變化與時間連續性,顯著增強在線更新的穩定性與有效性。

設計三:稠密場景描述監督,模型從“會答題”走向“維護全局3D記憶”

現有空間智能數據大多是稀疏、局部的Q&A監督,例如判斷兩個物體的相對關系,或者回答一個整數計數問題——

這類短答案,只能覆蓋場景狀態中的極小部分,對fast weights學習長期有效的更新動態幫助有限。

問題在于,快速權重需要學習的是如何持續維護整個場景,而不僅僅是提取某個局部答案。

如果訓練中只問桌子和椅子的關系,模型就沒有動力記住房間里其他物體,也沒有動力形成完整的空間布局。

因此,研究團隊構建了一份稠密的3D場景描述數據

這份數據要求模型生成覆蓋場景全局語境、物體類別與數量、空間關系等內容的scene walkthrough,用更高覆蓋率的監督信號來訓練fast weights。

該訓練采用兩階段spatial-aware progressive training方式:第一階段,模型先在密集場景描述上學習如何“記住整個空間”,形成全局3D意識;

第二階段,再用數百萬條spatial VQA數據,進一步強化方向判斷、距離估計、計數、房間大小估計和路線規劃等流式空間推理能力。

實驗結果:不僅更會“想空間”,也更能“撐長視頻”

實驗結果顯示,Spatial-TTT在多個空間智能基準上都取得了非常強的表現。

在VSI-Bench上,作為一個2B規模模型,Spatial-TTT-2B取得了64.4的平均分,超過多種閉源與開源基線;

其中在Absolute Distance、Relative Direction、Route Plan、Appearance Order等任務上表現尤為突出,說明它在度量級空間估計、方向判斷與路徑規劃等任務上具備更強能力。



在更考驗多視角細粒度空間推理的MindCube-Tiny上,Spatial-TTT拿下76.2%的準確率,比最強閉源基線Gemini-3-pro(63.9%)高出12個百分點,比代表性開源空間模型MindCube-3B(51.7%)高出近25個百分點。

論文有效證明了Spatial-TTT在視角變化與遮擋條件下展現出更穩健的空間推理能力。



在考驗“長期記憶”的VSI-SUPER系列任務上,Spatial-TTT的優勢進一步被放大。

對于需要長時間累計證據的VSI-SUPER-Count,Spatial-TTT在10、30、60、120分鐘視頻上的得分,分別達到31.8、45.6、36.2、38.4;

相比之下,一些通用多模態模型和空間模型在更長視頻上要么性能快速崩塌,要么直接OOM(內存/顯存耗盡)。

而之所以能在更長時程下保持穩定,正是因為Spatial-TTT通過在線更新逐步整合新觀察,而不是被動依賴一次性長上下文處理。



深度分析:Spatial-TTT的提升究竟來自哪里?

消融實驗表明,Spatial-TTT的性能提升并不是單一技巧帶來的,而是三個設計協同發力的結果:

  • 去掉空間預測機制,VSI-Bench平均分從64.4降到62.1;
  • 去掉密集場景描述監督,降到61.3;
  • 如果完全去掉混合架構、只用純TTT結構,平均分直接掉到53.9。

這說明架構設計、時空歸納偏置與監督信號之間存在顯著的協同效應。

效率分析同樣值得關注。

在1024幀輸入設置下,Spatial-TTT-2B的峰值顯存占用為11.9GB,理論計算量為799.4 TFLOPs;

相比之下,行業領先的大廠模型分別為21.2GB和1403.1 TFLOPs——

也就是說,Spatial-TTT在長上下文下實現了超過40%的顯存與計算節省。

此外,帶顯式幾何編碼器的Spatial-MLLM-4B在512幀和1024幀場景下已無法運行。

總結與展望:從“保存更多內容”,走向“形成持續的世界狀態”

Spatial-TTT最值得關注的,不只是一個2B模型在多個空間智能基準上的領先成績,它還提供了一種重新理解長視頻記憶問題的方式。

傳統長上下文方案試圖保留更多歷史內容,Spatial-TTT則進一步追問:

模型能否將持續到來的視覺觀察,轉化為一份能夠不斷更新、修正和調用的內部空間狀態?

它不需要永久保存每一幀畫面,卻需要知道自己經過了哪里、看到了什么,以及空間關系如何隨著新的觀察發生變化。

這對于真正進入物理世界的Agent尤其重要。

機器人不會只進入一次房間,自動駕駛系統不會只經過一次路口,AR設備也不會只觀察幾秒鐘的環境。

它們需要在長期運行中積累空間經驗,讓此前的觀察真正影響之后的感知與決策,而不是在每一次任務開始時重新理解周圍世界。

對于這些需要長期連續運行的Physical Agent系統而言,這項入選ECCV 2026的工作所提供的,或許不只是一個表現更強的空間智能模型,更是一條從流式視覺感知走向持續世界狀態建模的路徑。

更關鍵的變化在于,過去的觀察開始參與下一次判斷與行動。

當空間信息能夠被持續積累、修正和調用,Agent面對的就不再是一幀幀彼此割裂的畫面,而是一個具有連續性、能夠被理解并進一步作用于其中的世界。

論文鏈接:https://arxiv.org/pdf/2603.12255
項目主頁:https://liuff19.github.io/Spatial-TTT/
GitHub:https://github.com/THU-SI/Spatial-TTT/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1951年海南剿匪,橫行11年女匪首被捕,老政委看了一眼耳環當場嚇跪

1951年海南剿匪,橫行11年女匪首被捕,老政委看了一眼耳環當場嚇跪

睡前講故事
2026-06-18 19:33:01
看看德國悲慘現狀就明白:中國為何堅決打擊性交易,原因不言自明

看看德國悲慘現狀就明白:中國為何堅決打擊性交易,原因不言自明

壹知眠羊
2026-06-06 07:16:23
尼日爾撕毀4億美元合同,并驅逐中方高管,我方暗藏后手漂亮反擊

尼日爾撕毀4億美元合同,并驅逐中方高管,我方暗藏后手漂亮反擊

詭譎怪談
2025-04-30 22:17:42
日本4-0大勝,賽后,看看中國球迷都怎么說

日本4-0大勝,賽后,看看中國球迷都怎么說

小樓侃體育
2026-06-21 15:02:41
太離譜?智譜市值竟達3個美團、4個京東、6個快手,成交額遠超騰訊、阿里,機構發聲:更像07年大牛市,而非互聯網泡沫

太離譜?智譜市值竟達3個美團、4個京東、6個快手,成交額遠超騰訊、阿里,機構發聲:更像07年大牛市,而非互聯網泡沫

金融界
2026-06-22 11:27:14
中國男籃VS荷蘭!郭士強拒絕輸球,楊瀚森確定出戰,央視直播

中國男籃VS荷蘭!郭士強拒絕輸球,楊瀚森確定出戰,央視直播

體壇瞎白話
2026-06-22 07:30:39
美軍投兩原子彈,日本賭美國沒有第三顆,誰知美國一招讓日本安分

美軍投兩原子彈,日本賭美國沒有第三顆,誰知美國一招讓日本安分

磊子講史
2026-06-12 16:15:35
賴辛格將訪華

賴辛格將訪華

上觀新聞
2026-06-21 15:34:08
79歲王奎榮贈北京140平房產及千萬存款予小37歲妻子

79歲王奎榮贈北京140平房產及千萬存款予小37歲妻子

星河不入我
2026-06-21 05:36:03
83.8萬起,蔚來新車上市!

83.8萬起,蔚來新車上市!

新浪財經
2026-06-21 20:48:44
中國女排輸土耳其,一人得到瓦爾加斯的夸贊:他是一個很棒的球員

中國女排輸土耳其,一人得到瓦爾加斯的夸贊:他是一個很棒的球員

南海浪花
2026-06-22 12:11:24
不出意外的話,7月起,蔬菜、豬肉、雞蛋價格或迎來“大變局”

不出意外的話,7月起,蔬菜、豬肉、雞蛋價格或迎來“大變局”

巢客HOME
2026-06-22 07:30:09
東契奇離隊倒計時!老詹未承諾回歸,湖人被逼上絕境,不能再摳了

東契奇離隊倒計時!老詹未承諾回歸,湖人被逼上絕境,不能再摳了

你的籃球頻道
2026-06-22 09:41:37
上門索要大衣哥一半家產?周茂強被行拘十天,幫拍網紅賬號遭限流

上門索要大衣哥一半家產?周茂強被行拘十天,幫拍網紅賬號遭限流

草莓解說體育
2026-06-21 12:10:10
英國政壇震蕩:斯塔默22日辭職,近十年第七首相將誕生

英國政壇震蕩:斯塔默22日辭職,近十年第七首相將誕生

王飬吃吃喝喝
2026-06-21 17:59:40
讓人揪心啊!武漢一高端小區暴雨過后,地下車庫車輛大半泡在水中

讓人揪心?。∥錆h一高端小區暴雨過后,地下車庫車輛大半泡在水中

火山詩話
2026-06-21 18:43:20
恩佐:自己在國家隊算不上主力;在麥卡身邊踢球非常舒服

恩佐:自己在國家隊算不上主力;在麥卡身邊踢球非常舒服

硯底沉香
2026-06-22 10:14:03
李琦不顧醫囑,每日兩包煙八兩酒,如今健康狀況如何?

李琦不顧醫囑,每日兩包煙八兩酒,如今健康狀況如何?

可愛的巴比龍
2026-06-10 06:03:11
日本隊贏球央視收視率破 3!中國球迷邊看邊酸:何時輪到我們?

日本隊贏球央視收視率破 3!中國球迷邊看邊酸:何時輪到我們?

十點體壇
2026-06-21 18:37:35
日本4比0,國內眾多解說又開始酸了,國足球員就差跪下道歉了

日本4比0,國內眾多解說又開始酸了,國足球員就差跪下道歉了

十點體壇
2026-06-21 18:42:35
2026-06-22 13:28:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12825文章數 176502關注度
往期回顧 全部

科技要聞

智譜盤中狂飆超40%,市值破萬億港元

頭條要聞

37歲男子愛上女主播月賺5千打賞14萬 父親:智商有問題

頭條要聞

37歲男子愛上女主播月賺5千打賞14萬 父親:智商有問題

體育要聞

法國球星祝中國隊下屆世界杯取得好成績

娛樂要聞

韓紅幫馮小剛宣傳,結果翻車了…

財經要聞

“床墊界的特斯拉”破產了

汽車要聞

全面提升 全新理想L8 livis將家用舒適再進化

態度原創

房產
教育
親子
藝術
公開課

房產要聞

商業清零式退潮,大量住宅登場!三亞又要大規模調規!

教育要聞

代詞指代:英語作文連貫性的“隱形殺手”,你真的掌握了嗎?

親子要聞

除螨噴霧劑對嬰兒安全嗎?2026 母嬰級認證除螨噴霧劑 TOP 榜,仙貝寧無刺激寶寶可用

藝術要聞

冷軍 人物油畫寫生8幅

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版