網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

香港科技大學(xué)等機(jī)構(gòu)聯(lián)合揭示視覺(jué)語(yǔ)言模型的空間行動(dòng)鴻溝

2026-06-10 21:30:54　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由香港科技大學(xué)（廣州）、清華大學(xué)、中關(guān)村學(xué)院、赫爾辛基大學(xué)聯(lián)合開(kāi)展的研究，以預(yù)印本形式發(fā)布于2026年5月29日，論文編號(hào)為arXiv:2605.31148。有興趣深入了解的讀者可通過(guò)該編號(hào)在arXiv平臺(tái)查詢完整論文。

**一、你的機(jī)器人助手為什么總是擺不好家具**

假設(shè)你正在搬家，請(qǐng)了一個(gè)助手幫你把新家的家具擺好。這個(gè)助手眼神很好，能一眼看出哪張椅子擺歪了、哪個(gè)書(shū)柜越過(guò)了墻線、哪個(gè)床頭柜和衣柜撞在了一起。但奇怪的是，每次你指出一個(gè)問(wèn)題讓他去修，他要么修錯(cuò)了位置，要么修好這個(gè)又碰壞了那個(gè)，要么干脆修了幾下就說(shuō)"好了！"然后拍拍手離開(kāi)——但其實(shí)房間里還亂著。

這個(gè)令人抓狂的助手，就是今天許多頂尖AI視覺(jué)語(yǔ)言模型（也就是那種能"看圖說(shuō)話"、既能理解圖像又能生成文字的人工智能）在面對(duì)3D空間任務(wù)時(shí)的真實(shí)狀態(tài)。研究團(tuán)隊(duì)正是被這個(gè)問(wèn)題所驅(qū)動(dòng)，搭建了一套名為SpatialAct的測(cè)試平臺(tái)，專門用來(lái)戳破AI在"看懂空間"和"動(dòng)手改空間"之間那道隱而不顯的裂縫。

**二、空間智能：不只是"看出來(lái)"，更要"做出來(lái)"**

在日常生活中，人類處理空間問(wèn)題是一件極為自然的事。你走進(jìn)一間亂糟糟的儲(chǔ)藏室，眼睛一掃就知道紙箱壓了椅子、梯子擋了門、花盆太靠邊快掉了。接著你伸手調(diào)整，推一推、挪一挪、轉(zhuǎn)一轉(zhuǎn)，每改動(dòng)一件東西，你都會(huì)重新審視整個(gè)房間，判斷問(wèn)題是否真的解決了，或者有沒(méi)有帶來(lái)新的麻煩。這個(gè)"看—判斷—?jiǎng)邮帧倏础倥袛?的循環(huán)，對(duì)人類而言輕而易舉。

近年來(lái)，各種視覺(jué)語(yǔ)言模型（Vision-Language Models，簡(jiǎn)稱VLMs）在這類"看圖問(wèn)答"任務(wù)上表現(xiàn)越來(lái)越亮眼。給它一張房間的圖片，問(wèn)它"書(shū)柜在椅子的哪個(gè)方向"，或者"如果把桌子往北移80厘米會(huì)不會(huì)碰到墻"，許多模型都能答得頭頭是道。然而，這類任務(wù)有一個(gè)共同特點(diǎn)：模型只是一個(gè)旁觀者，它的回答不會(huì)真的改變圖片里的任何東西，下一輪問(wèn)題時(shí)面對(duì)的仍然是同一張靜止的圖。

研究團(tuán)隊(duì)發(fā)現(xiàn)，這正是當(dāng)前評(píng)測(cè)體系的一個(gè)巨大盲區(qū)?，F(xiàn)有的空間推理測(cè)試，絕大多數(shù)都是讓模型"被動(dòng)觀察"：給你圖，問(wèn)你問(wèn)題，答完就結(jié)束。即便是一些更復(fù)雜的具身智能（Embodied AI）測(cè)試，又往往把高級(jí)的空間推理和底層的機(jī)械控制（怎么移動(dòng)機(jī)器人關(guān)節(jié)、怎么抓取物體）混在一起，很難單獨(dú)評(píng)估"空間思維"本身的好壞。

于是，一個(gè)重要的空白地帶出現(xiàn)了：AI能不能在"動(dòng)了一下"之后，重新理解更新過(guò)的環(huán)境，并持續(xù)、連貫地做出正確判斷？這種能力，研究團(tuán)隊(duì)稱之為"行動(dòng)條件下的空間推理"（action-conditioned spatial reasoning）——不只是靜態(tài)地看懂空間，而是在自己的每一個(gè)動(dòng)作之后，都能跟上環(huán)境變化，繼續(xù)保持準(zhǔn)確的空間認(rèn)知。

**三、SpatialAct：一座專門測(cè)試"動(dòng)手能力"的空間擂臺(tái)**

為了把這個(gè)問(wèn)題變得可測(cè)量、可分析，研究團(tuán)隊(duì)構(gòu)建了SpatialAct這套基準(zhǔn)測(cè)試平臺(tái)。它的核心設(shè)計(jì)思路，就像是給AI搭了一間3D模擬房間，讓它不僅要看懂房間里的問(wèn)題，還要親自動(dòng)手去修，修完了系統(tǒng)會(huì)把更新后的房間圖片重新發(fā)給它，然后AI再看、再判斷、再動(dòng)手，循環(huán)往復(fù)。

這套平臺(tái)涵蓋了三類場(chǎng)景。第一類是"抽象幾何"場(chǎng)景，里面擺的是各種簡(jiǎn)單幾何體，比如正方體、圓柱體、L形體、U形體等，形狀干凈、沒(méi)有語(yǔ)義干擾，專門用來(lái)測(cè)試模型的純粹幾何空間能力。第二類是"城市建筑"場(chǎng)景，來(lái)源于一個(gè)叫做RAISECity的城市級(jí)3D生成框架，里面有白模建筑和帶貼圖的建筑混合擺放，每個(gè)場(chǎng)景不超過(guò)20棟樓，模擬真實(shí)的城市規(guī)劃布局。第三類是"室內(nèi)場(chǎng)景"，來(lái)自InternScenes這個(gè)大型室內(nèi)場(chǎng)景數(shù)據(jù)集，里面有各種可移動(dòng)的家具，每個(gè)場(chǎng)景包含5到15個(gè)對(duì)象。

整個(gè)數(shù)據(jù)集共有333個(gè)場(chǎng)景，4355道題，題目分為開(kāi)放式問(wèn)答、多項(xiàng)選擇題和多輪反饋交互三種格式。每個(gè)場(chǎng)景都會(huì)從兩個(gè)視角渲染出圖片：一是正上方的俯視圖（top-view），像衛(wèi)星地圖一樣看整個(gè)布局；二是斜45度的等軸測(cè)視圖（isometric-view），像游戲里的上帝視角，能看到物體的立體形態(tài)。兩張圖同時(shí)給到模型，讓它從不同角度理解場(chǎng)景。

數(shù)據(jù)的質(zhì)量控制也經(jīng)過(guò)了嚴(yán)格把關(guān)。幾何場(chǎng)景因?yàn)槭浅绦蜃詣?dòng)生成的，天然滿足約束條件，不需要額外篩查。建筑和室內(nèi)場(chǎng)景則經(jīng)歷了程序自動(dòng)清洗加人工復(fù)核兩道關(guān)卡，檢查物體尺寸是否合理、空間擺放是否合乎常識(shí)、有沒(méi)有明顯的語(yǔ)義沖突，確保所有"干凈"場(chǎng)景在注入錯(cuò)誤之前本身是正確的。

**四、三層臺(tái)階：從看懂空間到動(dòng)手修空間**

SpatialAct的任務(wù)設(shè)計(jì)遵循一種從簡(jiǎn)單到復(fù)雜的階梯結(jié)構(gòu)，就像一場(chǎng)考試分成填空題、應(yīng)用題和綜合大題三個(gè)難度層次，每一層都對(duì)應(yīng)著不同深度的空間能力考察。

最底層是"基礎(chǔ)空間能力"的五項(xiàng)測(cè)試，分別對(duì)應(yīng)五種不同維度的空間認(rèn)知。其中"物體含義"考察的是最基本的識(shí)別和定位，比如"房間里有幾個(gè)柜子"、"離柜子最近的是幾號(hào)物體"這類問(wèn)題。"空間關(guān)系"則進(jìn)一步考察物體之間的相對(duì)位置，比如"3號(hào)樓在5號(hào)樓的哪一側(cè)"。"空間定向"涉及視角轉(zhuǎn)換，比如"在等軸測(cè)圖里最偏北的那棟樓，如果把視角順時(shí)針轉(zhuǎn)90度，它會(huì)出現(xiàn)在哪個(gè)方向"——這需要模型能在腦子里旋轉(zhuǎn)整個(gè)坐標(biāo)系。"心理旋轉(zhuǎn)"則是更高難度的想象力測(cè)試，比如"如果把1號(hào)物體圍繞場(chǎng)景中心逆時(shí)針旋轉(zhuǎn)90度，它會(huì)不會(huì)和4號(hào)物體發(fā)生碰撞，哪個(gè)選項(xiàng)展示了正確的結(jié)果"。最后的"空間可視化"考察的是假設(shè)性操作的后果推斷，比如"如果把4號(hào)樓和5號(hào)樓的位置互換，互換后場(chǎng)景里還有沒(méi)有碰撞"。

中間層是"單步錯(cuò)誤檢測(cè)與修復(fù)"，它把任務(wù)復(fù)雜度提升了一個(gè)臺(tái)階。這層任務(wù)里，模型看到一個(gè)已經(jīng)存在問(wèn)題的場(chǎng)景，先要判斷"這個(gè)場(chǎng)景里有什么問(wèn)題"（檢測(cè)），然后從給出的幾個(gè)選項(xiàng)里挑出"一步到位能解決問(wèn)題的那個(gè)動(dòng)作"（修復(fù)）。這就好比給你一張房間的照片，讓你看出哪里不對(duì)，然后從"把A往北移60厘米"、"把B旋轉(zhuǎn)30度"、"把C縮小到0.8倍"幾個(gè)選項(xiàng)里選一個(gè)最合適的。

最頂層才是SpatialAct真正的核心挑戰(zhàn)——"多輪交互式修復(fù)"。在這個(gè)任務(wù)里，模型面對(duì)一個(gè)有若干空間錯(cuò)誤的場(chǎng)景，必須通過(guò)反復(fù)操作來(lái)把所有錯(cuò)誤都修好。每一輪，模型先觀察當(dāng)前的俯視圖和等軸測(cè)圖，輸出它認(rèn)為需要執(zhí)行的修復(fù)動(dòng)作，系統(tǒng)解析這個(gè)動(dòng)作指令并在模擬器里真實(shí)執(zhí)行，然后把更新后的場(chǎng)景圖片重新發(fā)給模型。模型再看、再判斷、再輸出動(dòng)作，如此循環(huán)，直到模型判斷"場(chǎng)景已經(jīng)干凈了"，或者達(dá)到了預(yù)設(shè)的最大輪次上限（30輪）為止。

模型可以使用的動(dòng)作類型有三種：移動(dòng)（move，指定方向和距離）、旋轉(zhuǎn)（rotate，指定角度）、縮放（scale，指定比例）。城市建筑場(chǎng)景里的錯(cuò)誤類型包括建筑之間的碰撞、建筑壓在道路上的沖突，以及建筑朝向不符合道路走向的方向性錯(cuò)誤。室內(nèi)場(chǎng)景里的錯(cuò)誤則對(duì)應(yīng)為物體之間的碰撞、物體穿越墻壁的沖突，以及家具擺放方向不合常理的朝向錯(cuò)誤。

**五、用數(shù)字衡量"修得好不好"**

為了公正、全面地評(píng)價(jià)模型在多輪交互修復(fù)任務(wù)中的表現(xiàn)，研究團(tuán)隊(duì)設(shè)計(jì)了一套五維度的評(píng)估指標(biāo)體系，分別從修復(fù)準(zhǔn)確性和修復(fù)效率兩個(gè)角度切入。

衡量修復(fù)準(zhǔn)確性的第一個(gè)指標(biāo)是"修復(fù)率"（Repair Rate），計(jì)算方式是"修復(fù)前的錯(cuò)誤數(shù)減去修復(fù)后的錯(cuò)誤數(shù)，除以修復(fù)前的錯(cuò)誤數(shù)"。這個(gè)數(shù)字越接近1，說(shuō)明模型把錯(cuò)誤消滅得越徹底；如果這個(gè)數(shù)字是負(fù)數(shù)，說(shuō)明模型越改越糟，引入了更多新錯(cuò)誤。第二個(gè)是"場(chǎng)景成功率"（Scene Success Rate），衡量的是有多少比例的場(chǎng)景被完全修好（所有錯(cuò)誤清零）。這是一個(gè)更嚴(yán)格的標(biāo)準(zhǔn)：不是部分修好，而是徹底修干凈。

衡量修復(fù)效率的三個(gè)指標(biāo)則從另一個(gè)角度審視模型行為。"有效修復(fù)輪次比例"（Effective Repair Turn Ratio）統(tǒng)計(jì)的是所有交互輪次中，真正減少了錯(cuò)誤的輪次占多少——如果這個(gè)比例很低，說(shuō)明模型在大量"無(wú)效操作"，做了很多白功。"過(guò)早停止率"（Premature Stop Rate）統(tǒng)計(jì)的是在場(chǎng)景還有錯(cuò)誤時(shí)模型就說(shuō)"好了"然后停下來(lái)的比例——這個(gè)比例越高，說(shuō)明模型越容易誤以為任務(wù)完成了。最后，"每場(chǎng)景平均完成token數(shù)"衡量的是模型在整個(gè)修復(fù)過(guò)程中消耗的計(jì)算量，反映了推理的經(jīng)濟(jì)效益。

**六、測(cè)試結(jié)果：AI與人類之間令人意外的巨大落差**

研究團(tuán)隊(duì)把七個(gè)當(dāng)前最強(qiáng)的視覺(jué)語(yǔ)言模型拉到這套擂臺(tái)上逐一考驗(yàn)，結(jié)果揭示出一幅既有安慰、也有震撼的圖景。

在基礎(chǔ)空間能力和單步任務(wù)上，閉源的頂尖模型表現(xiàn)相當(dāng)不錯(cuò)。Gemini-3.1 Pro在大多數(shù)基礎(chǔ)能力子項(xiàng)上都保持在70%到80%的準(zhǔn)確率區(qū)間，GPT-5.4也緊隨其后。這部分結(jié)果頗令人寬慰——說(shuō)明這些模型確實(shí)"看懂"了不少空間信息。

然而，一旦來(lái)到多輪交互修復(fù)這道真正的考題，畫(huà)風(fēng)就急轉(zhuǎn)直下。Gemini-3.1 Pro以0.411的修復(fù)率和0.206的場(chǎng)景成功率領(lǐng)跑所有AI模型——但這意味著它平均只能消除約41%的錯(cuò)誤，而且只有大約五分之一的場(chǎng)景能被徹底修干凈。GPT-5.4的修復(fù)率是0.208，場(chǎng)景成功率僅有0.038，也就是說(shuō)將近96%的場(chǎng)景都沒(méi)能完全修好。GLM-5V-Turbo的修復(fù)率甚至是負(fù)數(shù)，達(dá)到了-0.012，說(shuō)明它改來(lái)改去反而越改越壞。開(kāi)源模型的表現(xiàn)同樣令人失望，Kimi-K2.5、Qwen3.6-27B的修復(fù)率都在0.03到0.04的極低水平徘徊。

與之形成鮮明對(duì)比的是，七名人類測(cè)試者使用研究團(tuán)隊(duì)專門開(kāi)發(fā)的網(wǎng)頁(yè)端操作平臺(tái)來(lái)完成同樣的任務(wù)，他們的修復(fù)率高達(dá)0.911，場(chǎng)景成功率達(dá)到0.763。也就是說(shuō)，人類平均能修好90%以上的錯(cuò)誤，有超過(guò)四分之三的場(chǎng)景能被徹底清干凈。最強(qiáng)AI和普通人類之間，整整相差了50個(gè)百分點(diǎn)的修復(fù)率。

過(guò)早停止率這個(gè)指標(biāo)同樣觸目驚心。Kimi-K2.5和Qwen3.6-27B的過(guò)早停止率高達(dá)0.920，也就是說(shuō)每10個(gè)場(chǎng)景里有9個(gè)，模型在還有錯(cuò)誤殘留的時(shí)候就已經(jīng)宣告"完成任務(wù)"了。Gemini-3.1 Pro相對(duì)好一些，過(guò)早停止率為0.566，但仍然意味著超過(guò)一半的場(chǎng)景被過(guò)早地放棄了。

論文還展示了兩個(gè)具體的失敗案例來(lái)說(shuō)明模型究竟在哪里栽了跟頭。在一個(gè)室內(nèi)場(chǎng)景中，GLM-5V-Turbo對(duì)著廁所（object 5）和貨架（object 8）反復(fù)推敲，擔(dān)心它們是否越界，但對(duì)于真正有問(wèn)題的物體卻誤判為"沒(méi)有問(wèn)題"，最終給出了錯(cuò)誤的修復(fù)對(duì)象和方向。在另一個(gè)城市建筑場(chǎng)景中，模型把一棟壓在路上的樓（Building 5）和一棟轉(zhuǎn)角朝向異常的樓（Building 12）都識(shí)別出來(lái)了，但給Building 5開(kāi)出的"往北移動(dòng)0.8米"的藥方實(shí)際上并不能解決建筑-道路沖突問(wèn)題，顯示出從正確診斷到正確行動(dòng)之間仍然存在斷層。

**七、是什么導(dǎo)致了這個(gè)鴻溝**

研究團(tuán)隊(duì)沒(méi)有停留在揭示問(wèn)題上，還做了一系列更細(xì)致的分析，試圖搞清楚這道鴻溝究竟是從哪里來(lái)的。

從場(chǎng)景類型的角度來(lái)看，Gemini-3.1 Pro在室內(nèi)場(chǎng)景上的修復(fù)率和有效修復(fù)輪次比例都高于城市建筑場(chǎng)景，說(shuō)明模型對(duì)室內(nèi)環(huán)境更熟悉，更擅長(zhǎng)處理家具的空間問(wèn)題。有意思的是，建筑場(chǎng)景的場(chǎng)景成功率反而稍微高一點(diǎn)，研究團(tuán)隊(duì)推測(cè)這可能是因?yàn)榻ㄖ季窒鄬?duì)簡(jiǎn)單、對(duì)象間的依賴關(guān)系沒(méi)那么復(fù)雜，一旦修好了關(guān)鍵錯(cuò)誤，整個(gè)場(chǎng)景就容易達(dá)到全部清零的狀態(tài)。

從錯(cuò)誤類型的角度來(lái)看，三個(gè)主要測(cè)試模型（Gemini-3.1 Pro、GPT-5.4、Qwen3.6-35B-A3B）都呈現(xiàn)出同樣的規(guī)律：朝向錯(cuò)誤最容易修，道路/墻壁沖突最難修，碰撞問(wèn)題居中。朝向修復(fù)通常只需要旋轉(zhuǎn)某個(gè)物體就能解決，是相對(duì)孤立的屬性調(diào)整。而沖突修復(fù)往往牽一發(fā)而動(dòng)全身，修了這個(gè)物體可能帶出新的沖突，需要同時(shí)協(xié)調(diào)多個(gè)對(duì)象的位置，對(duì)模型的全局規(guī)劃能力要求極高。

從場(chǎng)景復(fù)雜度的角度來(lái)看，研究團(tuán)隊(duì)把室內(nèi)場(chǎng)景按照初始錯(cuò)誤數(shù)量分成了三組（1到3個(gè)錯(cuò)誤、4到6個(gè)錯(cuò)誤、7個(gè)以上錯(cuò)誤），結(jié)果不出意外——錯(cuò)誤越多的場(chǎng)景，修復(fù)率和場(chǎng)景成功率越低。當(dāng)場(chǎng)景里有7個(gè)以上相互牽連的錯(cuò)誤時(shí)，模型幾乎束手無(wú)策，GPT-5.4和GLM-5V-Turbo在這個(gè)難度區(qū)間的場(chǎng)景成功率趨近于零。

研究團(tuán)隊(duì)還專門測(cè)試了上下文窗口大小對(duì)模型表現(xiàn)的影響，用Kimi-K2.5（這個(gè)模型的推理輸出特別長(zhǎng)）在100個(gè)樣本上做了實(shí)驗(yàn)，分別限制到8K、16K、32K個(gè)token的上限。結(jié)果發(fā)現(xiàn)，隨著上下文窗口增大，模型確實(shí)會(huì)生成更多的推理內(nèi)容、進(jìn)行更多輪次的互動(dòng)，但修復(fù)率和場(chǎng)景成功率幾乎沒(méi)有變化。這說(shuō)明"讓模型想更多"并不等于"讓模型修得更好"，瓶頸不在于推理預(yù)算，而在于跨輪次的狀態(tài)追蹤能力、錯(cuò)誤優(yōu)先級(jí)判斷，以及面對(duì)反饋時(shí)的動(dòng)作可靠性。

最后，研究團(tuán)隊(duì)還計(jì)算了六項(xiàng)基礎(chǔ)任務(wù)的得分和多輪交互修復(fù)表現(xiàn)之間的相關(guān)性。六項(xiàng)基礎(chǔ)任務(wù)的得分都與修復(fù)表現(xiàn)呈正相關(guān)，這說(shuō)明基礎(chǔ)能力確實(shí)是復(fù)雜任務(wù)的基石，基礎(chǔ)越好的模型在修復(fù)上也做得更好。其中相關(guān)性最強(qiáng)的是"單步錯(cuò)誤檢測(cè)與修復(fù)"任務(wù)，它與修復(fù)率的皮爾遜相關(guān)系數(shù)高達(dá)0.817，與場(chǎng)景成功率的相關(guān)系數(shù)為0.690，說(shuō)明"單步檢測(cè)修復(fù)"的能力正是多輪交互修復(fù)的核心構(gòu)件，被模型反復(fù)調(diào)用。排在第二位的是"物體含義"，說(shuō)明對(duì)物體位置和身份的精準(zhǔn)識(shí)別，對(duì)于將局部修復(fù)延伸到整個(gè)場(chǎng)景的一致性至關(guān)重要。不過(guò)，基礎(chǔ)能力強(qiáng)并不能保證多輪修復(fù)就一定成功，因?yàn)榈迯?fù)還額外依賴跨輪次的記憶維護(hù)、沖突感知的規(guī)劃，以及對(duì)反饋的穩(wěn)定響應(yīng)——這些都是更高階的協(xié)調(diào)能力，目前的模型普遍欠缺。

**八、這項(xiàng)研究意味著什么**

說(shuō)到底，SpatialAct這項(xiàng)研究干的事，是把AI的一個(gè)"假裝很強(qiáng)"的假象給戳破了。那些在靜態(tài)空間問(wèn)答里答得津津有味的模型，一旦被要求真正動(dòng)手在一個(gè)會(huì)隨自己行動(dòng)而改變的3D環(huán)境里工作，就立刻原形畢露。看懂空間和在空間里行動(dòng)，是兩件完全不同的事。

歸根結(jié)底，這個(gè)差距來(lái)自一種人類覺(jué)得理所當(dāng)然、但機(jī)器目前還很缺乏的能力——在行動(dòng)之后，持續(xù)、準(zhǔn)確地知道"現(xiàn)在的世界是什么樣的"，并據(jù)此規(guī)劃下一步。每一次你動(dòng)了一件家具，你的大腦會(huì)自動(dòng)更新對(duì)整個(gè)房間的認(rèn)知模型，下一個(gè)判斷是基于更新后的狀態(tài)做出的。而當(dāng)前的視覺(jué)語(yǔ)言模型雖然能接收到更新后的圖片，卻常常無(wú)法把這些更新穩(wěn)定地整合進(jìn)自己的空間認(rèn)知里，更無(wú)法基于多輪歷史形成連貫的修復(fù)策略。

研究團(tuán)隊(duì)坦誠(chéng)地指出，這套測(cè)試目前全部在模擬環(huán)境里進(jìn)行，真實(shí)世界中的復(fù)雜光照、遮擋、噪聲等問(wèn)題沒(méi)有被納入考量，是未來(lái)工作的重要方向。此外，如何針對(duì)性地提升模型的多輪空間修復(fù)能力，目前還沒(méi)有成熟的解決方案，這也留給了后續(xù)研究者一個(gè)清晰的目標(biāo)。

對(duì)于普通讀者而言，這項(xiàng)研究的意義是相當(dāng)實(shí)際的。在不遠(yuǎn)的將來(lái)，各種AI助手會(huì)越來(lái)越多地參與到室內(nèi)設(shè)計(jì)、家居規(guī)劃、城市建設(shè)、游戲場(chǎng)景生成等需要三維空間理解和動(dòng)手操作的場(chǎng)景中。SpatialAct這套評(píng)測(cè)體系的出現(xiàn)，為判斷"哪些模型真正有空間動(dòng)手能力"提供了一把可靠的尺子，也為研究者指明了"接下來(lái)最需要突破什么"的方向。有興趣深入探索的讀者，可以前往arXiv通過(guò)論文編號(hào)arXiv:2605.31148查閱完整的原始論文，研究團(tuán)隊(duì)也在GitHub上公開(kāi)了完整的基準(zhǔn)數(shù)據(jù)、模擬器工作流和評(píng)估工具，地址為tsinghua-fib-lab/SpatialAct。

Q&A

Q1：SpatialAct測(cè)試平臺(tái)的三類場(chǎng)景分別是什么，各有什么特點(diǎn)？

A：SpatialAct包含三類場(chǎng)景。抽象幾何場(chǎng)景由程序自動(dòng)生成，內(nèi)含立方體、圓柱、L形、U形等幾何體，形狀干凈無(wú)語(yǔ)義干擾，專門測(cè)試純幾何空間能力。城市建筑場(chǎng)景來(lái)自RAISECity框架，由白模和帶貼圖的建筑混合構(gòu)成，每場(chǎng)景不超過(guò)20棟樓，模擬城市規(guī)劃布局。室內(nèi)場(chǎng)景來(lái)自InternScenes數(shù)據(jù)集，包含各類可移動(dòng)家具，每場(chǎng)景含5到15個(gè)對(duì)象，視覺(jué)復(fù)雜度最高。

Q2：多輪交互修復(fù)任務(wù)里，AI模型和人類的表現(xiàn)差距有多大？

A：差距非常顯著。最強(qiáng)的AI模型Gemini-3.1 Pro的修復(fù)率為0.411，場(chǎng)景成功率為0.206，而七名人類測(cè)試者的修復(fù)率高達(dá)0.911，場(chǎng)景成功率達(dá)0.763。兩者之間整整相差約50個(gè)百分點(diǎn)的修復(fù)率。部分開(kāi)源模型的修復(fù)率甚至是負(fù)數(shù)，說(shuō)明越改越壞。此外，多數(shù)開(kāi)源模型在超過(guò)90%的場(chǎng)景中會(huì)在錯(cuò)誤還未完全消除時(shí)就提前宣告任務(wù)完成。

Q3：為什么增大AI模型的上下文窗口并不能提升空間修復(fù)效果？

A：研究發(fā)現(xiàn)，隨著上下文窗口從8K增大到32K，模型會(huì)生成更多推理內(nèi)容并進(jìn)行更多輪次互動(dòng)，但修復(fù)率和場(chǎng)景成功率幾乎沒(méi)有變化。這說(shuō)明瓶頸不在于推理預(yù)算，而在于模型跨輪次的空間狀態(tài)追蹤能力、錯(cuò)誤優(yōu)先級(jí)判斷，以及面對(duì)環(huán)境反饋時(shí)穩(wěn)定輸出正確動(dòng)作的能力。更多的思考并不能彌補(bǔ)空間狀態(tài)維護(hù)能力本身的不足。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.