无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

香港科技大學(xué)等機(jī)構(gòu)聯(lián)合揭示視覺(jué)語(yǔ)言模型的空間行動(dòng)鴻溝

0
分享至


這項(xiàng)由香港科技大學(xué)(廣州)、清華大學(xué)、中關(guān)村學(xué)院、赫爾辛基大學(xué)聯(lián)合開(kāi)展的研究,以預(yù)印本形式發(fā)布于2026年5月29日,論文編號(hào)為arXiv:2605.31148。有興趣深入了解的讀者可通過(guò)該編號(hào)在arXiv平臺(tái)查詢完整論文。

**一、你的機(jī)器人助手為什么總是擺不好家具**

假設(shè)你正在搬家,請(qǐng)了一個(gè)助手幫你把新家的家具擺好。這個(gè)助手眼神很好,能一眼看出哪張椅子擺歪了、哪個(gè)書(shū)柜越過(guò)了墻線、哪個(gè)床頭柜和衣柜撞在了一起。但奇怪的是,每次你指出一個(gè)問(wèn)題讓他去修,他要么修錯(cuò)了位置,要么修好這個(gè)又碰壞了那個(gè),要么干脆修了幾下就說(shuō)"好了!"然后拍拍手離開(kāi)——但其實(shí)房間里還亂著。

這個(gè)令人抓狂的助手,就是今天許多頂尖AI視覺(jué)語(yǔ)言模型(也就是那種能"看圖說(shuō)話"、既能理解圖像又能生成文字的人工智能)在面對(duì)3D空間任務(wù)時(shí)的真實(shí)狀態(tài)。研究團(tuán)隊(duì)正是被這個(gè)問(wèn)題所驅(qū)動(dòng),搭建了一套名為SpatialAct的測(cè)試平臺(tái),專門用來(lái)戳破AI在"看懂空間"和"動(dòng)手改空間"之間那道隱而不顯的裂縫。

**二、空間智能:不只是"看出來(lái)",更要"做出來(lái)"**

在日常生活中,人類處理空間問(wèn)題是一件極為自然的事。你走進(jìn)一間亂糟糟的儲(chǔ)藏室,眼睛一掃就知道紙箱壓了椅子、梯子擋了門、花盆太靠邊快掉了。接著你伸手調(diào)整,推一推、挪一挪、轉(zhuǎn)一轉(zhuǎn),每改動(dòng)一件東西,你都會(huì)重新審視整個(gè)房間,判斷問(wèn)題是否真的解決了,或者有沒(méi)有帶來(lái)新的麻煩。這個(gè)"看—判斷—?jiǎng)邮帧倏础倥袛?的循環(huán),對(duì)人類而言輕而易舉。

近年來(lái),各種視覺(jué)語(yǔ)言模型(Vision-Language Models,簡(jiǎn)稱VLMs)在這類"看圖問(wèn)答"任務(wù)上表現(xiàn)越來(lái)越亮眼。給它一張房間的圖片,問(wèn)它"書(shū)柜在椅子的哪個(gè)方向",或者"如果把桌子往北移80厘米會(huì)不會(huì)碰到墻",許多模型都能答得頭頭是道。然而,這類任務(wù)有一個(gè)共同特點(diǎn):模型只是一個(gè)旁觀者,它的回答不會(huì)真的改變圖片里的任何東西,下一輪問(wèn)題時(shí)面對(duì)的仍然是同一張靜止的圖。

研究團(tuán)隊(duì)發(fā)現(xiàn),這正是當(dāng)前評(píng)測(cè)體系的一個(gè)巨大盲區(qū)?,F(xiàn)有的空間推理測(cè)試,絕大多數(shù)都是讓模型"被動(dòng)觀察":給你圖,問(wèn)你問(wèn)題,答完就結(jié)束。即便是一些更復(fù)雜的具身智能(Embodied AI)測(cè)試,又往往把高級(jí)的空間推理和底層的機(jī)械控制(怎么移動(dòng)機(jī)器人關(guān)節(jié)、怎么抓取物體)混在一起,很難單獨(dú)評(píng)估"空間思維"本身的好壞。

于是,一個(gè)重要的空白地帶出現(xiàn)了:AI能不能在"動(dòng)了一下"之后,重新理解更新過(guò)的環(huán)境,并持續(xù)、連貫地做出正確判斷?這種能力,研究團(tuán)隊(duì)稱之為"行動(dòng)條件下的空間推理"(action-conditioned spatial reasoning)——不只是靜態(tài)地看懂空間,而是在自己的每一個(gè)動(dòng)作之后,都能跟上環(huán)境變化,繼續(xù)保持準(zhǔn)確的空間認(rèn)知。

**三、SpatialAct:一座專門測(cè)試"動(dòng)手能力"的空間擂臺(tái)**

為了把這個(gè)問(wèn)題變得可測(cè)量、可分析,研究團(tuán)隊(duì)構(gòu)建了SpatialAct這套基準(zhǔn)測(cè)試平臺(tái)。它的核心設(shè)計(jì)思路,就像是給AI搭了一間3D模擬房間,讓它不僅要看懂房間里的問(wèn)題,還要親自動(dòng)手去修,修完了系統(tǒng)會(huì)把更新后的房間圖片重新發(fā)給它,然后AI再看、再判斷、再動(dòng)手,循環(huán)往復(fù)。

這套平臺(tái)涵蓋了三類場(chǎng)景。第一類是"抽象幾何"場(chǎng)景,里面擺的是各種簡(jiǎn)單幾何體,比如正方體、圓柱體、L形體、U形體等,形狀干凈、沒(méi)有語(yǔ)義干擾,專門用來(lái)測(cè)試模型的純粹幾何空間能力。第二類是"城市建筑"場(chǎng)景,來(lái)源于一個(gè)叫做RAISECity的城市級(jí)3D生成框架,里面有白模建筑和帶貼圖的建筑混合擺放,每個(gè)場(chǎng)景不超過(guò)20棟樓,模擬真實(shí)的城市規(guī)劃布局。第三類是"室內(nèi)場(chǎng)景",來(lái)自InternScenes這個(gè)大型室內(nèi)場(chǎng)景數(shù)據(jù)集,里面有各種可移動(dòng)的家具,每個(gè)場(chǎng)景包含5到15個(gè)對(duì)象。

整個(gè)數(shù)據(jù)集共有333個(gè)場(chǎng)景,4355道題,題目分為開(kāi)放式問(wèn)答、多項(xiàng)選擇題和多輪反饋交互三種格式。每個(gè)場(chǎng)景都會(huì)從兩個(gè)視角渲染出圖片:一是正上方的俯視圖(top-view),像衛(wèi)星地圖一樣看整個(gè)布局;二是斜45度的等軸測(cè)視圖(isometric-view),像游戲里的上帝視角,能看到物體的立體形態(tài)。兩張圖同時(shí)給到模型,讓它從不同角度理解場(chǎng)景。

數(shù)據(jù)的質(zhì)量控制也經(jīng)過(guò)了嚴(yán)格把關(guān)。幾何場(chǎng)景因?yàn)槭浅绦蜃詣?dòng)生成的,天然滿足約束條件,不需要額外篩查。建筑和室內(nèi)場(chǎng)景則經(jīng)歷了程序自動(dòng)清洗加人工復(fù)核兩道關(guān)卡,檢查物體尺寸是否合理、空間擺放是否合乎常識(shí)、有沒(méi)有明顯的語(yǔ)義沖突,確保所有"干凈"場(chǎng)景在注入錯(cuò)誤之前本身是正確的。

**四、三層臺(tái)階:從看懂空間到動(dòng)手修空間**

SpatialAct的任務(wù)設(shè)計(jì)遵循一種從簡(jiǎn)單到復(fù)雜的階梯結(jié)構(gòu),就像一場(chǎng)考試分成填空題、應(yīng)用題和綜合大題三個(gè)難度層次,每一層都對(duì)應(yīng)著不同深度的空間能力考察。

最底層是"基礎(chǔ)空間能力"的五項(xiàng)測(cè)試,分別對(duì)應(yīng)五種不同維度的空間認(rèn)知。其中"物體含義"考察的是最基本的識(shí)別和定位,比如"房間里有幾個(gè)柜子"、"離柜子最近的是幾號(hào)物體"這類問(wèn)題。"空間關(guān)系"則進(jìn)一步考察物體之間的相對(duì)位置,比如"3號(hào)樓在5號(hào)樓的哪一側(cè)"。"空間定向"涉及視角轉(zhuǎn)換,比如"在等軸測(cè)圖里最偏北的那棟樓,如果把視角順時(shí)針轉(zhuǎn)90度,它會(huì)出現(xiàn)在哪個(gè)方向"——這需要模型能在腦子里旋轉(zhuǎn)整個(gè)坐標(biāo)系。"心理旋轉(zhuǎn)"則是更高難度的想象力測(cè)試,比如"如果把1號(hào)物體圍繞場(chǎng)景中心逆時(shí)針旋轉(zhuǎn)90度,它會(huì)不會(huì)和4號(hào)物體發(fā)生碰撞,哪個(gè)選項(xiàng)展示了正確的結(jié)果"。最后的"空間可視化"考察的是假設(shè)性操作的后果推斷,比如"如果把4號(hào)樓和5號(hào)樓的位置互換,互換后場(chǎng)景里還有沒(méi)有碰撞"。

中間層是"單步錯(cuò)誤檢測(cè)與修復(fù)",它把任務(wù)復(fù)雜度提升了一個(gè)臺(tái)階。這層任務(wù)里,模型看到一個(gè)已經(jīng)存在問(wèn)題的場(chǎng)景,先要判斷"這個(gè)場(chǎng)景里有什么問(wèn)題"(檢測(cè)),然后從給出的幾個(gè)選項(xiàng)里挑出"一步到位能解決問(wèn)題的那個(gè)動(dòng)作"(修復(fù))。這就好比給你一張房間的照片,讓你看出哪里不對(duì),然后從"把A往北移60厘米"、"把B旋轉(zhuǎn)30度"、"把C縮小到0.8倍"幾個(gè)選項(xiàng)里選一個(gè)最合適的。

最頂層才是SpatialAct真正的核心挑戰(zhàn)——"多輪交互式修復(fù)"。在這個(gè)任務(wù)里,模型面對(duì)一個(gè)有若干空間錯(cuò)誤的場(chǎng)景,必須通過(guò)反復(fù)操作來(lái)把所有錯(cuò)誤都修好。每一輪,模型先觀察當(dāng)前的俯視圖和等軸測(cè)圖,輸出它認(rèn)為需要執(zhí)行的修復(fù)動(dòng)作,系統(tǒng)解析這個(gè)動(dòng)作指令并在模擬器里真實(shí)執(zhí)行,然后把更新后的場(chǎng)景圖片重新發(fā)給模型。模型再看、再判斷、再輸出動(dòng)作,如此循環(huán),直到模型判斷"場(chǎng)景已經(jīng)干凈了",或者達(dá)到了預(yù)設(shè)的最大輪次上限(30輪)為止。

模型可以使用的動(dòng)作類型有三種:移動(dòng)(move,指定方向和距離)、旋轉(zhuǎn)(rotate,指定角度)、縮放(scale,指定比例)。城市建筑場(chǎng)景里的錯(cuò)誤類型包括建筑之間的碰撞、建筑壓在道路上的沖突,以及建筑朝向不符合道路走向的方向性錯(cuò)誤。室內(nèi)場(chǎng)景里的錯(cuò)誤則對(duì)應(yīng)為物體之間的碰撞、物體穿越墻壁的沖突,以及家具擺放方向不合常理的朝向錯(cuò)誤。

**五、用數(shù)字衡量"修得好不好"**

為了公正、全面地評(píng)價(jià)模型在多輪交互修復(fù)任務(wù)中的表現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一套五維度的評(píng)估指標(biāo)體系,分別從修復(fù)準(zhǔn)確性和修復(fù)效率兩個(gè)角度切入。

衡量修復(fù)準(zhǔn)確性的第一個(gè)指標(biāo)是"修復(fù)率"(Repair Rate),計(jì)算方式是"修復(fù)前的錯(cuò)誤數(shù)減去修復(fù)后的錯(cuò)誤數(shù),除以修復(fù)前的錯(cuò)誤數(shù)"。這個(gè)數(shù)字越接近1,說(shuō)明模型把錯(cuò)誤消滅得越徹底;如果這個(gè)數(shù)字是負(fù)數(shù),說(shuō)明模型越改越糟,引入了更多新錯(cuò)誤。第二個(gè)是"場(chǎng)景成功率"(Scene Success Rate),衡量的是有多少比例的場(chǎng)景被完全修好(所有錯(cuò)誤清零)。這是一個(gè)更嚴(yán)格的標(biāo)準(zhǔn):不是部分修好,而是徹底修干凈。

衡量修復(fù)效率的三個(gè)指標(biāo)則從另一個(gè)角度審視模型行為。"有效修復(fù)輪次比例"(Effective Repair Turn Ratio)統(tǒng)計(jì)的是所有交互輪次中,真正減少了錯(cuò)誤的輪次占多少——如果這個(gè)比例很低,說(shuō)明模型在大量"無(wú)效操作",做了很多白功。"過(guò)早停止率"(Premature Stop Rate)統(tǒng)計(jì)的是在場(chǎng)景還有錯(cuò)誤時(shí)模型就說(shuō)"好了"然后停下來(lái)的比例——這個(gè)比例越高,說(shuō)明模型越容易誤以為任務(wù)完成了。最后,"每場(chǎng)景平均完成token數(shù)"衡量的是模型在整個(gè)修復(fù)過(guò)程中消耗的計(jì)算量,反映了推理的經(jīng)濟(jì)效益。

**六、測(cè)試結(jié)果:AI與人類之間令人意外的巨大落差**

研究團(tuán)隊(duì)把七個(gè)當(dāng)前最強(qiáng)的視覺(jué)語(yǔ)言模型拉到這套擂臺(tái)上逐一考驗(yàn),結(jié)果揭示出一幅既有安慰、也有震撼的圖景。

在基礎(chǔ)空間能力和單步任務(wù)上,閉源的頂尖模型表現(xiàn)相當(dāng)不錯(cuò)。Gemini-3.1 Pro在大多數(shù)基礎(chǔ)能力子項(xiàng)上都保持在70%到80%的準(zhǔn)確率區(qū)間,GPT-5.4也緊隨其后。這部分結(jié)果頗令人寬慰——說(shuō)明這些模型確實(shí)"看懂"了不少空間信息。

然而,一旦來(lái)到多輪交互修復(fù)這道真正的考題,畫(huà)風(fēng)就急轉(zhuǎn)直下。Gemini-3.1 Pro以0.411的修復(fù)率和0.206的場(chǎng)景成功率領(lǐng)跑所有AI模型——但這意味著它平均只能消除約41%的錯(cuò)誤,而且只有大約五分之一的場(chǎng)景能被徹底修干凈。GPT-5.4的修復(fù)率是0.208,場(chǎng)景成功率僅有0.038,也就是說(shuō)將近96%的場(chǎng)景都沒(méi)能完全修好。GLM-5V-Turbo的修復(fù)率甚至是負(fù)數(shù),達(dá)到了-0.012,說(shuō)明它改來(lái)改去反而越改越壞。開(kāi)源模型的表現(xiàn)同樣令人失望,Kimi-K2.5、Qwen3.6-27B的修復(fù)率都在0.03到0.04的極低水平徘徊。

與之形成鮮明對(duì)比的是,七名人類測(cè)試者使用研究團(tuán)隊(duì)專門開(kāi)發(fā)的網(wǎng)頁(yè)端操作平臺(tái)來(lái)完成同樣的任務(wù),他們的修復(fù)率高達(dá)0.911,場(chǎng)景成功率達(dá)到0.763。也就是說(shuō),人類平均能修好90%以上的錯(cuò)誤,有超過(guò)四分之三的場(chǎng)景能被徹底清干凈。最強(qiáng)AI和普通人類之間,整整相差了50個(gè)百分點(diǎn)的修復(fù)率。

過(guò)早停止率這個(gè)指標(biāo)同樣觸目驚心。Kimi-K2.5和Qwen3.6-27B的過(guò)早停止率高達(dá)0.920,也就是說(shuō)每10個(gè)場(chǎng)景里有9個(gè),模型在還有錯(cuò)誤殘留的時(shí)候就已經(jīng)宣告"完成任務(wù)"了。Gemini-3.1 Pro相對(duì)好一些,過(guò)早停止率為0.566,但仍然意味著超過(guò)一半的場(chǎng)景被過(guò)早地放棄了。

論文還展示了兩個(gè)具體的失敗案例來(lái)說(shuō)明模型究竟在哪里栽了跟頭。在一個(gè)室內(nèi)場(chǎng)景中,GLM-5V-Turbo對(duì)著廁所(object 5)和貨架(object 8)反復(fù)推敲,擔(dān)心它們是否越界,但對(duì)于真正有問(wèn)題的物體卻誤判為"沒(méi)有問(wèn)題",最終給出了錯(cuò)誤的修復(fù)對(duì)象和方向。在另一個(gè)城市建筑場(chǎng)景中,模型把一棟壓在路上的樓(Building 5)和一棟轉(zhuǎn)角朝向異常的樓(Building 12)都識(shí)別出來(lái)了,但給Building 5開(kāi)出的"往北移動(dòng)0.8米"的藥方實(shí)際上并不能解決建筑-道路沖突問(wèn)題,顯示出從正確診斷到正確行動(dòng)之間仍然存在斷層。

**七、是什么導(dǎo)致了這個(gè)鴻溝**

研究團(tuán)隊(duì)沒(méi)有停留在揭示問(wèn)題上,還做了一系列更細(xì)致的分析,試圖搞清楚這道鴻溝究竟是從哪里來(lái)的。

從場(chǎng)景類型的角度來(lái)看,Gemini-3.1 Pro在室內(nèi)場(chǎng)景上的修復(fù)率和有效修復(fù)輪次比例都高于城市建筑場(chǎng)景,說(shuō)明模型對(duì)室內(nèi)環(huán)境更熟悉,更擅長(zhǎng)處理家具的空間問(wèn)題。有意思的是,建筑場(chǎng)景的場(chǎng)景成功率反而稍微高一點(diǎn),研究團(tuán)隊(duì)推測(cè)這可能是因?yàn)榻ㄖ季窒鄬?duì)簡(jiǎn)單、對(duì)象間的依賴關(guān)系沒(méi)那么復(fù)雜,一旦修好了關(guān)鍵錯(cuò)誤,整個(gè)場(chǎng)景就容易達(dá)到全部清零的狀態(tài)。

從錯(cuò)誤類型的角度來(lái)看,三個(gè)主要測(cè)試模型(Gemini-3.1 Pro、GPT-5.4、Qwen3.6-35B-A3B)都呈現(xiàn)出同樣的規(guī)律:朝向錯(cuò)誤最容易修,道路/墻壁沖突最難修,碰撞問(wèn)題居中。朝向修復(fù)通常只需要旋轉(zhuǎn)某個(gè)物體就能解決,是相對(duì)孤立的屬性調(diào)整。而沖突修復(fù)往往牽一發(fā)而動(dòng)全身,修了這個(gè)物體可能帶出新的沖突,需要同時(shí)協(xié)調(diào)多個(gè)對(duì)象的位置,對(duì)模型的全局規(guī)劃能力要求極高。

從場(chǎng)景復(fù)雜度的角度來(lái)看,研究團(tuán)隊(duì)把室內(nèi)場(chǎng)景按照初始錯(cuò)誤數(shù)量分成了三組(1到3個(gè)錯(cuò)誤、4到6個(gè)錯(cuò)誤、7個(gè)以上錯(cuò)誤),結(jié)果不出意外——錯(cuò)誤越多的場(chǎng)景,修復(fù)率和場(chǎng)景成功率越低。當(dāng)場(chǎng)景里有7個(gè)以上相互牽連的錯(cuò)誤時(shí),模型幾乎束手無(wú)策,GPT-5.4和GLM-5V-Turbo在這個(gè)難度區(qū)間的場(chǎng)景成功率趨近于零。

研究團(tuán)隊(duì)還專門測(cè)試了上下文窗口大小對(duì)模型表現(xiàn)的影響,用Kimi-K2.5(這個(gè)模型的推理輸出特別長(zhǎng))在100個(gè)樣本上做了實(shí)驗(yàn),分別限制到8K、16K、32K個(gè)token的上限。結(jié)果發(fā)現(xiàn),隨著上下文窗口增大,模型確實(shí)會(huì)生成更多的推理內(nèi)容、進(jìn)行更多輪次的互動(dòng),但修復(fù)率和場(chǎng)景成功率幾乎沒(méi)有變化。這說(shuō)明"讓模型想更多"并不等于"讓模型修得更好",瓶頸不在于推理預(yù)算,而在于跨輪次的狀態(tài)追蹤能力、錯(cuò)誤優(yōu)先級(jí)判斷,以及面對(duì)反饋時(shí)的動(dòng)作可靠性。

最后,研究團(tuán)隊(duì)還計(jì)算了六項(xiàng)基礎(chǔ)任務(wù)的得分和多輪交互修復(fù)表現(xiàn)之間的相關(guān)性。六項(xiàng)基礎(chǔ)任務(wù)的得分都與修復(fù)表現(xiàn)呈正相關(guān),這說(shuō)明基礎(chǔ)能力確實(shí)是復(fù)雜任務(wù)的基石,基礎(chǔ)越好的模型在修復(fù)上也做得更好。其中相關(guān)性最強(qiáng)的是"單步錯(cuò)誤檢測(cè)與修復(fù)"任務(wù),它與修復(fù)率的皮爾遜相關(guān)系數(shù)高達(dá)0.817,與場(chǎng)景成功率的相關(guān)系數(shù)為0.690,說(shuō)明"單步檢測(cè)修復(fù)"的能力正是多輪交互修復(fù)的核心構(gòu)件,被模型反復(fù)調(diào)用。排在第二位的是"物體含義",說(shuō)明對(duì)物體位置和身份的精準(zhǔn)識(shí)別,對(duì)于將局部修復(fù)延伸到整個(gè)場(chǎng)景的一致性至關(guān)重要。不過(guò),基礎(chǔ)能力強(qiáng)并不能保證多輪修復(fù)就一定成功,因?yàn)榈迯?fù)還額外依賴跨輪次的記憶維護(hù)、沖突感知的規(guī)劃,以及對(duì)反饋的穩(wěn)定響應(yīng)——這些都是更高階的協(xié)調(diào)能力,目前的模型普遍欠缺。

**八、這項(xiàng)研究意味著什么**

說(shuō)到底,SpatialAct這項(xiàng)研究干的事,是把AI的一個(gè)"假裝很強(qiáng)"的假象給戳破了。那些在靜態(tài)空間問(wèn)答里答得津津有味的模型,一旦被要求真正動(dòng)手在一個(gè)會(huì)隨自己行動(dòng)而改變的3D環(huán)境里工作,就立刻原形畢露。看懂空間和在空間里行動(dòng),是兩件完全不同的事。

歸根結(jié)底,這個(gè)差距來(lái)自一種人類覺(jué)得理所當(dāng)然、但機(jī)器目前還很缺乏的能力——在行動(dòng)之后,持續(xù)、準(zhǔn)確地知道"現(xiàn)在的世界是什么樣的",并據(jù)此規(guī)劃下一步。每一次你動(dòng)了一件家具,你的大腦會(huì)自動(dòng)更新對(duì)整個(gè)房間的認(rèn)知模型,下一個(gè)判斷是基于更新后的狀態(tài)做出的。而當(dāng)前的視覺(jué)語(yǔ)言模型雖然能接收到更新后的圖片,卻常常無(wú)法把這些更新穩(wěn)定地整合進(jìn)自己的空間認(rèn)知里,更無(wú)法基于多輪歷史形成連貫的修復(fù)策略。

研究團(tuán)隊(duì)坦誠(chéng)地指出,這套測(cè)試目前全部在模擬環(huán)境里進(jìn)行,真實(shí)世界中的復(fù)雜光照、遮擋、噪聲等問(wèn)題沒(méi)有被納入考量,是未來(lái)工作的重要方向。此外,如何針對(duì)性地提升模型的多輪空間修復(fù)能力,目前還沒(méi)有成熟的解決方案,這也留給了后續(xù)研究者一個(gè)清晰的目標(biāo)。

對(duì)于普通讀者而言,這項(xiàng)研究的意義是相當(dāng)實(shí)際的。在不遠(yuǎn)的將來(lái),各種AI助手會(huì)越來(lái)越多地參與到室內(nèi)設(shè)計(jì)、家居規(guī)劃、城市建設(shè)、游戲場(chǎng)景生成等需要三維空間理解和動(dòng)手操作的場(chǎng)景中。SpatialAct這套評(píng)測(cè)體系的出現(xiàn),為判斷"哪些模型真正有空間動(dòng)手能力"提供了一把可靠的尺子,也為研究者指明了"接下來(lái)最需要突破什么"的方向。有興趣深入探索的讀者,可以前往arXiv通過(guò)論文編號(hào)arXiv:2605.31148查閱完整的原始論文,研究團(tuán)隊(duì)也在GitHub上公開(kāi)了完整的基準(zhǔn)數(shù)據(jù)、模擬器工作流和評(píng)估工具,地址為tsinghua-fib-lab/SpatialAct。

Q&A

Q1:SpatialAct測(cè)試平臺(tái)的三類場(chǎng)景分別是什么,各有什么特點(diǎn)?

A:SpatialAct包含三類場(chǎng)景。抽象幾何場(chǎng)景由程序自動(dòng)生成,內(nèi)含立方體、圓柱、L形、U形等幾何體,形狀干凈無(wú)語(yǔ)義干擾,專門測(cè)試純幾何空間能力。城市建筑場(chǎng)景來(lái)自RAISECity框架,由白模和帶貼圖的建筑混合構(gòu)成,每場(chǎng)景不超過(guò)20棟樓,模擬城市規(guī)劃布局。室內(nèi)場(chǎng)景來(lái)自InternScenes數(shù)據(jù)集,包含各類可移動(dòng)家具,每場(chǎng)景含5到15個(gè)對(duì)象,視覺(jué)復(fù)雜度最高。

Q2:多輪交互修復(fù)任務(wù)里,AI模型和人類的表現(xiàn)差距有多大?

A:差距非常顯著。最強(qiáng)的AI模型Gemini-3.1 Pro的修復(fù)率為0.411,場(chǎng)景成功率為0.206,而七名人類測(cè)試者的修復(fù)率高達(dá)0.911,場(chǎng)景成功率達(dá)0.763。兩者之間整整相差約50個(gè)百分點(diǎn)的修復(fù)率。部分開(kāi)源模型的修復(fù)率甚至是負(fù)數(shù),說(shuō)明越改越壞。此外,多數(shù)開(kāi)源模型在超過(guò)90%的場(chǎng)景中會(huì)在錯(cuò)誤還未完全消除時(shí)就提前宣告任務(wù)完成。

Q3:為什么增大AI模型的上下文窗口并不能提升空間修復(fù)效果?

A:研究發(fā)現(xiàn),隨著上下文窗口從8K增大到32K,模型會(huì)生成更多推理內(nèi)容并進(jìn)行更多輪次互動(dòng),但修復(fù)率和場(chǎng)景成功率幾乎沒(méi)有變化。這說(shuō)明瓶頸不在于推理預(yù)算,而在于模型跨輪次的空間狀態(tài)追蹤能力、錯(cuò)誤優(yōu)先級(jí)判斷,以及面對(duì)環(huán)境反饋時(shí)穩(wěn)定輸出正確動(dòng)作的能力。更多的思考并不能彌補(bǔ)空間狀態(tài)維護(hù)能力本身的不足。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
美國(guó)頂級(jí)戰(zhàn)略家一針見(jiàn)血,中國(guó)的這場(chǎng)危機(jī)不解決,未來(lái)后果很嚴(yán)重

美國(guó)頂級(jí)戰(zhàn)略家一針見(jiàn)血,中國(guó)的這場(chǎng)危機(jī)不解決,未來(lái)后果很嚴(yán)重

荷蘭豆愛(ài)健康
2026-06-14 13:42:59
伊朗:霍爾木茲海峽,全面關(guān)閉!任何通行船只都將被“果斷處置”!美聯(lián)儲(chǔ)新掌門首秀在即,6月利率不變概率飆至98.5%!

伊朗:霍爾木茲海峽,全面關(guān)閉!任何通行船只都將被“果斷處置”!美聯(lián)儲(chǔ)新掌門首秀在即,6月利率不變概率飆至98.5%!

金融界
2026-06-14 13:43:17
不出意外,下半年開(kāi)始,寬帶費(fèi)、有線電視費(fèi)將迎來(lái)行業(yè)新一輪洗牌

不出意外,下半年開(kāi)始,寬帶費(fèi)、有線電視費(fèi)將迎來(lái)行業(yè)新一輪洗牌

民生格物
2026-06-14 13:14:05
總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨(dú)他一人可以昂首離開(kāi)

總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨(dú)他一人可以昂首離開(kāi)

你的籃球頻道
2026-06-14 12:44:04
保時(shí)捷撞上兩車后,火速逃離現(xiàn)場(chǎng)!北京警方:姐弟兩人,一個(gè)刑拘一個(gè)拘留

保時(shí)捷撞上兩車后,火速逃離現(xiàn)場(chǎng)!北京警方:姐弟兩人,一個(gè)刑拘一個(gè)拘留

都市快報(bào)橙柿互動(dòng)
2026-06-14 00:39:15
12000億光模塊巨頭,回應(yīng)業(yè)績(jī)暴雷傳聞

12000億光模塊巨頭,回應(yīng)業(yè)績(jī)暴雷傳聞

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-06-14 14:12:59
中紀(jì)委怒批:公務(wù)員也是人,正常生活不應(yīng)問(wèn)責(zé)處理!

中紀(jì)委怒批:公務(wù)員也是人,正常生活不應(yīng)問(wèn)責(zé)處理!

細(xì)說(shuō)職場(chǎng)
2026-06-13 12:51:02
爭(zhēng)議拉滿!迪麗熱巴手機(jī)殼用詞露骨惹網(wǎng)友吐槽

爭(zhēng)議拉滿!迪麗熱巴手機(jī)殼用詞露骨惹網(wǎng)友吐槽

暖心萌阿菇?jīng)?/span>
2026-06-14 14:57:11
世界杯官方社媒:蘇格蘭1998年以來(lái)首次進(jìn)球

世界杯官方社媒:蘇格蘭1998年以來(lái)首次進(jìn)球

懂球帝
2026-06-14 10:31:36
包工頭退出舞臺(tái)!住建委:取消勞務(wù)分包!全面實(shí)現(xiàn)自有工人施工!國(guó)資委:建筑央企建立自有工人隊(duì)伍

包工頭退出舞臺(tái)!住建委:取消勞務(wù)分包!全面實(shí)現(xiàn)自有工人施工!國(guó)資委:建筑央企建立自有工人隊(duì)伍

新浪財(cái)經(jīng)
2026-06-14 07:41:37
45歲安以軒復(fù)出,好友透露其近況:沒(méi)有工作和任何收入,靠以往積蓄投資理財(cái),獨(dú)自照顧兩個(gè)孩子

45歲安以軒復(fù)出,好友透露其近況:沒(méi)有工作和任何收入,靠以往積蓄投資理財(cái),獨(dú)自照顧兩個(gè)孩子

無(wú)比
2026-06-13 20:42:09
美國(guó)隊(duì)長(zhǎng)又帥回來(lái)了,一次失敗的植發(fā),毀了他兩年形象

美國(guó)隊(duì)長(zhǎng)又帥回來(lái)了,一次失敗的植發(fā),毀了他兩年形象

替補(bǔ)席懂王
2026-06-14 11:43:01
崩潰!6萬(wàn)美術(shù)集訓(xùn)班逼哭單親媽媽,美術(shù)老師瘋狂對(duì)女兒話術(shù)洗腦

崩潰!6萬(wàn)美術(shù)集訓(xùn)班逼哭單親媽媽,美術(shù)老師瘋狂對(duì)女兒話術(shù)洗腦

火山詩(shī)話
2026-06-14 05:11:04
中央定調(diào):事業(yè)單位這三類人員不允許彈性延遲退休,到齡就得退休

中央定調(diào):事業(yè)單位這三類人員不允許彈性延遲退休,到齡就得退休

職場(chǎng)資深秘書(shū)
2026-06-14 09:25:33
日媒:韓國(guó)決定申請(qǐng)加入CPTPP

日媒:韓國(guó)決定申請(qǐng)加入CPTPP

參考消息
2026-06-13 12:18:28
美聯(lián)儲(chǔ),重磅來(lái)襲!加息,傳來(lái)大消息!

美聯(lián)儲(chǔ),重磅來(lái)襲!加息,傳來(lái)大消息!

證券時(shí)報(bào)
2026-06-14 16:50:07
雷軍犯天條了,竟然遭到整個(gè)中國(guó)家電行業(yè)集體圍剿。

雷軍犯天條了,竟然遭到整個(gè)中國(guó)家電行業(yè)集體圍剿。

流蘇晚晴
2026-06-12 13:02:17
張雪奪第六冠,日媒集體破防:在三缸機(jī)領(lǐng)域,中國(guó)已經(jīng)反超了日本

張雪奪第六冠,日媒集體破防:在三缸機(jī)領(lǐng)域,中國(guó)已經(jīng)反超了日本

林子說(shuō)事
2026-06-14 14:36:43
男童失蹤96小時(shí)!救援隊(duì)曝致命疑點(diǎn),家屬哭喊:最怕的事要來(lái)了

男童失蹤96小時(shí)!救援隊(duì)曝致命疑點(diǎn),家屬哭喊:最怕的事要來(lái)了

小陸搞笑日常
2026-06-14 15:13:09
2026-06-14 19:00:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8771文章數(shù) 565關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

村民砍掉"孤獨(dú)樹(shù)":砍樹(shù)前一天跟紅裙女子發(fā)生沖突

頭條要聞

村民砍掉"孤獨(dú)樹(shù)":砍樹(shù)前一天跟紅裙女子發(fā)生沖突

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂(lè)要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來(lái)抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級(jí) 2027款星途ES預(yù)售18.99萬(wàn)起

態(tài)度原創(chuàng)

房產(chǎn)
健康
教育
時(shí)尚
游戲

房產(chǎn)要聞

海南最賺錢行業(yè)曝光!最快4年半,海口全款買三房!

老人、小孩、孕婦,吃粽子有啥風(fēng)險(xiǎn)

教育要聞

2026高考作文:萬(wàn)古融雪,終貫滄海

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調(diào)查組》......

《殺戮尖塔》UP主承認(rèn)作弊!并承諾退回禮物重打挑戰(zhàn)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版