无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

港科大(廣州)開(kāi)源首個(gè)無(wú)需訓(xùn)練的開(kāi)放詞匯3D占據(jù)地圖構(gòu)建系統(tǒng)

0
分享至



從第一視角觀測(cè)中持續(xù)重構(gòu)三維世界,并理解空間中的幾何結(jié)構(gòu)與開(kāi)放語(yǔ)義信息,是機(jī)器人具身感知領(lǐng)域的核心問(wèn)題。語(yǔ)義占據(jù)預(yù)測(cè)(Semantic Occupancy Prediction) 通過(guò)將空間劃分為三維體素網(wǎng)格,并為每個(gè)體素估計(jì) “空閑、占據(jù)、未知” 狀態(tài)及其語(yǔ)義類別,為機(jī)器人的空間推理、導(dǎo)航避障與交互操作提供統(tǒng)一的基礎(chǔ)場(chǎng)景表達(dá)。

然而,現(xiàn)有三維占據(jù)預(yù)測(cè)方法仍高度依賴大規(guī)模三維占據(jù)標(biāo)注、語(yǔ)義標(biāo)注以及精確相機(jī)位姿等訓(xùn)練數(shù)據(jù)。在真實(shí)開(kāi)放環(huán)境中,這些假設(shè)往往難以成立:當(dāng)機(jī)器人進(jìn)入全新場(chǎng)景時(shí),通常不存在預(yù)先標(biāo)注好的三維幾何與語(yǔ)義真值,也缺乏可靠的全局相機(jī)軌跡,更不可能針對(duì)每個(gè)新環(huán)境重新采集數(shù)據(jù)并訓(xùn)練模型。因此,構(gòu)建具備強(qiáng)泛化能力、能夠在開(kāi)放真實(shí)環(huán)境中實(shí)現(xiàn)語(yǔ)義占據(jù)預(yù)測(cè)的感知系統(tǒng),已成為推動(dòng)具身智能體從 “被動(dòng)感知” 邁向 “主動(dòng)理解” 的關(guān)鍵基礎(chǔ)。

近期,香港科技大學(xué)(廣州)陳昶昊教授團(tuán)隊(duì)聯(lián)合穆罕默德?本?扎耶德人工智能大學(xué)(MBZUAI )研究者提出FreeOcc。該工作已被機(jī)器人領(lǐng)域旗艦會(huì)議 Robotics: Science and Systems (RSS 2026) 接收,源代碼和數(shù)據(jù)集均已開(kāi)源。

FreeOcc 是首個(gè)無(wú)需訓(xùn)練(training-free)的開(kāi)放詞匯三維占據(jù)預(yù)測(cè)系統(tǒng),僅基于單目或 RGB-D 圖像序列,在線構(gòu)建全局一致的開(kāi)放詞匯三維占據(jù)地圖。在 EmbodiedOcc-ScanNet 數(shù)據(jù)集上,F(xiàn)reeOcc 無(wú)需任務(wù)特定訓(xùn)練,單目版本達(dá)到 31.29 IoU / 13.86 mIoU,RGB-D 版本達(dá)到 34.40 IoU / 15.84 mIoU,相較現(xiàn)有自監(jiān)督學(xué)習(xí)方法在 IoU 與 mIoU 指標(biāo)上均實(shí)現(xiàn)超過(guò)兩倍提升。在團(tuán)隊(duì)進(jìn)一步構(gòu)建的跨數(shù)據(jù)集泛化基準(zhǔn) ReplicaOcc 上,F(xiàn)reeOcc 的 RGB-D 版本取得了 55.65 IoU / 20.90 mIoU 的性能,而現(xiàn)有監(jiān)督與自監(jiān)督方法幾乎無(wú)法實(shí)現(xiàn)零樣本泛化。



  • 論文標(biāo)題:FreeOcc: Training-Free Embodied Open-Vocabulary Occupancy Prediction
  • 論文地址:https://arxiv.org/abs/2604.28115
  • 項(xiàng)目主頁(yè):https://the-masses.github.io/freeocc-web/
  • 項(xiàng)目代碼:https://github.com/the-masses/FreeOcc
  • 數(shù)據(jù)鏈接:https://huggingface.co/datasets/the-masses/ReplicaOcc

實(shí)現(xiàn)具身場(chǎng)景中 “無(wú)需訓(xùn)練” 的開(kāi)放詞匯語(yǔ)義占據(jù)預(yù)測(cè),其核心難點(diǎn)在哪里?

近年來(lái),基于端到端模型的語(yǔ)義占據(jù)預(yù)測(cè)在引入占據(jù)真值監(jiān)督后,已經(jīng)能夠在特定場(chǎng)景中取得較高的幾何與語(yǔ)義精度。然而,在 LegoOcc (CVPR-2026) 提出之前,大多數(shù)方法仍只能在預(yù)定義的封閉類別集合中進(jìn)行推理。LegoOcc 將開(kāi)放詞匯能力引入室內(nèi)單目占據(jù)預(yù)測(cè),使模型能夠響應(yīng)任意自然語(yǔ)言查詢,從而讓端到端占據(jù)預(yù)測(cè)具備了初步的語(yǔ)言理解能力。

基于監(jiān)督學(xué)習(xí)的端到端占據(jù)預(yù)測(cè)方法依然存在瓶頸:它們高度依賴高質(zhì)量三維占據(jù)真值標(biāo)注,并且在場(chǎng)景發(fā)生變化時(shí)泛化能力顯著下降。一旦進(jìn)入未見(jiàn)過(guò)的新場(chǎng)景,模型的幾何與語(yǔ)義預(yù)測(cè)性能往往會(huì)迅速退化。而當(dāng)前具備高質(zhì)量占據(jù)真值標(biāo)注的室內(nèi)具身場(chǎng)景數(shù)據(jù)集,仍主要局限于基于 ScanNet 構(gòu)建的 OccScanNet 與 EmbodiedOcc-ScanNet,數(shù)據(jù)資源極為稀缺。

因此,監(jiān)督學(xué)習(xí)范式下的端到端占據(jù)預(yù)測(cè),始終面臨兩座難以跨越的大山:

1.三維標(biāo)注成本極高:高質(zhì)量占據(jù)真值需要經(jīng)過(guò)三維重建、體素化與逐體素語(yǔ)義標(biāo)注等復(fù)雜流程,其成本遠(yuǎn)高于傳統(tǒng)二維圖像標(biāo)注,難以大規(guī)模擴(kuò)展。

2.跨環(huán)境泛化能力不足:監(jiān)督學(xué)習(xí)方法容易過(guò)擬合特定數(shù)據(jù)集中的相機(jī)內(nèi)參、尺度分布、外觀風(fēng)格以及標(biāo)簽體系。一旦遷移到新的場(chǎng)景或傳感器配置,語(yǔ)義與幾何預(yù)測(cè)都會(huì)出現(xiàn)明顯退化。

FreeOcc 的核心思想正是:不再訓(xùn)練一個(gè)面向特定數(shù)據(jù)集的占據(jù)預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)模型,而是構(gòu)建一個(gè)能夠讓智能體 “無(wú)需訓(xùn)練” 即可在任意環(huán)境中在線預(yù)測(cè)占據(jù)地圖與開(kāi)放詞匯語(yǔ)義的通用感知系統(tǒng)。

作為首個(gè)無(wú)需訓(xùn)練的通用開(kāi)放詞匯占據(jù)預(yù)測(cè)框架,F(xiàn)reeOcc 在系統(tǒng)設(shè)計(jì)與評(píng)估過(guò)程中面臨一系列挑戰(zhàn):

1.3DGS 表達(dá)與占據(jù)預(yù)測(cè)目標(biāo)之間存在較大差異:FreeOcc 采用 SLAM 作為定位與建圖主干。現(xiàn)有耦合式 3DGS-SLAM 方法在效率與建圖精度之間往往難以兼顧,而繼承點(diǎn)云 SLAM 全局一致性的解耦式 3DGS-SLAM,則更關(guān)注多視角渲染質(zhì)量,而非體素空間中的幾何一致性。若直接將現(xiàn)有 3DGS 表示用于體素級(jí)占據(jù)預(yù)測(cè),會(huì)出現(xiàn)幾何邊界不穩(wěn)定、局部結(jié)構(gòu)漂移以及全局拓?fù)洳灰?guī)整等問(wèn)題。如何將面向渲染的 3DGS 表達(dá)轉(zhuǎn)化為面向空間推理的三維占據(jù)表示,成為一個(gè)新的研究問(wèn)題。

2.缺乏適用基于占據(jù)的 SLAM 系統(tǒng)的統(tǒng)一評(píng)估機(jī)制:基于 SLAM 的系統(tǒng)評(píng)估通常需要進(jìn)行 Sim (3) 或 SE (3) 對(duì)齊。然而,在標(biāo)準(zhǔn) 3DGS 優(yōu)化過(guò)程中,系統(tǒng)會(huì)聯(lián)合更新位置 (x,y,z)、旋轉(zhuǎn)、尺度、透明度、顏色、球諧系數(shù)(SH)以及 densify / split / prune 等參數(shù)。優(yōu)化后的高斯場(chǎng)幾何已經(jīng)不再是單純 “由相機(jī)位姿驅(qū)動(dòng)” 的剛性或相似結(jié)構(gòu),而是被優(yōu)化器不斷局部重塑的自由場(chǎng)。當(dāng)軌跡、尺度或坐標(biāo)系發(fā)生變化時(shí),僅施加群變換雖然在數(shù)學(xué)上成立,卻往往無(wú)法完全吸收訓(xùn)練過(guò)程中累積的局部補(bǔ)償誤差,通常仍需進(jìn)一步重優(yōu)化。

3.缺乏能夠評(píng)估開(kāi)放世界泛化能力的數(shù)據(jù)基準(zhǔn):目前具身場(chǎng)景中的占據(jù)預(yù)測(cè)評(píng)測(cè)主要依賴 EmbodiedOcc-ScanNet 與 OccScanNet。然而,OccScanNet 在構(gòu)建過(guò)程中將大量類別合并為 “furniture” 與 “objects”,導(dǎo)致現(xiàn)有評(píng)測(cè)難以真正量化開(kāi)放詞匯場(chǎng)景中的語(yǔ)義理解能力,尤其難以準(zhǔn)確評(píng)估開(kāi)放類別下的 mIoU。僅依賴傳統(tǒng)數(shù)據(jù)集與封閉類別評(píng)測(cè),已經(jīng)無(wú)法衡量下一代開(kāi)放詞匯占據(jù)系統(tǒng)的真實(shí)能力。

為此,F(xiàn)reeOcc 建立了統(tǒng)一框架:既能夠繼承 SLAM 的全局一致性幾何,又能夠利用 3DGS 的稠密表達(dá)能力,同時(shí)融合開(kāi)放詞匯語(yǔ)義理解,并支持可對(duì)齊、可泛化、可量化的評(píng)估機(jī)制。

FreeOcc 框架介紹




FreeOcc 將在線開(kāi)放詞匯占據(jù)預(yù)測(cè)拆解為四層模塊化地圖表示,并在機(jī)器人觀測(cè)過(guò)程中持續(xù)進(jìn)行聯(lián)合更新:

1.點(diǎn)云地圖:基于視覺(jué)定位與建圖系統(tǒng)(SLAM),從單目或 RGB-D 圖像序列中估計(jì)相機(jī)位姿,并構(gòu)建全局一致的半稠密點(diǎn)云。

2.3DGS 地圖:以 SLAM 點(diǎn)云為幾何錨點(diǎn)初始化并更新 3D 高斯,通過(guò)連續(xù)場(chǎng)表示補(bǔ)充稀疏幾何結(jié)構(gòu)。

3.語(yǔ)義地圖:利用預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型提取開(kāi)放詞匯語(yǔ)義特征,并將語(yǔ)言對(duì)齊特征關(guān)聯(lián)到高斯基元(Gaussian primitives)。

4.占據(jù)地圖:通過(guò)概率式 高斯至占據(jù)(Gaussian-to-Occupancy) 投影,將帶語(yǔ)義的高斯表達(dá)轉(zhuǎn)換為稠密體素占據(jù)地圖,從而支持任意文本查詢。

(1)SLAM 提供全局一致的幾何錨點(diǎn)

FreeOcc 首先利用 SLAM 系統(tǒng)處理輸入圖像序列,實(shí)時(shí)估計(jì)相機(jī)位姿并重建三維點(diǎn)云。正文采用 DROID-SLAM,利用其在單目輸入條件下較強(qiáng)的全局幾何一致性。補(bǔ)充實(shí)驗(yàn)中還進(jìn)一步驗(yàn)證了 MASt3R-SLAM 與 VGGT-SLAM 作為骨干模型時(shí)的性能表現(xiàn)。SLAM 輸出的相機(jī)軌跡與點(diǎn)云,為后續(xù)高斯地圖提供統(tǒng)一坐標(biāo)系,為占據(jù)地圖的長(zhǎng)期一致性構(gòu)建幾何基礎(chǔ)。

(2)幾何一致的 3D 高斯構(gòu)建

傳統(tǒng) 3DGS-SLAM 方法更擅長(zhǎng)把圖像渲染正確,卻未必真正把幾何結(jié)構(gòu)建精準(zhǔn)。由于 3DGS 的優(yōu)化目標(biāo)主要服務(wù)于新視角渲染,只要最終渲染出的 RGB 與深度結(jié)果足夠合理,高斯的位置、尺度與透明度往往可能存在多種等價(jià)解。這種幾何歧義在新視角合成任務(wù)中并不明顯,但一旦用于三維占據(jù)預(yù)測(cè),就會(huì)直接導(dǎo)致幾何邊界模糊、薄結(jié)構(gòu)漂移、全局空間結(jié)構(gòu)不穩(wěn)定以及體素語(yǔ)義分布不連續(xù)等問(wèn)題。

針對(duì)這一挑戰(zhàn),F(xiàn)reeOcc 提出了幾何感知初始化(Geometry-aware Initialization,G-ini)與幾何錨定高斯更新(Geometrically Anchored Gaussian Updates,GAGU)。不再允許高斯在優(yōu)化過(guò)程中自由漂移,而是始終將高斯的幾何中心錨定在 SLAM 重建得到的三維點(diǎn)上。在初始化階段,系統(tǒng)進(jìn)一步沿觀測(cè)射線方向?qū)Ω咚惯M(jìn)行各向異性展開(kāi),使其形狀天然符合真實(shí)成像幾何,而不僅僅服務(wù)于渲染誤差最小化。通過(guò)這一設(shè)計(jì),F(xiàn)reeOcc 構(gòu)建出的高斯地圖能夠?qū)崿F(xiàn)高質(zhì)量渲染,更能夠保持長(zhǎng)期穩(wěn)定的幾何一致性,從而適用于體素級(jí)空間推理與開(kāi)放詞匯占據(jù)預(yù)測(cè)。

(3)開(kāi)放詞匯語(yǔ)義關(guān)聯(lián)

FreeOcc 并不訓(xùn)練固定類別的語(yǔ)義分類頭,直接利用預(yù)訓(xùn)練開(kāi)放詞匯視覺(jué)語(yǔ)言模型,從二維圖像中提取語(yǔ)言對(duì)齊語(yǔ)義特征。系統(tǒng)基于 SLAM 提供的幾何對(duì)應(yīng)關(guān)系,將二維像素級(jí)語(yǔ)義嵌入提升到三維高斯基元(Gaussian primitives)上,從而形成攜帶語(yǔ)言信息的語(yǔ)義高斯基元(language-embedded Gaussians)。

因此,每一個(gè)高斯基元不僅包含位置、尺度、不透明度和顏色等幾何與外觀屬性,同時(shí)還攜帶開(kāi)放詞匯語(yǔ)義特征。當(dāng)用戶輸入任意文本類別時(shí),系統(tǒng)即可通過(guò)文本編碼器生成對(duì)應(yīng)的查詢語(yǔ)義向量(query embedding),并與三維空間中的語(yǔ)言特征進(jìn)行相似度匹配,實(shí)現(xiàn)文本驅(qū)動(dòng)的三維語(yǔ)義定位。

(4)高斯基元到占據(jù)地圖的概率投影

FreeOcc 將連續(xù)的高斯地圖投影到離散體素網(wǎng)格中,從而生成最終的三維占據(jù)地圖。對(duì)于每一個(gè)體素位置,系統(tǒng)都會(huì)檢索其鄰域范圍內(nèi)的高斯體,并根據(jù)高斯體的空間支持范圍計(jì)算該體素被占據(jù)的概率。同時(shí),系統(tǒng)通過(guò)局部高斯混合模型(Gaussian mixture)的后驗(yàn)責(zé)任傳播語(yǔ)義特征,使語(yǔ)義信息能夠穩(wěn)定映射到三維體素空間。

最終輸出同時(shí)包含兩個(gè)部分:1)幾何占據(jù)概率,即該體素是否被物體占據(jù);2)開(kāi)放詞匯語(yǔ)義分?jǐn)?shù),即該體素與任意文本類別之間的匹配程度。FreeOcc 最終生成一張能夠被任意自然語(yǔ)言查詢的開(kāi)放詞匯三維占據(jù)地圖。

實(shí)驗(yàn)結(jié)果

論文從 EmbodiedOcc-ScanNet、ReplicaOcc、三維高斯?jié)姙R SLAM 主干對(duì)比、組件消融實(shí)驗(yàn)、開(kāi)放詞匯查詢以及真實(shí)機(jī)器人部署等多個(gè)角度,對(duì) FreeOcc 的性能進(jìn)行了系統(tǒng)驗(yàn)證。

(1)在 EmbodiedOcc-ScanNet 上,無(wú)需訓(xùn)練即可超過(guò)自監(jiān)督方法兩倍以上



在 EmbodiedOcc-ScanNet 數(shù)據(jù)集上,現(xiàn)有自監(jiān)督方法 GaussianOcc 與 GaussTR 雖不依賴語(yǔ)義占據(jù)監(jiān)督,但仍需要真實(shí)相機(jī)位姿作為輸入,分別取得 10.17/4.34 與 15.63/4.95 的 IoU/mIoU 性能。FreeOcc 在完全不使用占據(jù)真值標(biāo)注、語(yǔ)義標(biāo)注以及真實(shí)相機(jī)位姿作為輸入的情況下,依然取得更好性能:?jiǎn)文枯斎脒_(dá)到 31.29 IoU / 13.86 mIoU,RGB-D 輸入達(dá)到 34.40 IoU / 15.84 mIoU。無(wú)論在幾何 IoU 還是語(yǔ)義 mIoU 指標(biāo)上,均超過(guò)現(xiàn)有自監(jiān)督基線兩倍以上,展示了無(wú)需訓(xùn)練(training-free)范式在開(kāi)放世界占據(jù)預(yù)測(cè)中的潛力。

(2)構(gòu)建 ReplicaOcc 基準(zhǔn)數(shù)據(jù)集,驗(yàn)證跨數(shù)據(jù)集零樣本泛化能力

為了進(jìn)一步驗(yàn)證模型是否真正具備跨環(huán)境泛化能力,論文構(gòu)建了 ReplicaOcc Benchmark。該數(shù)據(jù)集基于 Replica 場(chǎng)景構(gòu)建,采用與 ScanNet 類似的 RGB-D 序列組織方式,并提供全局占據(jù)真值,用于評(píng)估開(kāi)放詞匯具身占據(jù)預(yù)測(cè)。



與 EmbodiedOcc-ScanNet 中僅包含 11 個(gè)粗粒度類別不同,ReplicaOcc 引入了更加細(xì)粒度的語(yǔ)義類別體系,因此能夠更有效地檢驗(yàn)?zāi)P偷拈_(kāi)放詞匯語(yǔ)義理解能力。論文展示了 8 個(gè) ReplicaOcc 場(chǎng)景的可視化結(jié)果。



(3)在 ReplicaOcc 上,學(xué)習(xí)式方法遷移失敗,而 FreeOcc 保持強(qiáng)泛化能力



在零樣本(Zero-shot)跨數(shù)據(jù)集遷移設(shè)定下,學(xué)習(xí)式方法從 EmbodiedOcc-ScanNet 遷移到 ReplicaOcc 后出現(xiàn)明顯性能崩潰。監(jiān)督方法 EmbodiedOcc 的語(yǔ)義 mIoU 幾乎降為 0,而自監(jiān)督方法 GaussianOcc 與 GaussTR 幾乎無(wú)法生成有效語(yǔ)義占據(jù)結(jié)果。

相比之下,F(xiàn)reeOcc 由于不依賴特定數(shù)據(jù)集訓(xùn)練,能夠直接遷移至全新環(huán)境,并保持穩(wěn)定性能。其中,單目輸入達(dá)到 46.81 IoU / 16.93 mIoU,RGB-D 輸入達(dá)到 55.65 IoU / 20.90 mIoU。說(shuō)明,F(xiàn)reeOcc 減少了三維標(biāo)注成本,避免了學(xué)習(xí)式占據(jù)預(yù)測(cè)模型對(duì)單一數(shù)據(jù)集、固定標(biāo)簽體系以及特定場(chǎng)景分布的過(guò)擬合。

(4)幾何一致高斯更新優(yōu)于現(xiàn)有 3DGS SLAM



為便于對(duì)比,將不同 3DGS-SLAM 系統(tǒng)生成的高斯地圖統(tǒng)一轉(zhuǎn)換為占據(jù)體,并在 ReplicaOcc 和 EmbodiedOcc-ScanNet-mini 上評(píng)估幾何 IoU。FreeOcc 在單目和 RGB-D 設(shè)置下均取得最佳平均 IoU:

  • 單目平均 IoU:39.34,優(yōu)于 Photo-SLAM、MonoGS、DROID-Splat;
  • RGB-D 平均 IoU:45.24,優(yōu)于 SplaTAM、GS-ICP、RTG-SLAM、MonoGS、DROID-Splat 等方法。

FreeOcc 的高斯更新策略并不是簡(jiǎn)單復(fù)用 3DGS-SLAM,圍繞 “占據(jù)預(yù)測(cè)” 這一目標(biāo),重新設(shè)計(jì)了更加穩(wěn)定且適用于空間推理的高斯幾何表示。

(5)消融實(shí)驗(yàn)



消融實(shí)驗(yàn)顯示,如果移除幾何錨定高斯更新(GAGU)和 幾何感知初始化(G-ini),系統(tǒng)在精度和效率上都出現(xiàn)明顯下降。在 RGB-D 設(shè)置下:

  • 無(wú) GAGU、無(wú) G-ini:27.98 IoU / 11.20 mIoU / 8.8 FPS
  • 加入 GAGU:40.18 IoU / 16.03 mIoU / 25.0 FPS
  • 完整 FreeOcc:45.03 IoU / 18.37 mIoU / 24.6 FPS

這表明GAGU 提升了長(zhǎng)期幾何一致性以及建圖效率,使 FPS 從8.8 提升到 25.0;而G-ini進(jìn)一步改善高斯初始化質(zhì)量,在幾乎不犧牲運(yùn)行速度的情況下,將占據(jù)預(yù)測(cè)精度進(jìn)一步提升到45.03 IoU / 18.37 mIoU。

(6)開(kāi)放詞匯查詢,支持任意文本的三維目標(biāo)定位



FreeOcc 具備三維場(chǎng)景開(kāi)放詞匯查詢能力,能響應(yīng)任意自然語(yǔ)言文本,并在三維占據(jù)地圖中定位對(duì)應(yīng)目標(biāo)。例如,在 ReplicaOcc 場(chǎng)景中,系統(tǒng)可以根據(jù) “籃子”“時(shí)鐘”“室內(nèi)綠植”“掛畫” 等文本查詢,在三維占據(jù)地圖中準(zhǔn)確定位對(duì)應(yīng)區(qū)域。這些尺寸較小、語(yǔ)義粒度細(xì)、類別開(kāi)放的目標(biāo),而傳統(tǒng)封閉類別的占據(jù)預(yù)測(cè)方法難以覆蓋。

進(jìn)一步在 ReplicaOcc 數(shù)據(jù)集上進(jìn)行定量評(píng)估。FreeOcc 在開(kāi)放詞匯 top-10 類別上取得了 31.06 mIoU;當(dāng)詞匯表進(jìn)一步擴(kuò)展到 top-20、top-30 和 top-40 類別時(shí),仍達(dá)到 23.02、16.57 和 12.01 mIoU。隨著語(yǔ)義類別規(guī)模不斷擴(kuò)大,F(xiàn)reeOcc 依然能保持較好的開(kāi)放詞匯語(yǔ)義理解能力,展現(xiàn)更強(qiáng)的可擴(kuò)展性。



(7)可視化結(jié)果:幾何和語(yǔ)義預(yù)測(cè)更完整



可視化結(jié)果顯示,跨數(shù)據(jù)集時(shí),現(xiàn)有學(xué)習(xí)式占據(jù)預(yù)測(cè)方法往往會(huì)生成不完整、破碎,甚至接近空白的占據(jù)地圖;而 FreeOcc 則能夠保持更加連貫的房間結(jié)構(gòu)、更穩(wěn)定的空間邊界以及更加合理的語(yǔ)義占據(jù)分布。相較于現(xiàn)有 3DGS SLAM 方法,F(xiàn)reeOcc 在物體邊界、薄結(jié)構(gòu)恢復(fù)以及整體空間完整性方面也展現(xiàn)更強(qiáng)的穩(wěn)定性。

真實(shí)場(chǎng)景部署





FreeOcc 直接部署到真實(shí) RGB-D 傳感器數(shù)據(jù)流中。使用 Intel RealSense D435i 深度相機(jī)進(jìn)行在線數(shù)據(jù)采集,在 Intel i9-14900KF + RTX 5090 平臺(tái)上運(yùn)行完整系統(tǒng)。整套系統(tǒng)直接接收實(shí)時(shí) RGB-D 數(shù)據(jù)流,無(wú)需預(yù)錄軌跡、真實(shí)相機(jī)位姿、封閉類別標(biāo)簽或離線優(yōu)化。



在真實(shí)室內(nèi)與室外場(chǎng)景中,F(xiàn)reeOcc 能夠持續(xù)構(gòu)建三維高斯地圖,并將開(kāi)放詞匯語(yǔ)義穩(wěn)定投影到占據(jù)地圖中。為獲得場(chǎng)景級(jí)開(kāi)放詞匯標(biāo)簽,在真實(shí)部署過(guò)程中進(jìn)一步引入 Qwen3-VL 多模態(tài)視覺(jué)語(yǔ)言模型,從輸入 RGB 圖像中自動(dòng)生成可見(jiàn)物體類別,再將這些語(yǔ)義線索接入 FreeOcc 系統(tǒng)重,實(shí)現(xiàn)開(kāi)放詞匯語(yǔ)義地圖構(gòu)建。

細(xì)粒度真實(shí)場(chǎng)景實(shí)驗(yàn),面對(duì)桌面上外觀相似但顏色不同的多個(gè)杯子,F(xiàn)reeOcc 能夠根據(jù) “紅色杯子”“黃色杯子”“藍(lán)色杯子” 等自然語(yǔ)言查詢,準(zhǔn)確區(qū)分并定位對(duì)應(yīng)目標(biāo)。



在線增量建圖過(guò)程

隨著機(jī)器人持續(xù)觀測(cè),F(xiàn)reeOcc 不斷更新的多層地圖表示。 論文展示了 ScanNet 與真實(shí)室外場(chǎng)景中的在線增量建圖過(guò)程:隨著輸入圖像不斷增加,點(diǎn)云地圖逐漸補(bǔ)全,三維高斯地圖變得更加稠密,語(yǔ)義地圖持續(xù)融合新的開(kāi)放詞匯特征,最終占據(jù)地圖逐步形成更加完整、全局一致的三維空間表達(dá)。





展望與意義

FreeOcc 開(kāi)創(chuàng)了一條不同于傳統(tǒng)端到端學(xué)習(xí)占據(jù)預(yù)測(cè)模型的新路線。FreeOcc 不依賴大規(guī)模三維占據(jù)標(biāo)注,也不要求推理階段輸入真實(shí)相機(jī)位姿,而是有效結(jié)合 SLAM 幾何與位姿、連續(xù)三維高斯表示、開(kāi)放詞匯視覺(jué)語(yǔ)言模型以及體素占據(jù)投影,使機(jī)器人能夠從第一視角觀測(cè)中持續(xù)構(gòu)建全局一致的開(kāi)放詞匯三維占據(jù)地圖。

FreeOcc 的開(kāi)放詞匯占據(jù)地圖不僅讓機(jī)器人看見(jiàn)環(huán)境幾何結(jié)構(gòu),更進(jìn)一步支持機(jī)器人理解環(huán)境。例如,當(dāng)用戶提出 “臺(tái)燈在哪里”“紅色杯子在哪里” 等自然語(yǔ)言問(wèn)題時(shí),機(jī)器人能夠直接在三維空間中定位目標(biāo)區(qū)域,并進(jìn)一步將結(jié)果用于導(dǎo)航、避障、抓取以及人機(jī)交互等下游任務(wù)。未來(lái),當(dāng)機(jī)器人進(jìn)入一個(gè)全新房間時(shí),不再需要重新訓(xùn)練或調(diào)整占據(jù)預(yù)測(cè)模型權(quán)重,而是直接依靠自身傳感器,在線增量構(gòu)建三維占據(jù)地圖,并逐步理解環(huán)境中的物體與空間關(guān)系。

作者與機(jī)構(gòu)

江澤宇:香港科技大學(xué)(廣州)博士生,主要研究方向?yàn)楦咝У目臻g物理智能體,專注于將通用空間智能注入現(xiàn)實(shí)開(kāi)放環(huán)境的具身應(yīng)用場(chǎng)景。

周常青:香港科技大學(xué)(廣州)博士生,致力于高效且穩(wěn)定的三維場(chǎng)景理解方法研究,當(dāng)前重點(diǎn)關(guān)注端到端軌跡生成模型,以及面向?qū)Ш饺蝿?wù)的高效世界模型構(gòu)建。

左星星:阿聯(lián)酋穆罕默德?本?扎耶德人工智能大學(xué)(MBZUAI)機(jī)器人系助理教授。研究方向?yàn)橐苿?dòng)機(jī)器人感知、3D 計(jì)算機(jī)視覺(jué)、具身智能、多傳感器融合等。受邀當(dāng)選為機(jī)器人領(lǐng)域頂刊 T_RO 和著名期刊 RA-L 的編委 (Associate Editor),和機(jī)器人頂會(huì) RSS, IROS, ICRA 的編委。

陳昶昊(通訊作者):香港科技大學(xué)(廣州)智能交通學(xué)域和人工智能學(xué)域助理教授,博士生導(dǎo)師,香港科技大學(xué)跨學(xué)科學(xué)院聯(lián)署助理教授,從事具身智能感知、導(dǎo)航與交互研究,組建港科大(廣州)PEAK-Lab 課題組并擔(dān)任獨(dú)立 PI。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
勇士?jī)纱笾屉x隊(duì)!后續(xù)計(jì)劃曝光:重組科爾教練組+圍繞庫(kù)里補(bǔ)強(qiáng)陣容

勇士?jī)纱笾屉x隊(duì)!后續(xù)計(jì)劃曝光:重組科爾教練組+圍繞庫(kù)里補(bǔ)強(qiáng)陣容

kio魚
2026-05-15 13:28:14
全球軍隊(duì)研究印巴507空戰(zhàn),發(fā)現(xiàn)最震撼細(xì)節(jié),難怪印度不想打了

全球軍隊(duì)研究印巴507空戰(zhàn),發(fā)現(xiàn)最震撼細(xì)節(jié),難怪印度不想打了

琴音似君語(yǔ)
2026-05-10 17:56:21
段鵬79歲臨終前說(shuō)出隱情:和尚死在黑云寨,是因?yàn)楹蜕兄懒恕?>
    </a>
        <h3>
      <a href=呆子的故事
2026-02-10 14:44:11
特朗普離京之前,中美訂下“三年之約”

特朗普離京之前,中美訂下“三年之約”

阿訊說(shuō)天下
2026-05-15 12:37:39
罕見(jiàn)啊!湖南一地電線桿上驚現(xiàn)紅紙辭帖,網(wǎng)友:多年不見(jiàn)又現(xiàn)江湖

罕見(jiàn)啊!湖南一地電線桿上驚現(xiàn)紅紙辭帖,網(wǎng)友:多年不見(jiàn)又現(xiàn)江湖

火山詩(shī)話
2026-05-14 13:46:29
老了才看透:父弱母強(qiáng)的家庭,養(yǎng)出來(lái)的孩子,大多是這兩種結(jié)局

老了才看透:父弱母強(qiáng)的家庭,養(yǎng)出來(lái)的孩子,大多是這兩種結(jié)局

心理觀察局
2026-05-11 10:00:27
網(wǎng)傳央視發(fā)出邀請(qǐng)函:將全程直播世界杯 2天后舉辦發(fā)布會(huì)正式官宣

網(wǎng)傳央視發(fā)出邀請(qǐng)函:將全程直播世界杯 2天后舉辦發(fā)布會(huì)正式官宣

念洲
2026-05-15 11:20:35
特朗普打心底認(rèn)可中國(guó):世界上只有兩個(gè)超級(jí)大國(guó),俄羅斯排不上號(hào)

特朗普打心底認(rèn)可中國(guó):世界上只有兩個(gè)超級(jí)大國(guó),俄羅斯排不上號(hào)

隱于山海
2026-05-15 12:26:51
芯片股再次爆發(fā)!多股直線拉升,20%封板!

芯片股再次爆發(fā)!多股直線拉升,20%封板!

證券時(shí)報(bào)e公司
2026-05-15 12:46:17
血虧7.5億,萬(wàn)博的地下,是如何爛尾的

血虧7.5億,萬(wàn)博的地下,是如何爛尾的

拆神
2026-05-15 09:43:21
知名男歌手廣州演唱會(huì),突然取消!將全額退票

知名男歌手廣州演唱會(huì),突然取消!將全額退票

陳意小可愛(ài)
2026-05-15 01:12:31
沈伯洋揚(yáng)言若當(dāng)選就停辦雙城論壇,蔣萬(wàn)安批:要封殺兩岸僅存的官方交流?

沈伯洋揚(yáng)言若當(dāng)選就停辦雙城論壇,蔣萬(wàn)安批:要封殺兩岸僅存的官方交流?

海峽導(dǎo)報(bào)社
2026-05-15 10:04:04
中國(guó)外長(zhǎng)缺席金磚會(huì)議,西方?jīng)]給印度面子,莫迪政府無(wú)法挑起大梁

中國(guó)外長(zhǎng)缺席金磚會(huì)議,西方?jīng)]給印度面子,莫迪政府無(wú)法挑起大梁

云上烏托邦
2026-05-14 20:30:14
瞬間成為百萬(wàn)富翁!有網(wǎng)友用AI某找回含有5枚比特幣的錢包密碼,激動(dòng)的瘋狂爆粗

瞬間成為百萬(wàn)富翁!有網(wǎng)友用AI某找回含有5枚比特幣的錢包密碼,激動(dòng)的瘋狂爆粗

西游日記
2026-05-14 10:46:28
特朗普:前往中國(guó),深感榮幸

特朗普:前往中國(guó),深感榮幸

澎湃新聞
2026-05-14 12:24:04
中方擺出最高規(guī)格,特朗普二進(jìn)大會(huì)堂,這句“不做對(duì)手”分量極重

中方擺出最高規(guī)格,特朗普二進(jìn)大會(huì)堂,這句“不做對(duì)手”分量極重

魚語(yǔ)昱雨軒
2026-05-15 08:34:08
5月20日起 成都繞城高速部分路段通行有變

5月20日起 成都繞城高速部分路段通行有變

封面新聞
2026-05-15 12:12:21
NBA爆了!8人將集體退役?真的沒(méi)想到啊!

NBA爆了!8人將集體退役?真的沒(méi)想到啊!

貴圈真亂
2026-05-15 11:17:02
陳賡去朝支援,聽(tīng)彭德懷說(shuō)以為是姓高的人來(lái),問(wèn):你不大歡迎我?

陳賡去朝支援,聽(tīng)彭德懷說(shuō)以為是姓高的人來(lái),問(wèn):你不大歡迎我?

鶴羽說(shuō)個(gè)事
2026-05-14 22:50:19
法律善意下的倫理崩塌:私生子繼承權(quán),正在掏空中國(guó)普通家庭

法律善意下的倫理崩塌:私生子繼承權(quán),正在掏空中國(guó)普通家庭

天氣觀察站
2026-05-14 06:48:33
2026-05-15 14:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13001文章數(shù) 142648關(guān)注度
往期回顧 全部

科技要聞

兩年聯(lián)姻一地雞毛,傳蘋果OpenAI瀕臨決裂

頭條要聞

特朗普訪華"二號(hào)位"系美國(guó)駐華大使 其曾受超規(guī)格禮遇

頭條要聞

特朗普訪華"二號(hào)位"系美國(guó)駐華大使 其曾受超規(guī)格禮遇

體育要聞

德約科維奇買的球隊(duì),從第6級(jí)聯(lián)賽升入法甲

娛樂(lè)要聞

方媛回應(yīng)住男生單人間:女孩的配得感

財(cái)經(jīng)要聞

特朗普的北京時(shí)刻

汽車要聞

雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

態(tài)度原創(chuàng)

親子
藝術(shù)
旅游
游戲
公開(kāi)課

親子要聞

女子花大價(jià)錢入住月子中心,多名月嫂的行為讓她無(wú)法理解

藝術(shù)要聞

一個(gè)北大 “反卷教授” 的意外走紅

旅游要聞

中國(guó)游、中國(guó)購(gòu)“熱力”值爆表 “政策紅利+服務(wù)升級(jí)”讓外國(guó)游客解鎖多彩中國(guó)

國(guó)行Switch今晚22時(shí)正式停服 數(shù)字游戲抓緊下載

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版