瑞士蘇黎世聯(lián)邦理工學(xué)院研究團(tuán)隊讓3D場景重建效率飆升33倍

2026-06-10 21:19:09　來源: 科技行者

天津舉報

分享至

這項(xiàng)由瑞士蘇黎世聯(lián)邦理工學(xué)院（ETH Zürich）聯(lián)合微軟研究院共同完成的研究，于2026年6月3日以預(yù)印本形式發(fā)布在arXiv平臺，論文編號為arXiv:2606.05102。研究提出了一種名為ZipSplat的新型三維場景重建框架，在保證甚至超越現(xiàn)有方法重建質(zhì)量的同時，將所需的基本圖形單元數(shù)量削減了高達(dá)33倍。對于熱衷于AR/VR、自動駕駛、數(shù)字孿生或者只是好奇"手機(jī)照片怎么變成3D場景"的普通讀者來說，這項(xiàng)工作觸及了一個非常根本的問題：我們真的需要那么多數(shù)據(jù)來描述一個三維世界嗎？

三維場景重建，說白了，就是給定幾張從不同角度拍攝的照片，讓計算機(jī)"腦補(bǔ)"出完整的三維空間，并且能從任意新的視角渲染出逼真的畫面。這就好比你看了一座建筑物的前、左、右三張照片，然后腦海里自動構(gòu)建出它背后長什么樣——計算機(jī)要做的事情跟這個差不多，只不過要精確得多。

目前主流的三維場景重建技術(shù)，包括所謂的"三維高斯?jié)姙R"（3D Gaussian Splatting，3DGS），把三維空間表示為一堆橢圓形的彩色氣泡——專業(yè)上叫"Gaussian"（高斯基元）。每個氣泡有自己的位置、大小、顏色和透明度，把這些氣泡疊加在一起，就能渲染出逼真的圖像。而現(xiàn)有的"前饋式"方法（即不需要對每個場景單獨(dú)優(yōu)化、只需要一次神經(jīng)網(wǎng)絡(luò)推理就能得到結(jié)果的方法）普遍存在一個根深蒂固的習(xí)慣：每個輸入像素生成一個Gaussian。

這個設(shè)計聽上去很合理，但實(shí)際上存在明顯的浪費(fèi)。一面白墻和一件精雕細(xì)琢的古董，占據(jù)相同的像素數(shù)，就會分配到完全相同數(shù)量的氣泡——哪怕白墻根本不需要那么多氣泡來描述。更糟的是，如果你從多個角度拍攝同一面墻，每張照片都會為那面墻生成一堆氣泡，大量重復(fù)。ZipSplat的核心思路，就是徹底打破這種"像素決定氣泡數(shù)量"的綁定關(guān)系。

一、三維重建的"像素詛咒"：為什么多不代表好

以拍攝一間客廳為例。假設(shè)你用一臺1080P的相機(jī)從6個角度拍攝，每張照片有大約200萬像素，那么現(xiàn)有的前饋式方法就會生成約1200萬個Gaussian氣泡——哪怕客廳里大部分都是平坦的墻壁、地板和天花板，這些區(qū)域用幾個大氣泡就能完美描述。真正需要精細(xì)刻畫的，其實(shí)只是沙發(fā)的紋理、書架上的書脊、窗簾的褶皺這些細(xì)節(jié)豐富的區(qū)域。

然而現(xiàn)有系統(tǒng)不管三七二十一，凡是有像素的地方就塞一個氣泡。這帶來了三個連鎖問題。其一，平坦區(qū)域（比如白墻）和復(fù)雜區(qū)域（比如雕花木門）獲得相同的"預(yù)算"，資源分配嚴(yán)重失衡。其二，多視角拍攝同一面墻時，系統(tǒng)會為同一塊區(qū)域生成多份重疊的氣泡，輸入圖像越多，氣泡數(shù)量線性暴增，質(zhì)量卻幾乎不再提升。其三，所有氣泡都被"鎖"在各自的觀察射線上，對于相機(jī)看不到的遮擋區(qū)域，系統(tǒng)幾乎無能為力。

這三個問題的根源是同一件事：把三維場景的表示能力綁定在二維像素網(wǎng)格上。ZipSplat的研究團(tuán)隊認(rèn)為，解決方案不是修補(bǔ)現(xiàn)有框架，而是從根本上換一套邏輯——不再問"每個像素對應(yīng)什么氣泡"，而是問"整個場景需要哪些氣泡"。

二、場景令牌：把照片"壓縮"成場景的精華摘要

ZipSplat的工作方式，可以用一個圖書館管理員整理藏書的比喻來理解。

一位傳統(tǒng)的圖書館管理員（現(xiàn)有方法）按書架位置整理——第一排第一列放一本，第一排第二列放一本，不管兩本書是不是同一本的復(fù)印件，也不管這本書重不重要，每個格子必須有一本。ZipSplat的管理員則不同：他先把所有書瀏覽一遍，把內(nèi)容相似的合并，把重復(fù)的去掉，最終按照書的內(nèi)容價值分配書架空間——精彩的書多給幾格，簡單的薄冊子共享一格。

具體到技術(shù)層面，ZipSplat的處理流程分為三個階段。

第一階段是提取視覺令牌。系統(tǒng)接收N張輸入圖像，用一個預(yù)訓(xùn)練的多視角基礎(chǔ)模型（研究團(tuán)隊選用的是DA3-Giant，一個專門處理多視角圖像的神經(jīng)網(wǎng)絡(luò)）從每張圖像中提取密集的"視覺令牌"（visual token）——可以理解為圖像中每個小區(qū)域的特征描述卡片，包含該區(qū)域的顏色、紋理、深度等綜合信息。這些令牌是多尺度的，既捕捉細(xì)節(jié)也捕捉全局結(jié)構(gòu)。

第二階段是K-means聚類壓縮。所有視覺令牌合在一起數(shù)量龐大且高度冗余——畢竟多張圖像描述的是同一個場景。ZipSplat用一種叫做K-means聚類的方法，在特征空間中把相似的令牌歸并成K個"場景令牌"（scene token）。這里的"相似"不是指空間位置相近，而是語義和幾何特征相近——從三個不同角度拍攝的同一面墻，描述它們的令牌會在特征空間中彼此靠近，被歸并成一個代表"那面墻"的場景令牌。K的數(shù)量由一個壓縮比參數(shù)r控制，r=1.0意味著不壓縮，r=0.1意味著只保留10%的令牌。關(guān)鍵在于，這個參數(shù)在推理時隨時可以調(diào)整，無需重新訓(xùn)練模型。

第三階段是交叉注意力精煉。聚類是有損壓縮，平均化會模糊細(xì)節(jié)。為了把損失找回來，每個場景令牌通過"交叉注意力"機(jī)制重新查詢原始視覺令牌，相當(dāng)于把摘要版的筆記和原始的詳細(xì)資料對照一遍，補(bǔ)回被平均掉的細(xì)節(jié)。隨后，場景令牌之間再通過"自注意力"相互交流，讓每個令牌了解自己所在場景的整體上下文。

三、從令牌到氣泡：不再沿著射線放置，而是自由飛翔

完成令牌精煉后，每個場景令牌被送入一個兩層的MLP（可以理解為一個輕量級的變換器）解碼成G個Gaussian氣泡的全套參數(shù)：三維位置、大小（三個方向的縮放）、旋轉(zhuǎn)、不透明度和顏色系數(shù)。研究團(tuán)隊將G設(shè)定為32，也就是每個場景令牌生成32個氣泡。

這里有個關(guān)鍵的設(shè)計選擇：氣泡的三維位置不是沿著某條觀察射線放置，而是通過一個特殊的激活函數(shù)（反對數(shù)激活）直接映射到無約束的三維坐標(biāo)。這就好比傳統(tǒng)方法是"沿著樓梯扶手放置裝飾品"——每個裝飾品必須在扶手上，ZipSplat則是"把裝飾品放在房間里最合適的地方"——可以在桌上、墻上、地上，完全自由。

自由放置帶來的結(jié)果在可視化對比中非常直觀。現(xiàn)有的像素對齊方法生成的氣泡分布，就像在地面鋪了一張均勻的網(wǎng)格，無論是沙發(fā)還是白墻，氣泡密度一模一樣。ZipSplat生成的氣泡則明顯聚集在細(xì)節(jié)豐富的區(qū)域——車輪的輻條、雕像的輪廓、裝飾品的邊緣，而平坦的墻壁和地板上只有稀疏的幾個大氣泡，輕松覆蓋。

研究團(tuán)隊還觀察到一個有趣的自組織現(xiàn)象：同一個場景令牌解碼出的32個氣泡，在沒有任何明確空間監(jiān)督的情況下，自動聚集成空間上連貫的一組——在平坦表面上形成寬松的大片覆蓋，在復(fù)雜邊緣處緊密排列捕捉細(xì)節(jié)。這表明模型在訓(xùn)練中學(xué)會了讓氣泡按場景幾何自我組織。

四、訓(xùn)練時的三個"穩(wěn)定器"：防止氣泡飄出場景之外

自由放置帶來一個新問題：沒有射線約束的氣泡，如果放置位置不對，可能飄到相機(jī)看不到的地方，渲染損失的梯度無法觸達(dá)它，它就再也無法被糾正，訓(xùn)練會不穩(wěn)定甚至發(fā)散。為此，研究團(tuán)隊設(shè)計了三項(xiàng)配套機(jī)制。

第一項(xiàng)是單向Chamfer幾何損失。研究團(tuán)隊利用深度圖將地面真實(shí)數(shù)據(jù)反投影為三維點(diǎn)云，然后計算每個氣泡中心到最近真實(shí)三維點(diǎn)的距離之和，以此作為輔助損失函數(shù)，把漂移的氣泡拉回到真實(shí)場景表面附近。注意這里用的是"單向"——只懲罰氣泡離真實(shí)點(diǎn)太遠(yuǎn)，而不懲罰真實(shí)點(diǎn)沒有被氣泡覆蓋。雙向懲罰會迫使氣泡均勻鋪滿所有點(diǎn)，重新回到僵硬的網(wǎng)格邏輯，破壞自適應(yīng)分配的初衷。此外，對于已經(jīng)有效參與渲染的氣泡，幾何損失的梯度會被截斷，防止幾何先驗(yàn)壓過精細(xì)的光度監(jiān)督。

第二項(xiàng)是耦合初始化。每個場景令牌解碼出的32個氣泡，初始時共享完全相同的參數(shù)，就像32個雙胞胎從同一起點(diǎn)出發(fā)。這迫使模型先學(xué)會粗略的整體放置，再逐步分化出個體差異，避免訓(xùn)練初期多個氣泡互相干擾。同時，氣泡的初始不透明度被設(shè)得很低（約0.18），保證光度梯度能穿透淺層氣泡到達(dá)深層，初始位置則偏向第一個參考相機(jī)的正前方，確保早期梯度有效。

第三項(xiàng)是漸進(jìn)式訓(xùn)練調(diào)度。訓(xùn)練從2個視角開始，逐漸增加到24個視角，讓模型先建立雙目立體視差的基礎(chǔ)再面對多視角冗余。壓縮比r也從1.0按余弦曲線降低到最小值，并在每個訓(xùn)練步驟中從當(dāng)前最小值到1.0之間隨機(jī)采樣，讓模型習(xí)慣不同壓縮程度下的工作，使r成為真正的推理時可調(diào)參數(shù)。最小壓縮比的設(shè)置依據(jù)是rmin = 0.5√(2/N)，因?yàn)閳鼍暗莫?dú)特內(nèi)容隨視角重疊亞線性增長。

五、實(shí)驗(yàn)數(shù)據(jù)：用數(shù)字說話

研究團(tuán)隊在兩個主要數(shù)據(jù)集上評估了ZipSplat：DL3DV（包含140個測試場景）和RealEstate10K（包含1600個測試場景），并分別在6、12、24個輸入視角下進(jìn)行測試，保留8個目標(biāo)視角用于評估。

在DL3DV上，6個視角輸入時，ZipSplat（無需相機(jī)位姿）的PSNR（峰值信噪比，數(shù)值越高圖像質(zhì)量越好）達(dá)到25.24 dB，而同樣不依賴相機(jī)位姿的YoNoSplat只有24.10 dB，差距超過1.1 dB，且ZipSplat只使用了62K個Gaussian，YoNoSplat則用了301K個，約少用5倍。更值得關(guān)注的是，隨著輸入視角從6增加到24，ZipSplat的PSNR幾乎穩(wěn)定在24 dB上下，而YoNoSplat從24.10一路跌到22.01，DA3（同一骨干網(wǎng)絡(luò)的像素對齊版本）從23.77跌到21.69。這意味著現(xiàn)有的像素對齊方法在輸入視角增多時，氣泡數(shù)量線性增長（從301K增到1.2M、從1.5M增到6.1M），質(zhì)量卻反而下降——大量重復(fù)觀測不但沒幫上忙，反而形成干擾。ZipSplat通過聚類合并冗余，在24個視角時只用249K個Gaussian，質(zhì)量反超所有對比方法。

在RealEstate10K上，ZipSplat（無位姿）以26.20 dB超越Y(jié)oNoSplat（24.99 dB）1.2 dB，并以62K個Gaussian超越需要真實(shí)位姿的DepthSplat（393K個Gaussian，24.16 dB）2 dB。提供真實(shí)位姿時，ZipSplat進(jìn)一步提升至27.19 dB。

研究團(tuán)隊還測試了跨數(shù)據(jù)集泛化能力，將僅在DL3DV和RealEstate10K上訓(xùn)練的ZipSplat零樣本應(yīng)用于Mip-NeRF360和ScanNet++。在32至128個視角的大規(guī)模輸入下，ZipSplat在Mip-NeRF360上從21.72 dB穩(wěn)步提升到22.29 dB，而DA3從20.94跌到20.19，AnySplat落后ZipSplat 2.3至2.7 dB。在ScanNet++上，零樣本條件下ZipSplat達(dá)到18.1 dB，遠(yuǎn)超YoNoSplat的16.01 dB。

ZipSplat還支持一種"令牌測試時優(yōu)化"：在擁有真實(shí)位姿時，凍結(jié)解碼器，只優(yōu)化場景令牌本身（而非所有Gaussian參數(shù)），50步優(yōu)化（在單塊4090 GPU上約需3秒）就能額外提升約5 dB的PSNR，完整收斂可提升5.8 dB并將LPIPS（感知相似度損失）減半。

六、壓縮比的"旋鈕效應(yīng)"：一個模型走天下

ZipSplat最吸引人的特性之一是推理時的可調(diào)節(jié)性。通過調(diào)整壓縮比r，單個訓(xùn)練好的模型可以生成從62K到1.3M個Gaussian的各種規(guī)模重建，在質(zhì)量與效率之間任意取點(diǎn)，無需重新訓(xùn)練。

在質(zhì)量-效率曲線上，ZipSplat明顯優(yōu)于所有對比方法：要達(dá)到Y(jié)oNoSplat的質(zhì)量只需其1/33的Gaussian數(shù)量，使用6倍更少的Gaussian可額外獲得約2.1 dB的PSNR提升。

壓縮的視覺效果也很有說服力：在1×、2×、4×壓縮下渲染結(jié)果依然清晰銳利，而令牌分布圖則顯示出越來越粗糙的空間覆蓋——模型并非簡單地模糊圖像，而是保留了最有價值的信息。

不同的令牌選擇策略對壓縮效果有影響。在溫和壓縮（r≥0.6）時，K-means聚類、均勻步長采樣和隨機(jī)采樣三種方法的差距在0.1 dB以內(nèi)，因?yàn)楹罄m(xù)的交叉注意力能從原始令牌中找回足夠的細(xì)節(jié)。但在激進(jìn)壓縮（r=0.1）時，K-means以0.45 dB領(lǐng)先均勻步長，以0.79 dB領(lǐng)先隨機(jī)采樣。原因在于，K-means在聚類時會跨越多個視角合并冗余令牌——在24視角、r=0.1時，每個K-means聚類平均橫跨4.2個視角，而不是像隨機(jī)采樣那樣直接丟棄整個視角。

在極端壓縮（r=0.01）下，ZipSplat會出現(xiàn)明顯的失效：令牌數(shù)量過少，無法覆蓋整個場景，渲染圖像出現(xiàn)大片空缺。這是系統(tǒng)的邊界條件，在實(shí)際使用中很容易避免。

七、效率數(shù)據(jù)：速度與內(nèi)存的真實(shí)表現(xiàn)

在單塊NVIDIA 4090（24GB顯存）上的測試顯示，24個視角輸入時，ZipSplat的完整前向推理在0.8秒內(nèi)完成，峰值顯存低于8.1GB，處于完全實(shí)用的范圍。令牌壓縮和Gaussian解碼本身的計算量微乎其微，系統(tǒng)瓶頸始終在多視角骨干網(wǎng)絡(luò)。

隨著視角數(shù)增加到192，使用視角依賴壓縮調(diào)度時，峰值顯存控制在17GB（而YoNoSplat已達(dá)24GB上限），生成約102K個Gaussian（9.3MB存儲，401 FPS渲染速度），相比固定r=1.0的200萬Gaussian（183MB，40 FPS）實(shí)現(xiàn)了10倍渲染加速和20倍存儲節(jié)省。24個視角時，調(diào)度壓縮生成36K個Gaussian，占用3.3MB，渲染達(dá)685幀/秒，完全滿足實(shí)時移動端或網(wǎng)頁端展示需求。

八、消融實(shí)驗(yàn)：每個設(shè)計選擇都有意義

研究團(tuán)隊通過系統(tǒng)性消融驗(yàn)證了各設(shè)計選擇的貢獻(xiàn)。在骨干網(wǎng)絡(luò)完全相同的前提下，ZipSplat的令牌解碼器相比像素對齊解碼器，在6/12/24視角下穩(wěn)定提升1.5至2.7 dB，且Gaussian數(shù)量減少13至25倍，這一改進(jìn)在VGGT和DA3兩種骨干網(wǎng)絡(luò)上都成立，說明性能提升確實(shí)來自令牌化設(shè)計本身，而非骨干網(wǎng)絡(luò)的差異。

每個令牌生成的Gaussian數(shù)量G的選擇，質(zhì)量在G=32時已趨于飽和：G=64比G=32僅多0.03 dB，而Gaussian數(shù)量翻倍；G=8比G=32少0.19 dB，但Gaussian數(shù)量只有四分之一。綜合考慮，G=32是最合適的平衡點(diǎn)。

在初始化和損失函數(shù)方面，耦合初始化貢獻(xiàn)最大（去掉后下降0.25 dB），不透明度偏置和位置偏置各貢獻(xiàn)約0.14至0.15 dB，深度損失貢獻(xiàn)約0.19 dB。而單向Chamfer幾何損失屬于訓(xùn)練穩(wěn)定性的必要條件——去掉它會導(dǎo)致訓(xùn)練不穩(wěn)定甚至發(fā)散，無法單獨(dú)量化其貢獻(xiàn)。

說到底，ZipSplat做了一件在三維重建領(lǐng)域頗為罕見的事：它把"用多少個基本單元描述一個場景"這件事從一個由相機(jī)分辨率決定的固定值，變成了一個由場景內(nèi)容驅(qū)動的自適應(yīng)量。這意味著系統(tǒng)終于開始關(guān)心"這個場景真正需要多少表達(dá)力"，而不是"相機(jī)拍了多少像素"。

對于普通用戶來說，這項(xiàng)技術(shù)的潛在影響很實(shí)在：未來的手機(jī)3D掃描應(yīng)用可以用更少的存儲空間和更快的處理速度生成更高質(zhì)量的場景模型；增強(qiáng)現(xiàn)實(shí)應(yīng)用可以在資源受限的設(shè)備上運(yùn)行更復(fù)雜的場景；大規(guī)模三維地圖數(shù)據(jù)庫的存儲和傳輸成本可以大幅下降。研究團(tuán)隊還指出了兩個值得進(jìn)一步探索的方向：一是在每個Gaussian上附加語義特征用于場景理解（令牌化后的緊湊表示使特征存儲成本大幅降低）；二是將令牌聚類機(jī)制推廣到四維動態(tài)場景，跨時間維度合并冗余觀測。

歸根結(jié)底，這項(xiàng)工作提醒我們：在信息處理中，"更多"并不總是"更好"，找到恰當(dāng)?shù)谋磉_(dá)粒度往往比一味堆砌更有價值。有興趣深入了解技術(shù)細(xì)節(jié)的讀者，可以在arXiv平臺通過論文編號2606.05102查閱完整原文。

Q&A

Q1：ZipSplat和現(xiàn)有三維重建方法相比，速度有多快？

A：ZipSplat在24個輸入視角下，完整前向推理在0.8秒內(nèi)完成，生成的場景可以達(dá)到685幀/秒的實(shí)時渲染速度，存儲只需3.3MB。對比YoNoSplat在192個視角時產(chǎn)生的9.6M個Gaussian（539MB、8.9 FPS），ZipSplat用視角依賴壓縮調(diào)度只生成102K個Gaussian，速度快約45倍，存儲少約20倍。

Q2：ZipSplat用的K-means聚類和隨機(jī)采樣有多大差距？

A：在溫和壓縮（保留60%以上令牌）時差距極小，不超過0.1 dB，因?yàn)楹罄m(xù)的交叉注意力能補(bǔ)回丟失的細(xì)節(jié)。但在激進(jìn)壓縮（只保留10%令牌）時，K-means比隨機(jī)采樣高出0.79 dB。原因是K-means能跨多個視角合并冗余令牌，而不是隨機(jī)丟掉整個視角的信息。

Q3：ZipSplat需要相機(jī)位姿信息才能工作嗎？

A：不需要。ZipSplat可以在完全不知道相機(jī)位置和朝向的情況下運(yùn)行，這種模式下在RealEstate10K上達(dá)到26.20 dB，已經(jīng)超越了大多數(shù)需要相機(jī)位姿的對比方法。如果提供真實(shí)相機(jī)位姿，性能會進(jìn)一步提升到27.19 dB，但位姿帶來的增益相對有限，說明模型本身的場景理解能力較強(qiáng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.