![]()
這項(xiàng)由瑞士蘇黎世聯(lián)邦理工學(xué)院(ETH Zürich)聯(lián)合微軟研究院共同完成的研究,于2026年6月3日以預(yù)印本形式發(fā)布在arXiv平臺,論文編號為arXiv:2606.05102。研究提出了一種名為ZipSplat的新型三維場景重建框架,在保證甚至超越現(xiàn)有方法重建質(zhì)量的同時,將所需的基本圖形單元數(shù)量削減了高達(dá)33倍。對于熱衷于AR/VR、自動駕駛、數(shù)字孿生或者只是好奇"手機(jī)照片怎么變成3D場景"的普通讀者來說,這項(xiàng)工作觸及了一個非常根本的問題:我們真的需要那么多數(shù)據(jù)來描述一個三維世界嗎?
三維場景重建,說白了,就是給定幾張從不同角度拍攝的照片,讓計算機(jī)"腦補(bǔ)"出完整的三維空間,并且能從任意新的視角渲染出逼真的畫面。這就好比你看了一座建筑物的前、左、右三張照片,然后腦海里自動構(gòu)建出它背后長什么樣——計算機(jī)要做的事情跟這個差不多,只不過要精確得多。
目前主流的三維場景重建技術(shù),包括所謂的"三維高斯?jié)姙R"(3D Gaussian Splatting,3DGS),把三維空間表示為一堆橢圓形的彩色氣泡——專業(yè)上叫"Gaussian"(高斯基元)。每個氣泡有自己的位置、大小、顏色和透明度,把這些氣泡疊加在一起,就能渲染出逼真的圖像。而現(xiàn)有的"前饋式"方法(即不需要對每個場景單獨(dú)優(yōu)化、只需要一次神經(jīng)網(wǎng)絡(luò)推理就能得到結(jié)果的方法)普遍存在一個根深蒂固的習(xí)慣:每個輸入像素生成一個Gaussian。
這個設(shè)計聽上去很合理,但實(shí)際上存在明顯的浪費(fèi)。一面白墻和一件精雕細(xì)琢的古董,占據(jù)相同的像素數(shù),就會分配到完全相同數(shù)量的氣泡——哪怕白墻根本不需要那么多氣泡來描述。更糟的是,如果你從多個角度拍攝同一面墻,每張照片都會為那面墻生成一堆氣泡,大量重復(fù)。ZipSplat的核心思路,就是徹底打破這種"像素決定氣泡數(shù)量"的綁定關(guān)系。
一、三維重建的"像素詛咒":為什么多不代表好
以拍攝一間客廳為例。假設(shè)你用一臺1080P的相機(jī)從6個角度拍攝,每張照片有大約200萬像素,那么現(xiàn)有的前饋式方法就會生成約1200萬個Gaussian氣泡——哪怕客廳里大部分都是平坦的墻壁、地板和天花板,這些區(qū)域用幾個大氣泡就能完美描述。真正需要精細(xì)刻畫的,其實(shí)只是沙發(fā)的紋理、書架上的書脊、窗簾的褶皺這些細(xì)節(jié)豐富的區(qū)域。
然而現(xiàn)有系統(tǒng)不管三七二十一,凡是有像素的地方就塞一個氣泡。這帶來了三個連鎖問題。其一,平坦區(qū)域(比如白墻)和復(fù)雜區(qū)域(比如雕花木門)獲得相同的"預(yù)算",資源分配嚴(yán)重失衡。其二,多視角拍攝同一面墻時,系統(tǒng)會為同一塊區(qū)域生成多份重疊的氣泡,輸入圖像越多,氣泡數(shù)量線性暴增,質(zhì)量卻幾乎不再提升。其三,所有氣泡都被"鎖"在各自的觀察射線上,對于相機(jī)看不到的遮擋區(qū)域,系統(tǒng)幾乎無能為力。
這三個問題的根源是同一件事:把三維場景的表示能力綁定在二維像素網(wǎng)格上。ZipSplat的研究團(tuán)隊認(rèn)為,解決方案不是修補(bǔ)現(xiàn)有框架,而是從根本上換一套邏輯——不再問"每個像素對應(yīng)什么氣泡",而是問"整個場景需要哪些氣泡"。
二、場景令牌:把照片"壓縮"成場景的精華摘要
ZipSplat的工作方式,可以用一個圖書館管理員整理藏書的比喻來理解。
一位傳統(tǒng)的圖書館管理員(現(xiàn)有方法)按書架位置整理——第一排第一列放一本,第一排第二列放一本,不管兩本書是不是同一本的復(fù)印件,也不管這本書重不重要,每個格子必須有一本。ZipSplat的管理員則不同:他先把所有書瀏覽一遍,把內(nèi)容相似的合并,把重復(fù)的去掉,最終按照書的內(nèi)容價值分配書架空間——精彩的書多給幾格,簡單的薄冊子共享一格。
具體到技術(shù)層面,ZipSplat的處理流程分為三個階段。
第一階段是提取視覺令牌。系統(tǒng)接收N張輸入圖像,用一個預(yù)訓(xùn)練的多視角基礎(chǔ)模型(研究團(tuán)隊選用的是DA3-Giant,一個專門處理多視角圖像的神經(jīng)網(wǎng)絡(luò))從每張圖像中提取密集的"視覺令牌"(visual token)——可以理解為圖像中每個小區(qū)域的特征描述卡片,包含該區(qū)域的顏色、紋理、深度等綜合信息。這些令牌是多尺度的,既捕捉細(xì)節(jié)也捕捉全局結(jié)構(gòu)。
第二階段是K-means聚類壓縮。所有視覺令牌合在一起數(shù)量龐大且高度冗余——畢竟多張圖像描述的是同一個場景。ZipSplat用一種叫做K-means聚類的方法,在特征空間中把相似的令牌歸并成K個"場景令牌"(scene token)。這里的"相似"不是指空間位置相近,而是語義和幾何特征相近——從三個不同角度拍攝的同一面墻,描述它們的令牌會在特征空間中彼此靠近,被歸并成一個代表"那面墻"的場景令牌。K的數(shù)量由一個壓縮比參數(shù)r控制,r=1.0意味著不壓縮,r=0.1意味著只保留10%的令牌。關(guān)鍵在于,這個參數(shù)在推理時隨時可以調(diào)整,無需重新訓(xùn)練模型。
第三階段是交叉注意力精煉。聚類是有損壓縮,平均化會模糊細(xì)節(jié)。為了把損失找回來,每個場景令牌通過"交叉注意力"機(jī)制重新查詢原始視覺令牌,相當(dāng)于把摘要版的筆記和原始的詳細(xì)資料對照一遍,補(bǔ)回被平均掉的細(xì)節(jié)。隨后,場景令牌之間再通過"自注意力"相互交流,讓每個令牌了解自己所在場景的整體上下文。
三、從令牌到氣泡:不再沿著射線放置,而是自由飛翔
完成令牌精煉后,每個場景令牌被送入一個兩層的MLP(可以理解為一個輕量級的變換器)解碼成G個Gaussian氣泡的全套參數(shù):三維位置、大小(三個方向的縮放)、旋轉(zhuǎn)、不透明度和顏色系數(shù)。研究團(tuán)隊將G設(shè)定為32,也就是每個場景令牌生成32個氣泡。
這里有個關(guān)鍵的設(shè)計選擇:氣泡的三維位置不是沿著某條觀察射線放置,而是通過一個特殊的激活函數(shù)(反對數(shù)激活)直接映射到無約束的三維坐標(biāo)。這就好比傳統(tǒng)方法是"沿著樓梯扶手放置裝飾品"——每個裝飾品必須在扶手上,ZipSplat則是"把裝飾品放在房間里最合適的地方"——可以在桌上、墻上、地上,完全自由。
自由放置帶來的結(jié)果在可視化對比中非常直觀。現(xiàn)有的像素對齊方法生成的氣泡分布,就像在地面鋪了一張均勻的網(wǎng)格,無論是沙發(fā)還是白墻,氣泡密度一模一樣。ZipSplat生成的氣泡則明顯聚集在細(xì)節(jié)豐富的區(qū)域——車輪的輻條、雕像的輪廓、裝飾品的邊緣,而平坦的墻壁和地板上只有稀疏的幾個大氣泡,輕松覆蓋。
研究團(tuán)隊還觀察到一個有趣的自組織現(xiàn)象:同一個場景令牌解碼出的32個氣泡,在沒有任何明確空間監(jiān)督的情況下,自動聚集成空間上連貫的一組——在平坦表面上形成寬松的大片覆蓋,在復(fù)雜邊緣處緊密排列捕捉細(xì)節(jié)。這表明模型在訓(xùn)練中學(xué)會了讓氣泡按場景幾何自我組織。
四、訓(xùn)練時的三個"穩(wěn)定器":防止氣泡飄出場景之外
自由放置帶來一個新問題:沒有射線約束的氣泡,如果放置位置不對,可能飄到相機(jī)看不到的地方,渲染損失的梯度無法觸達(dá)它,它就再也無法被糾正,訓(xùn)練會不穩(wěn)定甚至發(fā)散。為此,研究團(tuán)隊設(shè)計了三項(xiàng)配套機(jī)制。
第一項(xiàng)是單向Chamfer幾何損失。研究團(tuán)隊利用深度圖將地面真實(shí)數(shù)據(jù)反投影為三維點(diǎn)云,然后計算每個氣泡中心到最近真實(shí)三維點(diǎn)的距離之和,以此作為輔助損失函數(shù),把漂移的氣泡拉回到真實(shí)場景表面附近。注意這里用的是"單向"——只懲罰氣泡離真實(shí)點(diǎn)太遠(yuǎn),而不懲罰真實(shí)點(diǎn)沒有被氣泡覆蓋。雙向懲罰會迫使氣泡均勻鋪滿所有點(diǎn),重新回到僵硬的網(wǎng)格邏輯,破壞自適應(yīng)分配的初衷。此外,對于已經(jīng)有效參與渲染的氣泡,幾何損失的梯度會被截斷,防止幾何先驗(yàn)壓過精細(xì)的光度監(jiān)督。
第二項(xiàng)是耦合初始化。每個場景令牌解碼出的32個氣泡,初始時共享完全相同的參數(shù),就像32個雙胞胎從同一起點(diǎn)出發(fā)。這迫使模型先學(xué)會粗略的整體放置,再逐步分化出個體差異,避免訓(xùn)練初期多個氣泡互相干擾。同時,氣泡的初始不透明度被設(shè)得很低(約0.18),保證光度梯度能穿透淺層氣泡到達(dá)深層,初始位置則偏向第一個參考相機(jī)的正前方,確保早期梯度有效。
第三項(xiàng)是漸進(jìn)式訓(xùn)練調(diào)度。訓(xùn)練從2個視角開始,逐漸增加到24個視角,讓模型先建立雙目立體視差的基礎(chǔ)再面對多視角冗余。壓縮比r也從1.0按余弦曲線降低到最小值,并在每個訓(xùn)練步驟中從當(dāng)前最小值到1.0之間隨機(jī)采樣,讓模型習(xí)慣不同壓縮程度下的工作,使r成為真正的推理時可調(diào)參數(shù)。最小壓縮比的設(shè)置依據(jù)是rmin = 0.5√(2/N),因?yàn)閳鼍暗莫?dú)特內(nèi)容隨視角重疊亞線性增長。
五、實(shí)驗(yàn)數(shù)據(jù):用數(shù)字說話
研究團(tuán)隊在兩個主要數(shù)據(jù)集上評估了ZipSplat:DL3DV(包含140個測試場景)和RealEstate10K(包含1600個測試場景),并分別在6、12、24個輸入視角下進(jìn)行測試,保留8個目標(biāo)視角用于評估。
在DL3DV上,6個視角輸入時,ZipSplat(無需相機(jī)位姿)的PSNR(峰值信噪比,數(shù)值越高圖像質(zhì)量越好)達(dá)到25.24 dB,而同樣不依賴相機(jī)位姿的YoNoSplat只有24.10 dB,差距超過1.1 dB,且ZipSplat只使用了62K個Gaussian,YoNoSplat則用了301K個,約少用5倍。更值得關(guān)注的是,隨著輸入視角從6增加到24,ZipSplat的PSNR幾乎穩(wěn)定在24 dB上下,而YoNoSplat從24.10一路跌到22.01,DA3(同一骨干網(wǎng)絡(luò)的像素對齊版本)從23.77跌到21.69。這意味著現(xiàn)有的像素對齊方法在輸入視角增多時,氣泡數(shù)量線性增長(從301K增到1.2M、從1.5M增到6.1M),質(zhì)量卻反而下降——大量重復(fù)觀測不但沒幫上忙,反而形成干擾。ZipSplat通過聚類合并冗余,在24個視角時只用249K個Gaussian,質(zhì)量反超所有對比方法。
在RealEstate10K上,ZipSplat(無位姿)以26.20 dB超越Y(jié)oNoSplat(24.99 dB)1.2 dB,并以62K個Gaussian超越需要真實(shí)位姿的DepthSplat(393K個Gaussian,24.16 dB)2 dB。提供真實(shí)位姿時,ZipSplat進(jìn)一步提升至27.19 dB。
研究團(tuán)隊還測試了跨數(shù)據(jù)集泛化能力,將僅在DL3DV和RealEstate10K上訓(xùn)練的ZipSplat零樣本應(yīng)用于Mip-NeRF360和ScanNet++。在32至128個視角的大規(guī)模輸入下,ZipSplat在Mip-NeRF360上從21.72 dB穩(wěn)步提升到22.29 dB,而DA3從20.94跌到20.19,AnySplat落后ZipSplat 2.3至2.7 dB。在ScanNet++上,零樣本條件下ZipSplat達(dá)到18.1 dB,遠(yuǎn)超YoNoSplat的16.01 dB。
ZipSplat還支持一種"令牌測試時優(yōu)化":在擁有真實(shí)位姿時,凍結(jié)解碼器,只優(yōu)化場景令牌本身(而非所有Gaussian參數(shù)),50步優(yōu)化(在單塊4090 GPU上約需3秒)就能額外提升約5 dB的PSNR,完整收斂可提升5.8 dB并將LPIPS(感知相似度損失)減半。
六、壓縮比的"旋鈕效應(yīng)":一個模型走天下
ZipSplat最吸引人的特性之一是推理時的可調(diào)節(jié)性。通過調(diào)整壓縮比r,單個訓(xùn)練好的模型可以生成從62K到1.3M個Gaussian的各種規(guī)模重建,在質(zhì)量與效率之間任意取點(diǎn),無需重新訓(xùn)練。
在質(zhì)量-效率曲線上,ZipSplat明顯優(yōu)于所有對比方法:要達(dá)到Y(jié)oNoSplat的質(zhì)量只需其1/33的Gaussian數(shù)量,使用6倍更少的Gaussian可額外獲得約2.1 dB的PSNR提升。
壓縮的視覺效果也很有說服力:在1×、2×、4×壓縮下渲染結(jié)果依然清晰銳利,而令牌分布圖則顯示出越來越粗糙的空間覆蓋——模型并非簡單地模糊圖像,而是保留了最有價值的信息。
不同的令牌選擇策略對壓縮效果有影響。在溫和壓縮(r≥0.6)時,K-means聚類、均勻步長采樣和隨機(jī)采樣三種方法的差距在0.1 dB以內(nèi),因?yàn)楹罄m(xù)的交叉注意力能從原始令牌中找回足夠的細(xì)節(jié)。但在激進(jìn)壓縮(r=0.1)時,K-means以0.45 dB領(lǐng)先均勻步長,以0.79 dB領(lǐng)先隨機(jī)采樣。原因在于,K-means在聚類時會跨越多個視角合并冗余令牌——在24視角、r=0.1時,每個K-means聚類平均橫跨4.2個視角,而不是像隨機(jī)采樣那樣直接丟棄整個視角。
在極端壓縮(r=0.01)下,ZipSplat會出現(xiàn)明顯的失效:令牌數(shù)量過少,無法覆蓋整個場景,渲染圖像出現(xiàn)大片空缺。這是系統(tǒng)的邊界條件,在實(shí)際使用中很容易避免。
七、效率數(shù)據(jù):速度與內(nèi)存的真實(shí)表現(xiàn)
在單塊NVIDIA 4090(24GB顯存)上的測試顯示,24個視角輸入時,ZipSplat的完整前向推理在0.8秒內(nèi)完成,峰值顯存低于8.1GB,處于完全實(shí)用的范圍。令牌壓縮和Gaussian解碼本身的計算量微乎其微,系統(tǒng)瓶頸始終在多視角骨干網(wǎng)絡(luò)。
隨著視角數(shù)增加到192,使用視角依賴壓縮調(diào)度時,峰值顯存控制在17GB(而YoNoSplat已達(dá)24GB上限),生成約102K個Gaussian(9.3MB存儲,401 FPS渲染速度),相比固定r=1.0的200萬Gaussian(183MB,40 FPS)實(shí)現(xiàn)了10倍渲染加速和20倍存儲節(jié)省。24個視角時,調(diào)度壓縮生成36K個Gaussian,占用3.3MB,渲染達(dá)685幀/秒,完全滿足實(shí)時移動端或網(wǎng)頁端展示需求。
八、消融實(shí)驗(yàn):每個設(shè)計選擇都有意義
研究團(tuán)隊通過系統(tǒng)性消融驗(yàn)證了各設(shè)計選擇的貢獻(xiàn)。在骨干網(wǎng)絡(luò)完全相同的前提下,ZipSplat的令牌解碼器相比像素對齊解碼器,在6/12/24視角下穩(wěn)定提升1.5至2.7 dB,且Gaussian數(shù)量減少13至25倍,這一改進(jìn)在VGGT和DA3兩種骨干網(wǎng)絡(luò)上都成立,說明性能提升確實(shí)來自令牌化設(shè)計本身,而非骨干網(wǎng)絡(luò)的差異。
每個令牌生成的Gaussian數(shù)量G的選擇,質(zhì)量在G=32時已趨于飽和:G=64比G=32僅多0.03 dB,而Gaussian數(shù)量翻倍;G=8比G=32少0.19 dB,但Gaussian數(shù)量只有四分之一。綜合考慮,G=32是最合適的平衡點(diǎn)。
在初始化和損失函數(shù)方面,耦合初始化貢獻(xiàn)最大(去掉后下降0.25 dB),不透明度偏置和位置偏置各貢獻(xiàn)約0.14至0.15 dB,深度損失貢獻(xiàn)約0.19 dB。而單向Chamfer幾何損失屬于訓(xùn)練穩(wěn)定性的必要條件——去掉它會導(dǎo)致訓(xùn)練不穩(wěn)定甚至發(fā)散,無法單獨(dú)量化其貢獻(xiàn)。
說到底,ZipSplat做了一件在三維重建領(lǐng)域頗為罕見的事:它把"用多少個基本單元描述一個場景"這件事從一個由相機(jī)分辨率決定的固定值,變成了一個由場景內(nèi)容驅(qū)動的自適應(yīng)量。這意味著系統(tǒng)終于開始關(guān)心"這個場景真正需要多少表達(dá)力",而不是"相機(jī)拍了多少像素"。
對于普通用戶來說,這項(xiàng)技術(shù)的潛在影響很實(shí)在:未來的手機(jī)3D掃描應(yīng)用可以用更少的存儲空間和更快的處理速度生成更高質(zhì)量的場景模型;增強(qiáng)現(xiàn)實(shí)應(yīng)用可以在資源受限的設(shè)備上運(yùn)行更復(fù)雜的場景;大規(guī)模三維地圖數(shù)據(jù)庫的存儲和傳輸成本可以大幅下降。研究團(tuán)隊還指出了兩個值得進(jìn)一步探索的方向:一是在每個Gaussian上附加語義特征用于場景理解(令牌化后的緊湊表示使特征存儲成本大幅降低);二是將令牌聚類機(jī)制推廣到四維動態(tài)場景,跨時間維度合并冗余觀測。
歸根結(jié)底,這項(xiàng)工作提醒我們:在信息處理中,"更多"并不總是"更好",找到恰當(dāng)?shù)谋磉_(dá)粒度往往比一味堆砌更有價值。有興趣深入了解技術(shù)細(xì)節(jié)的讀者,可以在arXiv平臺通過論文編號2606.05102查閱完整原文。
Q&A
Q1:ZipSplat和現(xiàn)有三維重建方法相比,速度有多快?
A:ZipSplat在24個輸入視角下,完整前向推理在0.8秒內(nèi)完成,生成的場景可以達(dá)到685幀/秒的實(shí)時渲染速度,存儲只需3.3MB。對比YoNoSplat在192個視角時產(chǎn)生的9.6M個Gaussian(539MB、8.9 FPS),ZipSplat用視角依賴壓縮調(diào)度只生成102K個Gaussian,速度快約45倍,存儲少約20倍。
Q2:ZipSplat用的K-means聚類和隨機(jī)采樣有多大差距?
A:在溫和壓縮(保留60%以上令牌)時差距極小,不超過0.1 dB,因?yàn)楹罄m(xù)的交叉注意力能補(bǔ)回丟失的細(xì)節(jié)。但在激進(jìn)壓縮(只保留10%令牌)時,K-means比隨機(jī)采樣高出0.79 dB。原因是K-means能跨多個視角合并冗余令牌,而不是隨機(jī)丟掉整個視角的信息。
Q3:ZipSplat需要相機(jī)位姿信息才能工作嗎?
A:不需要。ZipSplat可以在完全不知道相機(jī)位置和朝向的情況下運(yùn)行,這種模式下在RealEstate10K上達(dá)到26.20 dB,已經(jīng)超越了大多數(shù)需要相機(jī)位姿的對比方法。如果提供真實(shí)相機(jī)位姿,性能會進(jìn)一步提升到27.19 dB,但位姿帶來的增益相對有限,說明模型本身的場景理解能力較強(qiáng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.