網易首頁 > 網易號 > 正文申請入駐

香港理工大學團隊讓3D重建AI在考試時"偷看答案"自我進化

2026-04-23 21:26:22　來源: 科技行者

北京舉報

分享至

這項由香港理工大學領導的研究發表于2026年4月，以預印本形式提交至arXiv平臺，論文編號為arXiv:2604.14048v1，題為《Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself》。有興趣深入了解的讀者可以通過該編號在arXiv上查詢完整論文。

當你用手機拍一組照片，然后讓AI把這些照片重建成一個完整的三維空間時，你有沒有想過，這個AI其實就像一個從未見過你家的陌生人——它憑借訓練時積累的經驗猜測你家的樣子，而不是真正"看懂"了你家。這種"憑經驗猜"的方式大多數時候效果不錯，但在遇到光線奇怪、物體被遮擋、或者鏡面反射的地方，AI往往會悄悄犯錯，而你卻毫不知情，因為最終的三維圖像看起來還是挺像那么回事的。

香港理工大學的研究團隊發現了這個令人頭疼的問題，并且找到了一個出乎意料的解決方案。他們讓AI在"考試"的時候給自己"開小灶"——通過觀察同一個場景的更多視角來自我糾錯，整個過程不需要人工標注任何三維數據，也不需要重新訓練。這套名為**Free Geometry**的框架，本質上是一種"測試時自我進化"的機制，讓原本僵硬的AI模型在面對新場景時能夠靈活調整自己，最終在四個公開數據集上將相機位姿估計精度平均提升了3.73%，三維點圖預測精度提升了2.88%。

一、AI的"應試綜合征"：訓練好了就不會改變

要理解這項研究解決了什么問題，先得了解當前的3D重建AI是怎么工作的。以VGGT和Depth Anything 3（簡稱DA3）這兩個當下最強的3D重建模型為例，它們的工作方式類似于一個經歷過大量專業培訓的建筑師——花大量時間學習成千上萬個場景，記住各種空間規律，然后在面對新場景時直接憑記憶"一刀切"地輸出結果。

這種工作模式有個專業名稱叫"訓練后凍結"（train-then-freeze）：模型一旦訓練完畢，參數就被鎖死，不管遇到什么新場景，都只能用這一套固定方法應對。就像一個背熟了教科書的學生，在考試時遇到書本上沒有出現過的題目，只能用已學知識硬套，而無法針對新題目進行針對性復習。

問題的關鍵在于，現實世界的場景千變萬化。當模型遇到大量鏡面反射的酒店大堂、滿是遮擋的雜亂書房、或者光線詭異的地下停車場時，訓練時積累的經驗就開始"對不上號"。生成的三維重建結果乍一看沒什么問題，但仔細測量就會發現幾何錯誤，比如墻面稍微歪了一點、物體邊緣出現奇怪的"毛刺"、或者深度估算失準。

收集大規模、高質量的三維標注數據是改善這一問題的直接思路，但現實中對真實場景進行三維掃描和標注極其昂貴，而且很多復雜環境根本無法做到。這就好像要讓那個學生臨時抱佛腳，但找不到針對新考題的參考書。研究團隊因此另辟蹊徑，找到了一個完全"免費"的監督信號來源。

二、一個簡單卻關鍵的發現：看得越多，猜得越準

研究團隊在探索問題時注意到一個直覺上就說得通的現象：給AI看的照片越多，它重建出來的三維場景就越準確。這并不令人意外，畢竟多角度觀察一個物體，總比只看一兩張照片更能理解它的真實形狀。

為了量化這一現象，研究團隊做了一個對比實驗，結果記錄在論文的表1中。他們分別給VGGT模型提供8張圖片和4張圖片，讓它重建同一批場景，然后比較精度。以ETH3D數據集（一個包含室內外高精度激光掃描參考數據的標準測試集）為例，用8張圖片時，相機位姿精度（AUC@3指標）達到0.445，三維點云重建的F1分數達到0.536；而縮減到4張圖片時，AUC@3降到0.318，F1分數降到0.142——差距相當顯著。

更有意思的是，他們還做了一個中間實驗：用8張圖片輸入給模型的編碼器（負責理解圖片的部分），但只把其中4張的特征傳遞給解碼器（負責輸出三維結果的部分）。這個叫"8→4"的設置揭示了一件有趣的事：僅僅是在編碼階段多看了4張圖片，最終的重建質量就明顯好于純粹只提供4張圖片的情況。在ETH3D上，"8→4"設置的AUC@3為0.424，遠高于純4張的0.318。

這個發現指向了模型內部的一個關鍵結構：在VGGT和DA3這類模型中，多視角之間的信息交互發生在"編碼器"階段，而"解碼器"階段則是每張圖片各自獨立處理的。換句話說，編碼器是這個建筑師團隊開會討論方案的地方，而解碼器則是每個人各自畫圖的地方。更多視角參與討論，自然能做出更準確的方案。

由此，研究團隊想到了一個絕妙的策略：既然多視角下的編碼器特征更可靠，那能不能用這些"高質量特征"來指導少視角下的模型？也就是說，讓多視角的結果充當"老師"，教少視角的模型應該怎么看這個場景。更妙的是，這個"老師"完全來自同一個模型自身，不需要任何外部標注。

三、如何讓AI給自己"批改作業"：Free Geometry的核心機制

Free Geometry的工作原理可以用一個老師批改學生試卷的場景來理解。給同一道題，當學生手里只有4條線索時（少視角），他的答案可能不夠準確；但當他手里有8條線索時（多視角），答案就更可靠。Free Geometry做的事情是：讓這個學生在做4線索版本的題目時，參照自己做8線索版本時的思路，強迫自己往更準確的方向靠近。

具體實現時，研究團隊采用了"老師-學生"蒸餾框架。面對一組測試圖片（比如8張），他們把所有8張圖片送入一個被凍結（不允許修改）的模型，提取出"全量觀測特征"，這就是老師的答案。然后，他們把其中一半圖片（比如偶數編號的4張）送入另一個版本的模型，這個版本的模型內部插入了輕量級的LoRA模塊（一種只修改模型極少量參數的技術），提取出"部分觀測特征"，這就是學生的答案。

LoRA的作用類似于在一本大百科全書的邊角空白處貼便利貼——原來的內容一字不改，但通過這些便利貼上的修正注記，可以對原有知識進行微調。研究團隊讓訓練過程只更新這些"便利貼"上的參數，以及一個專門負責相機姿態的"相機令牌"，其余99.8%以上的模型參數保持不動。這使得整個自適應過程極其高效，在單張RTX Pro 6000 GPU上，每個數據集只需不到2分鐘就能完成。

四、兩種"批改方式"讓自我糾錯更徹底

僅僅讓學生答案向老師答案靠攏，思路上還不夠完善。研究團隊設計了兩種互補的損失函數，分別從不同角度推動學生特征向老師特征對齊。

第一種叫"幀內一致性損失"。對于那些同時出現在老師和學生輸入中的圖片（也就是4張未遮擋圖片），直接比較兩個模型在相同位置提取的特征，要求學生的特征在數值大小和方向上都盡量向老師靠攏。技術上結合了Huber損失（對數值差異敏感）和余弦相似度損失（對方向差異敏感），這相當于要求學生不僅答題方向要和老師一致，就連具體數字也要盡量接近。這一項損失主要起"穩定錨點"的作用，防止模型在自適應過程中亂跑偏。

第二種叫"跨幀關系損失"，設計上更精妙。那4張被遮擋掉（只有老師看得到、學生看不到）的圖片，包含了非常寶貴的跨視角幾何關系信息——它們告訴我們不同位置的場景元素在三維空間里是怎么相對排列的。研究團隊的做法是：在特征空間里，從老師能看到的遮擋幀中選取若干"錨點"特征（K=4個，選法是取余弦相似度最高的2個和最低的2個，兼顧相似和對比），然后構建由參考幀特征、遮擋幀錨點特征、其他未遮擋幀特征組成的三元組，在特征空間中形成一個虛擬三角形。要求學生模型中的對應三元組，不僅要保持和老師三元組類似的兩兩相似度分布（通過KL散度衡量），還要保持這個三角形三個頂角的余弦角度（通過L1損失衡量）。

這種設計的精妙之處在于：即使學生完全看不到那4張遮擋幀，它依然能通過"幾何關系約束"間接學習到這些幀所蘊含的空間結構信息。打個比方，你雖然沒親眼見過某條小路，但通過朋友描述"從A點到B點，走那條小路比直線多轉兩個彎，距離感覺差不多"，你也能在腦海里大致重建出那條路和周邊地形的關系。

最終，這兩種損失的總和構成了Free Geometry的自監督幾何校準目標，整個訓練只需在每個測試數據集上運行5個輪次，批次大小為4，使用FP16混合精度降低內存占用。優化器選用AdamW，配合余弦學習率衰減和15%的預熱步驟。不同數據集的學習率范圍和訓練樣本數各有微調，因為研究團隊發現不同數據集的難易程度差異較大——比如ScanNet++本來就被基礎模型處理得很好，不需要太強的適應力度。

五、實驗結果：小改動，大收益

研究團隊在ETH3D、ScanNet++、7-Scenes和HiRoom四個數據集上進行了系統評測，覆蓋室內外高精度場景、大規模室內場景、小型室內重定位場景和高分辨率房間重建四種典型情景。每個場景分別測試4視角和8視角兩種輸入規模，每種規模重復3個隨機種子取平均，確保結果穩定可信。

以相機位姿精度（AUC@3，數值越高越好）為例，在4視角設置下，VGGT在ETH3D上從0.157提升到0.178，DA3從0.286提升到0.305；在HiRoom上，VGGT從0.421提升到0.441，DA3從0.708提升到0.719。以三維重建質量（F1分數，數值越高越好）為例，4視角下VGGT在ETH3D上從0.102提升到0.110，在HiRoom上從0.276提升到0.307。整體來看，改善最顯著的場景是那些對基礎模型本來就最難的情況——視角少、場景復雜、光線奇特。

研究團隊還做了一個令人驚喜的跨視角泛化實驗。Free Geometry的訓練始終使用"8張全量→4張部分量"這一固定配置，但測試時分別用4、8、16、32、64、100張圖片評估效果。令人稱奇的是，經過Free Geometry適應后的模型，在所有這些視角數下都有所提升，而不只是在4視角下有效。相對提升幅度匯總在論文表3中：以VGGT為例，4視角下AUC@3平均提升+5.33%，8視角下提升+2.19%，16視角下提升+3.93%，32視角下提升+3.73%；DA3的規律類似，4視角下AUC@3提升+2.74%，32視角下提升+2.89%。

這種"一次適應、全面受益"的現象說明，Free Geometry并沒有讓模型死記硬背某個特定視角數下的答案，而是真正改善了模型理解場景幾何的底層能力——就像學生通過反復對照參考答案，不是背下了某道題，而是提升了整體解題思路。

視角越少，提升幅度通常越大；視角越多，提升幅度逐漸趨于平緩。這完全符合直覺：當圖片多到足以提供充分幾何約束時，模型本身就已經做得很好了，自適應的邊際收益自然下降。

六、消融實驗：每個設計都有其道理

為了驗證各個設計選擇的必要性，研究團隊做了詳盡的消融實驗。首先是損失函數的重要性。在ETH3D上，完整損失（Free Geometry）的AUC@3為37.88，F1為0.2475，Chamfer距離為3.5473。單獨去掉幀內一致性損失后，AUC@3降至35.87，F1降至0.2324；單獨去掉跨幀關系損失后，AUC@3降至36.37，F1更是大幅降至0.2190。兩者都是必要的，且跨幀關系損失對幾何精度的貢獻尤為突出——去掉它之后，F1下降幅度比去掉一致性損失還要大，說明跨幀的結構關系約束是解決幾何模糊性的關鍵。

關于遮擋幀錨點的選取策略，研究團隊對比了三種方案：只選最相似的Top-K個錨點、純隨機選取、以及混合選取（最相似和最不相似各取一半）。結果混合選取在重建F1（0.2475）和整體Chamfer距離（3.5473）上最優，純Top選取次之，隨機選取最差。直覺上，只選最相似的錨點會讓約束過于局部，缺乏對比性；隨機選取則過于分散，信號質量不穩定；而混合策略兼顧了"相似錨點提供對應約束"和"不相似錨點提供對比信息"的雙重作用，幾何上的覆蓋面最廣。

關于LoRA秩的選擇，研究團隊對比了r=8、16、32、64四種規模。以DA3在ETH3D上為例，基礎模型（不適應）的AUC@3為0.514；r=8時提升至0.566；r=16時為0.563；r=32時最優，達到0.581；r=64時反而降回0.556。可訓練參數從基礎模型的0增長到r=8時的531萬、r=32時的2124萬、r=64時的4247萬。適度的適應容量（r=32）最優，過大的參數量反而帶來過擬合風險。研究團隊也直接驗證了Free Geometry的特征校準效果：在ETH3D上測量部分觀測（4視角）與全量觀測（8視角）下編碼器特征的距離，適應前VGGT的MSE為0.9039、余弦相似度為0.8581；適應后MSE降至0.8384、余弦相似度升至0.8684。DA3的變化規律完全一致，從45.9079/0.8605變為42.8949/0.8679。這組數字直接證明了Free Geometry確實讓模型在少視角下的內部特征更接近多視角下的高質量表示。

七、與其他方法有何不同：不對稱才是關鍵

研究團隊在設計Free Geometry時，特別注意與已有測試時自適應方法的本質區別。

在通用視覺領域，TENT通過最小化預測熵來適應，TTT/TTT++通過旋轉預測等輔助任務來更新表示，MEMO通過數據增強一致性進行單樣本適應。這些方法的共同問題是：監督信號的質量不受控制——熵可能很嘈雜，旋轉預測與三維幾何任務耦合松散。

在三維重建領域，Test3R是最接近的相關工作，它通過強制不同重疊視角對之間的輸出一致性進行適應。然而Test3R對所有視角對一視同仁，沒有質量區分：當某對視角重建質量好、另一對質量差時，一致性損失會把兩者都往平均值方向拉，存在"被拖累"的風險。Free Geometry的本質區別在于，全量觀測相對于部分觀測的優越性是被模型架構中的全局注意力機制在數學上保證的，而非人為假設——這提供了一個有明確質量層級的監督信號，老師永遠比學生更可靠。此外，Free Geometry在編碼器特征層面操作，而不是在解碼器輸出層面操作，直接針對跨視角一致性的瓶頸所在，同時避免了運行解碼器所需的額外計算和內存開銷。

說到底，Free Geometry的貢獻在于找到了一種"不花錢的好老師"——這位老師就藏在模型自身里，只要給它更多視角，它就能自動變得更聰明，然后把這份聰明教給面對較少視角時的自己。這套邏輯簡單卻有效，實驗數據也清晰地支撐了這一點。對于未來的3D重建應用，這意味著即使沒有專業的三維標注團隊，只要有足夠多的原始照片，模型就有機會在推理階段針對具體場景進行自我優化，讓錯誤更少、幾何更準。當然，目前這套方法還需要在每個數據集上單獨運行一次適應過程，未來如何做到更精細的單場景實時適應，以及在更極端條件下（如視角極少或場景極復雜）的表現，都值得進一步探索。對AI三維感知感興趣的讀者，可以通過arXiv編號2604.14048查閱完整論文，研究團隊也已在GitHub開源了代碼，地址指向hiteacherIamhumble/Free-Geometry倉庫。

Q&A

Q1：Free Geometry需要人工標注三維數據嗎？

A：Free Geometry完全不需要任何人工標注的三維數據。它的自監督信號完全來自模型自身——通過對比同一個場景在"多視角輸入"和"少視角輸入"下的內部特征差異，讓模型自己糾正自己。整個適應過程只需要原始圖片序列，在單張GPU上不到2分鐘就能完成。

Q2：Free Geometry適應之后，模型對視角數量有限制嗎？

A：沒有明顯限制。雖然Free Geometry訓練時固定使用8張全量輸入對應4張部分量輸入的配置，但適應后的模型在4、8、16、32、64、100張圖片輸入下都能獲得改善，說明它提升的是模型底層的幾何理解能力，而不是針對某個特定視角數的記憶。視角越少時，改善幅度通常越明顯。

Q3：Free Geometry支持哪些3D重建模型？

A：Free Geometry是一個插件式框架，理論上可以兼容任何具有"多視角交叉注意力編碼器+逐幀解碼器"結構的前饋三維重建模型。論文中已在VGGT和Depth Anything 3兩個當前最強的三維重建基礎模型上驗證了有效性，兩者均獲得了一致的提升。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.