網易首頁 > 網易號 > 正文申請入駐

VAST+清華提出3D生成新范式，空間智能密度控制把算力花在刀刃上

2026-05-21 11:29:10　來源: 機器之心Pro

天津舉報

分享至

如果把現在最熱門的幾條 3D 生成技術線放在一起看，你會發現它們正在遇到一個很像的問題。

做 3D AIGC 的人會發現，模型已經越來越會 “生成一個東西”，但生成結果的復雜度很固定，不夠靈活；做圖形學和渲染的人會更在意，3D 表示到底能不能把有限的計算預算用在最關鍵的地方；做游戲、XR 和交互內容的人則會繼續追問，同一個 3D 資產能不能既有高質量版本，也有輕量版本，而不是每次都重新做一套。

這些問題背后，其實都指向同一個核心矛盾：

今天很多 3D 生成方法，雖然能生成 3D 結果，但還不夠 “會分配資源”。

以 3D 高斯表示為例，哪里高斯球應該密一點，哪里可以稀疏一點；哪里值得放更多表示能力，哪里只需要一個粗略近似，很多方法其實并沒有真正學會。現有方法更像是在用一種固定模板生成 3D，而不是根據物體本身的結構復雜度，自適應地決定 “該放多少高斯、放在哪里”。

SIGGRAPH 2026 論文《Generative 3D Gaussians with Learned Density Control》，想解決的正是這個問題。

論文：《Generative 3D Gaussians with Learned Density Control》
論文鏈接：https://arxiv.org/abs/2605.16355

這篇工作來自 VAST 和清華大學，提出了一種新的 3D 表示方式Density-Sampled Gaussians（DeG）。它的目標不是簡單生成固定數量的 3D 高斯球，而是讓模型自己學會一種 “高斯球采樣策略”: 在復雜區域多放高斯球，在簡單區域少放高斯球，并且這種策略還能直接從渲染誤差里學出來。

這件事聽起來像是工程優化，但其實非常關鍵。因為它決定了 3D 生成結果最終是一個 “看起來還行但很笨重的靜態輸出”，還是一個真正可以按預算伸縮、按需求部署、按場景適配的 3D 表示。

過去一段時間，3D 高斯之所以火，一個很重要的原因是它在畫質和效率之間找到了很好的平衡。它不用像傳統網格那樣依賴復雜拓撲，也能渲染出高質量結果。3D 高斯的優化過程有一個關鍵優點，也恰恰也是它最難被 Diffusion 等生成式模型繼承的部分，就是空間密度控制 (density control)。

在 3D 高斯優化過程里，優化算法會不斷做密集化 (densification) 和稀疏化 (pruning)。簡單理解就是：

如果某個局部沒擬合好，就往那里 “補” 更多高斯；如果某些高斯貢獻不大，就把它們刪掉。

這套機制很有效，因為現實里的 3D 物體本來就不是均勻復雜的。邊緣、薄結構、紋理劇烈變化的區域，需要更多表示能力；而大塊平整、變化不大的區域，其實沒必要堆太多高斯球。

問題在于，這種 “補點和刪點” 的流程本質上是離散的、啟發式的、不可微分的。

這個過程對單個物體的擬合很有用，但不可為微分的特性對一個做前饋式生成、從圖像直接預測 3D 高斯的模型來說，就很難直接搬過來套用。于是很多現有方法退而求其次，選擇固定結構:

有的方法把高斯綁在體素網格上 (GaussianCube)；
有的方法給每個 voxel 分配固定數量的高斯 (TRELLIS.1)；
有的方法給每個 2D 圖像的像素預測固定數量的高斯 (LGM)。

這樣做當然更容易訓練，但代價也很明顯：失去了 3D 高斯最珍貴的靈活性。

DeG 的核心思路，就是把 “高斯球中心在哪” 這件事，從一個固定回歸問題，改寫成一個從概率密度里采樣的問題。

換句話說，模型不再死板地輸出一組固定坐標，而是先學一個 3D 空間里的概率密度分布。這個分布可以理解為：

哪些位置更值得放高斯，哪些位置沒那么重要，即實現了某種“空間智能密度控制”。

在推理時，模型從這個分布里直接采樣出一批高斯球，組成最終的 3D 高斯資產。

這樣一來，整個表示立刻獲得了兩個非常實用的能力。

第一個能力，是任意數量采樣。

因為模型學到的是 “分布”，而不是 “固定長度輸出”，所以在推理時可以按實際需求采樣不同數量的高斯球。想做移動端、實時預覽或者低成本傳輸，可以少采一些；想做高保真渲染、離線展示或者更復雜場景，可以多采一些。

也就是說，這不是 “每種分辨率都要重新訓一個模型”，而是同一個模型、同一個表示，根據預算直接調采樣數。

考慮到 3D 高斯的渲染成本并不低，靈活的高斯球數量對實際部署非常重要。因為很多應用要的不是絕對最強畫質，而是 “在當前設備和當前時延預算下，拿到最合適的 3D 資產”。

第二個能力，是非均勻采樣。

DeG 并不是在整個空間里平均撒點，而是會在模型訓練時根據渲染重構損失，把更多采樣預算放到真正復雜的區域。比如薄的結構、尖銳邊緣、局部幾何變化大、紋理更敏感的區域，都可以自然得到更高密度；而在平坦、規則、變化較小的區域，則可以少放一些高斯。

這意味著，模型開始真正具備一種“哪里重要就把容量放哪里”的能力。

而這，也是本文最有意思的算法問題所在：

這個空間上的智能密度控制策略，到底怎么學？

很多人第一次看到這里會覺得，既然最后有渲染損失，那就直接反向傳播不就行了？

但真正的難點在于，高斯球的位置是采樣出來的。采樣本身不是一個普通的連續映射，因此渲染誤差沒法像常規神經網絡那樣，順滑地一路反傳回 “空間密度分布”。

也就是說，模型雖然知道渲染結果哪里錯了，卻不容易知道：

到底應該提高哪些區域被采樣到的概率，又該降低哪些區域的概率。

這篇論文的關鍵突破，就是給這個問題構造了一個可訓練的梯度信號。作者把它稱為渲染損失貢獻梯度 (render loss contribution gradient)，本質上是一種強化學習策略，可以理解為一種面向高斯采樣的policy gradient。

這個想法其實很直觀。

假設當前我們從密度分布里采樣出了一批高斯球。現在，如果把其中某一個高斯球去掉，重新看渲染損失會發生什么？

如果去掉它之后，渲染結果明顯變差，說明這個高斯球很重要，它確實幫模型把這個區域表示好了。那么系統就應該提升類似位置今后被采樣到的概率。

反過來，如果去掉它幾乎沒影響，甚至讓結果更好，那說明這類位置的采樣價值不高，概率就不該那么大。

換成更口語的話，這個梯度在回答的問題其實就是：

“這一個被采到的高斯球，到底值不值得被采到？”

這就是一種非常典型的策略學習視角。采樣位置像是在 “做決策”，渲染誤差則提供 “獎懲信號”。對降低誤差有幫助的位置，就獎勵；幫助不大的位置，就少獎勵甚至懲罰。

從數學上看，這套思路和 policy gradient 是一致的。作者把它進一步寫成了 difference reward 的形式，也就是比較 “有這個高斯球” 和 “沒有這個高斯球” 時，渲染損失到底相差多少。這個差值，正好刻畫了該高斯球的邊際貢獻。

更重要的是，這里不只是一個直覺上說得通的解釋，而是有明確的正確性依據。論文直接從 “渲染損失期望值” 出發，計算了它對密度分布參數的梯度大小，最后得到的就是這里真正用來優化的梯度信號，也就是渲染損失貢獻梯度。換句話說，作者并不是憑經驗設計了一個看起來合理的訓練技巧，而是在用梯度下降的方式，直接優化高斯該如何分布、如何采樣；這和傳統高斯里基于人工規則的剪枝、密化，是結果類似、但思路完全不同的一條路。

如果嚴格去算每個高斯球的 leave-one-out 貢獻，代價會非常高，因為看起來像是要把每個高斯都單獨刪掉，再重新渲染一遍。

接下來的問題就變成了：這個目標雖然定義得很清楚，但怎樣才能把它高效算出來？作者針對 L1 渲染損失給出了一種相當精確、同時又很高效的計算辦法。

簡單來說，對于 L1 渲染項，渲染器在正常渲染過程中其實已經拿到了幾個關鍵數值，只需要做一點額外計算，就能得到我們需要的貢獻值，而不必反復刪掉高斯再重渲染。具體計算過程可以直接閱讀論文中的偽代碼。

這樣一來，原本依賴規則的密集化 / 稀疏化過程，就被改寫成了一個可微、可學習、可批量訓練的空間密度優化過程。這篇工作第一次把 3D 高斯的密度控制，真正實現成了一個端到端優化的問題。

在以往的高斯方法里，密度控制更多是靠人工規則驅動的，比如什么時候分裂、什么時候刪點、閾值怎么設、什么區域算 “該加密” 或 “該剪枝”，本質上都還是啟發式設計。DeG 的不同之處在于，它不再依賴這些手工定義的規則去調度高斯數量，而是讓 “哪里該多采、哪里該少采” 直接由渲染誤差反向決定。

如果從應用視角看，這套方法的價值更能直觀體現。

首先，它讓 3D 資產真正具備了按預算伸縮的能力。

以前很多方法一旦生成完成，輸出規模基本就固定了。你想要更輕量，往往只能后處理壓縮；你想要更高質量，也常常意味著重新訓練、重新擬合，或者一開始就背上很重的表示成本。

而在 DeG 里，模型輸出的是一個 “可采樣的密度”。這意味著同一個對象，可以自然得到不同規模的高斯版本。對移動端、實時交互、在線預覽來說，可以采樣更少、更輕的版本；對影視級展示、數字藏品、離線精修等任務，則可以直接提高采樣預算，得到更密、更細致的版本。

其次，它讓 3D 表示真正開始理解局部復雜度。

很多固定結構方法的問題不在于它們不能生成高斯，而在于它們不知道哪些地方更值得花預算。結果往往是簡單地方堆得太多，復雜地方反而不夠。DeG 的非均勻采樣恰好反過來，把容量更集中地放在細節、邊界、薄結構和高誤差區域上。這件事在低預算場景里尤其重要。因為當總高斯數量有限時，“怎么分配” 比 “總量多少” 更關鍵。論文實驗里也顯示，這種空間智能密度控制帶來的收益，在少數量高斯的區間尤其明顯。換句話說，預算越緊，這種方法越體現價值。

再進一步看，這種能力對于很多場景都很關鍵：

對游戲和 XR 來說，它意味著同一個生成模型更容易適配不同設備等級和實時性能約束。
對 3D 內容平臺來說，它意味著資產可以更自然地提供多種質量檔位，而不是為每個檔位單獨制作，實現類似 LoD 的效果。
對 AIGC 工作流來說，它意味著生成系統不只是 “給一個結果”，而是給出一個更可調、更可部署的表示。
對機器人仿真、數字孿生和交互式 AI 環境來說，它則意味著有限資源可以優先用在真正影響幾何感知和渲染質量的部分。

論文里也給出了很有代表性的結果。作為一種單圖到 3D 的生成框架，DeG 在重建和生成上都取得了很強的表現。在接近的高斯預算下，它相比 TRELLIS、UniLat3D 等代表性方法取得了更好的視覺質量；而如果只看 “達到相近視覺質量要用多少高斯”，DeG 能顯著減少所需高斯數量。論文中還提到，在某些場景下，它達到與 TRELLIS 相當的視覺質量時，所需高斯數量不到后者的一半。

從更長的技術脈絡看，這篇工作提示了一個很重要的方向：

3D 生成模型能不能不只負責 “生成出來”，還負責決定 “資源該怎么分配”？

這看上去像一個底層問題，但它直接決定了 3D AIGC 能不能從 “實驗室效果” 走向 “實際可用”。真實世界的部署從來不是無限預算的，真正有價值的模型，不只是會生成，還要知道在預算有限的情況下，什么最值得被保留。

DeG 的意義，就在于把這種 “保留什么、強調什么、稀疏什么” 的能力，第一次以可學習、可優化的方式交給模型自己去決定。它讓 3D 表示不再是固定長度、固定密度的靜態輸出，而變成一種能按需要調密度、調成本、調質量的表達。

如果再往前想一步，這篇工作還會逼著我們重新思考一個很基礎的問題：一個物體的高模和低模，到底應該被看成兩個不同的東西，還是同一個物體在不同資源約束下的兩種狀態？

在傳統流程里，我們通常把它們當成兩份不同資產，所以建模、簡化、LOD 制作和部署被拆成了幾條鏈路。但 DeG 提示了一種更自然的理解：物體本身沒有變，變化的只是我們愿意為它分配多少表示能力和渲染預算。

如果這個視角成立，那么未來的 3D 生成模型學到的就不只是 “長什么樣”，還包括 “在什么條件下，該以什么密度、什么成本被呈現出來”。那時，高模、低模、移動端版本，也許都不再是彼此割裂的幾份資產，而會變成同一個對象在不同場景下的連續狀態。

從這個意義上說，DeG 雖然做的是 3D 高斯，但它真正有意思的地方，也許在于它提醒我們：未來的 3D 內容不一定是一份靜態答案，而更可能是一種會隨著設備、任務和預算不斷調整的“活表示”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.