无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

5秒完成3D場景編輯,北大&港中文&上海AI Lab搞出VGGT-Edit

0
分享至

VGGT-Edit團隊 投稿量子位 | 公眾號 QbitAI

3D世界“會看”了,但還不會“改”。

從NeRF到83D Gaussian Splatting,再到VGGT、π3這類前饋式3D重建模型,整個行業的進展速度明顯加快——只需幾張圖片,就能在幾秒內重建完整3D場景。

但問題也恰恰出在這里。這些模型雖然已經能理解三維世界,卻還不會修改三維世界。你可以讓它重建一個房間,卻很難真正告訴它:

把椅子移到窗邊,刪除中間那張椅子,把灰色皮沙發改成白色長毛沙發。

更麻煩的是,一旦涉及復雜編輯,現有方法往往迌速崩採——某些角度里椅子消失了,換個視角椅子又重新出現;明明沒改的背景,卻跟著一起變形。

為應對這一挑戰,來自北京大學香港中文大學上海AI LabNTU等機構的研究團隊,提出了一套原生3D編輯框架:VGGT-Edit

核心思路只有一句話——

不再繞回2D,而是直接在3D空間里完成編輯。

在DeltaScene測試集上,VGGT-Edit在語義一致性、多視角穩定性、推理速度三個維度均超過現有方法,單次編輯僅需約5秒,最高實現120倍加速。

問題其實一直出在在2D

目前大多數編3D的方法,本質上仍然是“2D思維”——先把場景拆成多弤2D圖片,逐張編輯,再重新拼回3D。

但由于每個視角都是獨立處理的,所以很容易出現:

  • 一個視角里椅子已經刪掉了;
  • 換個角度椅子又重新出現;
  • 背景區域跟著一起漂移;
  • 物體邊緣出現重影和閃爍。

3D編輯方法的比較



很多結果看起來更像“在不同角度硬P出來的圖”,而不是真正穩定的3D空間。

對于機器人、AR/VR、空間智能這些方向來說,這幾乎是致命問題——這些場景真正需要的,不是“某一個角度看起來對”,而是整個3D世界始終穩定一致。

原生3D編輯,開始從概念走向可用

VGGT-Edit的核心思路非常直接:既然問題來自2D,那就不要再繞回2D。

整個框架建立在VGGT-Like前饋式重建模型之上,繼承了其快速、高效的3D表示能力。但有意思的是,團隊并沒有選擇重新生成整個場景,而是提出了一種非常巧妙的機制:

殘差場預測(Residual Field Prediction)。



簡單理解就是:模型先保留原始場景穩定的3D結構,然后只學習“哪里需要變化”,例如:

  • 椅子往右移動;
  • 沙發材質發生變化;
  • 刪除某個物體;
  • 新增一個家具。

這些變化,都被表示成了:新場景 = 原場景 + 局部殘差變化

這個設計有個非常重要的好處——因為大部分區域本來就不需要變化,所以模型不用重新“生成整個世界”,只需修改局部,結果就是沒改動的背景區域會非常穩定。

這也是VGGT-Edit和很多現有方法最明顯的區別之一。

文本語義,第一次真正開始“對齊”3D空間

研究團隊發現,如果只是簡單把一句文本輸入模型,很容易出現一種情況——模型知道“你想改什么”,但不知道“該改哪里”。

為了解決這個問題,VGGT-Edit設計了一套關鍵機制:

深度同步文本注入(Depth-Synchronized Text Injection)

本質上可以理解成讓文本語義和3D空間特征,在同一個深度層級里持續同步。

傳統方法通常只在前面注入一次文本信息,但VGGT-Edit會在多個關鍵層持續融合文本語義,這樣模型在整個3D生成過程中,始終知道:

  • 當前應該修改哪個區域;
  • 修改目標是什么;
  • 空間位置在哪里。

與此同時,團隊還專門設計了一套“視角重要性加權”——因為并不是所有視角都同樣可靠,有些角度可能被遁擋,有些視角只能看到半個物體。

VGGT-Edit會自動判斷哪個視角更值得信任,最終讓多視角編輯結果更加穩定。

一個真正面向“3D編輯”的編輯頭

除了整體框架之外,VGGT-Edit還有一個非常關鍵的部分——專門面向3D編輯任務設計的編輯頭

研究團隊發現,對于VGGT-Like模型來說,原本的重建Head更關注“如何恢復場景”,但3D編輯真正需要解決的問題是:如何在保持整體穩定的情況下,只修改局部區域。

因此,VGGT-Edit額外設計了一套編輯分支,專門預測場景中的局部變化。

這個編輯Head會直接作用于3D表示空間,并輸出對應的殘差場變化。本質上,它學習的是:

  • 哪些區域應該保持不變;
  • 哪些區域需要發生編輯;
  • 編輯后如何保持多視角一致。

相比直接重新生成整個場景,這種方式更加穩定,也更加高效——這也是讓VGGT-Like前饋重建模型具有編輯能力的關鍵一步。

一個10萬規模的數據集,專門訓練“3D編輯”

為了訓練VGGT-Edit,團隊專門構建了一個新3D編輯數據集DeltaScene,規模接近10萬組,覆蓋客廳、辦公室、住宅、商業空間等多種場景。

DeltaScene數據集概述



更重要的是,整個數據生成流程高度自動化。

團隊通過利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自動完成編輯指令生成、目標識別、多視角編輯、3D一致性過濾,最終得到真正滿足“多視角幾何一致”的訓練數據。

DeltaScene數據構造流程



對于原生3D編輯來說,這一步非常關鍵——模型真正需要學習的,不只是“圖像變化”,而是同一個編輯,在不同視角下如何始終保持空間一致。

3D編輯,第一次開始接近實時交互

從結果來看,這條路線確實有效。

在DeltaScene測試集上,VGGT-Edit在語義一致性、多視角穩定性、推理速度三個維度都超過了現有方法。

尤其是在添加家具、調整位置、修改材質這些復雜任務中,很多傳統方法仍然會出現明顯的“貼圖感”和幾何漂移,但VGGT-Edit生成的結果,會明顯更像一個真實穩定的3D空間。

不同3D編輯任務的定性比較



更關鍵的是速度——論文中,VGGT-Edit單次編輯只需約5秒,相比很多需要長時間優化的傳統方法,最高可實現120倍加速。

這意味著編3D第一次真正開始接近實時交互。

對于機器人、數字孿生、AR/VR等方向來說,這種變化非常重要——只有當編輯速度足夠快,3D世界才真正可能變成“可交互”的世界。

在DeltaScene數據集上的定量結果



模型開始真正理解“空間變化”

論文里還有一個非常有意思的實驗。研究人員輸入了一條訓練中從未出現過的指令——“將中間椅子順時針旋轉90度。”

結果模型依然成功完成了編輯。

對未見過的指令進行泛化



這說明VGGT-Edit學到的,并不只是固定模板,它真正開始理解文本語義如何映射到3D空間變化。

而這件事,可能比“會生成3D”本身更重要。因為對于空間智能來說,未來真正關鍵的能力,也許不是“生成一個世界”,而是能否像人一樣,自由、穩定、實時地修改這個世界。

VGGT-Edit,正在把這件事往前推進一步。

論文鏈接:https://arxiv.org/abs/2605.15186

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳數首談14年婚姻,盲目聽從丈夫安排,身患重病后現狀如何?

陳數首談14年婚姻,盲目聽從丈夫安排,身患重病后現狀如何?

瑛派兒老黃
2026-05-30 20:23:51
毒性堪比砒霜!正大量上市,一旦發苦趕緊吐掉!醫生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦發苦趕緊吐掉!醫生:煮熟也有毒

路醫生健康科普
2026-05-30 20:15:03
女子車禍住院遭男醫生侵犯后續,細節不堪入目,院方最新回應來了

女子車禍住院遭男醫生侵犯后續,細節不堪入目,院方最新回應來了

可愛的巴比龍
2026-05-30 10:07:23
重磅消息!開始放水了?

重磅消息!開始放水了?

混知房產
2026-05-30 07:36:26
06年男子打工借宿同學家,被同學母親一眼看中,意外改變了他一生

06年男子打工借宿同學家,被同學母親一眼看中,意外改變了他一生

小月文史
2025-03-11 18:44:56
日本全境調兵直逼臺海,連夜轉移12萬居民,表面避難實則清空戰場

日本全境調兵直逼臺海,連夜轉移12萬居民,表面避難實則清空戰場

紀中百大事
2026-05-31 09:36:03
韓國邁出關鍵一步:正式啟動核潛艇計劃!旁邊的日本怕要坐不住了

韓國邁出關鍵一步:正式啟動核潛艇計劃!旁邊的日本怕要坐不住了

老誡科普
2026-05-29 22:13:52
中國沒給面子,普京回國后沉默一周認清現實,終究找上哈薩克斯坦

中國沒給面子,普京回國后沉默一周認清現實,終究找上哈薩克斯坦

小陸搞笑日常
2026-05-31 04:35:20
杭州一大樓半年外賣被偷126次,民警用了這一招,一個月來再也沒丟過

杭州一大樓半年外賣被偷126次,民警用了這一招,一個月來再也沒丟過

都市快報橙柿互動
2026-05-30 17:40:21
張雪變于東來“迷弟”,直播間里豪刷3萬元成“榜一大哥”,直言:我可能成為不了您,但有信心做到您的一半

張雪變于東來“迷弟”,直播間里豪刷3萬元成“榜一大哥”,直言:我可能成為不了您,但有信心做到您的一半

極目新聞
2026-05-30 10:33:33
烏克蘭拆解“榛樹”導彈,結果震驚西方,七十年代古董為何能破盾

烏克蘭拆解“榛樹”導彈,結果震驚西方,七十年代古董為何能破盾

通鑒史智
2026-05-31 10:01:04
比亞迪吹爆璇璣A3:完全自研、中國最強!評論區一點面子都不給

比亞迪吹爆璇璣A3:完全自研、中國最強!評論區一點面子都不給

譚談社會
2026-05-29 16:29:54
英國公布的圓明園被毀前照片,美如仙境,引發世界關注

英國公布的圓明園被毀前照片,美如仙境,引發世界關注

賤議你讀史
2026-05-23 15:23:34
被人事開除后,我誰也沒告訴,董事長得知后卻:誰把我妹辭了?

被人事開除后,我誰也沒告訴,董事長得知后卻:誰把我妹辭了?

麥子情感故事
2026-05-30 17:09:16
5月31日,人社部2026年養老金調整公布了嗎?高于6000元不漲了嗎

5月31日,人社部2026年養老金調整公布了嗎?高于6000元不漲了嗎

社保小達人
2026-05-31 09:49:47
從1-2至3-2!北京國安絕境大逆轉,法比奧創紀錄,重慶3分鐘丟2球

從1-2至3-2!北京國安絕境大逆轉,法比奧創紀錄,重慶3分鐘丟2球

汪星人喲
2026-05-30 22:02:12
固態電池神話破滅在即?中科院重大突破將改寫2026電池江湖

固態電池神話破滅在即?中科院重大突破將改寫2026電池江湖

徐云流浪中國
2026-05-30 18:37:49
極端高溫下,莫迪勸印度人多喝水,印度人破防大罵:我們沒水喝!

極端高溫下,莫迪勸印度人多喝水,印度人破防大罵:我們沒水喝!

觀史搜尋著
2026-05-30 11:57:25
現任孩子沒拿到繼承權,前妻姐真是贏麻了!

現任孩子沒拿到繼承權,前妻姐真是贏麻了!

BenSir本色說
2026-05-30 22:02:27
18歲翻墻離家從軍,父親:我就當你死了!23年后一封急信讓他淚崩

18歲翻墻離家從軍,父親:我就當你死了!23年后一封急信讓他淚崩

磊子講史
2026-05-26 11:55:22
2026-05-31 10:47:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12710文章數 176474關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

稻城亞丁景區是否有權在省道上"設卡" 央媒調查

頭條要聞

稻城亞丁景區是否有權在省道上"設卡" 央媒調查

體育要聞

巴黎再度捧起歐冠獎杯 槍手眾將黯然神傷

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

字節跳動的 "一盤大棋"

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

家居
旅游
游戲
公開課
軍事航空

家居要聞

云棲 舒展如流云

旅游要聞

重磅劇透!300+海外旅行商齊聚北京,新體驗帶動新消費!——2026北京入境旅游發展大會6月1日高能啟幕,五大板塊搶先看!

PS5獨占《漫威金剛狼》售價曝光!疑似即將開啟預購

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美防長參加"香會" 就美中關系最新表態

無障礙瀏覽 進入關懷版