![]()
讓靜態(tài)的圖片變成三維物體并動(dòng)起來已經(jīng)不算新鮮,但如果讓圖片不僅動(dòng)起來,還能完美遵循現(xiàn)實(shí)世界的物理規(guī)律(比如蛋糕的Q彈、沙堆的散落、石雕的堅(jiān)硬)呢?
以往,為了讓模型懂“物理”,研究者們往往需要耗費(fèi)數(shù)小時(shí)進(jìn)行緩慢的逐場(chǎng)景優(yōu)化。而現(xiàn)在,來自北京理工大學(xué)和理想汽車等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新框架PhysGM,只需輸入單張圖片,1分鐘內(nèi)即可生成高保真、高物理真實(shí)性的4D動(dòng)態(tài)視頻!
徹底告別耗時(shí)的SDS(分?jǐn)?shù)蒸餾采樣),PhysGM 巧妙地將大語(yǔ)言模型中廣泛使用的DPO(直接偏好優(yōu)化)引入基于物理仿真的重建生成領(lǐng)域,實(shí)現(xiàn)了端到端的快速前饋推理。
![]()
目前,該工作已被計(jì)算機(jī)視覺頂會(huì)CVPR 2026接收,相關(guān)代碼已開源:
- 論文鏈接:https://arxiv.org/abs/2508.13911
- 項(xiàng)目主頁(yè):https://github.com/Hihixiaolv/PhysGM
- 代碼開源:https://hihixiaolv.github.io/PhysGM.github.io/
效果驚艷:
蛋糕、石頭、沙堆,萬(wàn)物皆可“物理模擬”
廢話不多說,先看效果。
給模型喂一張蛋糕的靜態(tài)圖片,PhysGM 不僅在幾秒內(nèi)重建了它的3D高斯表示,還能立刻推斷出它的物理材料、楊氏模量和泊松比。經(jīng)過極短時(shí)間的MPM(物質(zhì)點(diǎn)法)物理引擎仿真,一個(gè)栩栩如生、掉落在地Q彈十足的蛋糕就誕生了:
![]()
換成石頭、沙子、陶瓷或橡膠等各種不同材料,PhysGM 同樣能精準(zhǔn)拿捏不同材質(zhì)的物理特性。石頭砸下的堅(jiān)硬、沙堆落地的崩散和橡膠落地的形變,全都在1分鐘內(nèi)一氣呵成:
![]()
同時(shí)PhysGM還支持多物體,帶背景的照片和不同受力場(chǎng)景的仿真生成:
![]()
相比于目前主流的優(yōu)化型基線模型(如 OmniPhysGS, DreamPhysics),PhysGM除了在速度上全面碾壓,在各個(gè)評(píng)價(jià)指標(biāo)上也都實(shí)現(xiàn)了超越。
![]()
痛點(diǎn)與破局:
為什么我們要拋棄“逐場(chǎng)景優(yōu)化”?
近年來,基于 3D Gaussian Splatting (3DGS) 的靜態(tài)場(chǎng)景生成取得了巨大進(jìn)展。但到了4D(動(dòng)態(tài))特別是包含復(fù)雜物理交互的生成時(shí),目前的范式遇到了巨大的瓶頸:太慢了!
現(xiàn)有的方法通常嚴(yán)重依賴預(yù)先重建的3DGS,然后利用視頻生成模型的先驗(yàn)知識(shí),通過 SDS梯度回傳到可微物理引擎中,對(duì)材質(zhì)屬性進(jìn)行數(shù)百上千次的迭代優(yōu)化。這導(dǎo)致生成一個(gè)物理場(chǎng)景往往需要數(shù)十分鐘甚至十幾個(gè)小時(shí)!此外,簡(jiǎn)單地將3DGS與物理模塊拼接,往往會(huì)忽略圖像本身包含的豐富物理線索。
為了打破這個(gè)計(jì)算瓶頸,北理工與理想汽車的團(tuán)隊(duì)提出了一個(gè)靈魂拷問:我們能不能像人眼一樣,看一眼圖片,就直接“前饋”出它的3DGS表示和物理屬性?PhysGM應(yīng)運(yùn)而生:
![]()
PhysGM 的核心架構(gòu)是一個(gè)基于 Transformer 的強(qiáng)大網(wǎng)絡(luò),它巧妙地設(shè)計(jì)了兩個(gè)并行的 Decoder:
DPT Head:負(fù)責(zé)預(yù)測(cè)初始的 3D Gaussian 場(chǎng)景參數(shù)(幾何與外觀)。
Physics Head:負(fù)責(zé)預(yù)測(cè)物體物理屬性(物體、材料楊氏模量、泊松比)的概率分布。
在獲得這些參數(shù)后,只需不到3秒,系統(tǒng)就會(huì)將它們輸入到 MPM(物質(zhì)點(diǎn)法)模擬器中,直接渲染出最終的動(dòng)態(tài)視頻。
核心創(chuàng)新:
物理生成界的“RLHF”,引入DPO對(duì)齊物理直覺
為了讓模型不僅“懂物理”,而且生成的動(dòng)態(tài)效果符合人類的視覺直覺,研究團(tuán)隊(duì)提出了一個(gè)新穎的兩階段訓(xùn)練范式。
第一階段(大規(guī)模監(jiān)督預(yù)訓(xùn)練):模型在海量數(shù)據(jù)上聯(lián)合預(yù)測(cè) 3DGS 和物理參數(shù),建立起強(qiáng)大的生成先驗(yàn),徹底擺脫了對(duì)多視角圖像預(yù)重建的依賴。
第二階段(基于 DPO 的偏好微調(diào)):這是整個(gè)工作最亮眼的設(shè)計(jì)之一。在缺乏可微物理引擎支持的情況下,如何進(jìn)一步提升視頻質(zhì)量?團(tuán)隊(duì)使用了強(qiáng)化學(xué)習(xí)的方法——直接偏好優(yōu)化 (DPO)。
系統(tǒng)會(huì)從模型預(yù)測(cè)的概率分布中采樣出不同的物理參數(shù),并在MPM中進(jìn)行模擬渲染。然后,利用 SAM-2 和 CoTracker-3 提取軌跡并與真實(shí)物理視頻計(jì)算感知距離。距離小的被標(biāo)記為“Winner”,距離大的標(biāo)記為“Loser”。通過這種不需要物理引擎可微的偏好驅(qū)動(dòng)訓(xùn)練,PhysGM 被引導(dǎo)向生成更加具有物理合理性和時(shí)間連貫性的視頻序列。
![]()
基礎(chǔ)設(shè)施:
構(gòu)建5萬(wàn)規(guī)模的 PhysAssets 數(shù)據(jù)集
巧婦難為無(wú)米之炊。為了支撐前饋模型的訓(xùn)練,當(dāng)前社區(qū)極度缺乏同時(shí)包含“3D資產(chǎn) + 物理屬性標(biāo)注”的大規(guī)模數(shù)據(jù)集。
為此,研究團(tuán)隊(duì)還制作了相應(yīng)的PhysAssets數(shù)據(jù)集。
他們整合了 Objaverse, OmniObject3D, HSSD等數(shù)據(jù)集,利用多模態(tài)大模型 Qwen3-VL 進(jìn)行精準(zhǔn)的材質(zhì)分類,并通過預(yù)定義的物理描述(楊氏模量/泊松比)匹配參數(shù)。最終,使用基于物理的仿真框架生成了超過50,000個(gè)高質(zhì)量的“物體-物理參數(shù)”對(duì),并有一部分含有對(duì)應(yīng)參考視頻的子集,為該領(lǐng)域的未來研究提供了寶貴的“燃料”。
壓倒性的性能優(yōu)勢(shì):
從12小時(shí)到不到1分鐘
在定性和定量的對(duì)比中,PhysGM 展現(xiàn)出了驚人的優(yōu)勢(shì)。
在面對(duì)5種不同材質(zhì)的測(cè)試中,無(wú)論是在CLIPsim(視覺與文本物理描述語(yǔ)義一致性)還是UPR(用戶偏好率)指標(biāo)上,PhysGM 均大幅領(lǐng)先現(xiàn)有的 SDS-based 方法。
更夸張的是在做到泛化性和效果驚艷的同時(shí)還有計(jì)算成本的降低。對(duì)比此前的 SOTA 方法:
- OmniPhysGS:生成時(shí)間 >12 小時(shí)
- DreamPhysics:生成時(shí)間 >0.5 小時(shí)
- PhysGM:生成時(shí)間 < 1 分鐘!
這種質(zhì)的飛躍,真正讓物理驅(qū)動(dòng)的 4D 生成具備了走向大規(guī)模實(shí)際應(yīng)用(如具身智能體、自動(dòng)駕駛仿真、交互式VR)的可能。
總結(jié)
PhysGM 是首個(gè)能夠在極短時(shí)間(單次前饋+模擬)內(nèi)從稀疏輸入中生成帶物理規(guī)律4D動(dòng)態(tài)場(chǎng)景的框架。它不僅解決了物理生成的效率瓶頸,更開拓了一條利用大規(guī)模數(shù)據(jù)集和 DPO 對(duì)齊技術(shù)進(jìn)行 3D/4D 物理學(xué)習(xí)的新路徑。
隨著模型在端到端生成和物理保真度上的不斷突破,我們有理由相信,未來的虛擬世界將不再只是看起來真實(shí),而是“動(dòng)”起來和真實(shí)世界一模一樣”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.