網易首頁 > 網易號 > 正文申請入駐

清華大學等頂尖高校聯手打造"沉浸式世界模擬器"

2026-06-13 14:59:03　來源: 科技行者

天津舉報

分享至

這項由清華大學、華中科技大學、快手科技（旗下Kling團隊）、香港科技大學和武漢大學聯合完成的研究，發表于2026年6月，論文編號為arXiv:2606.07326。有興趣深入了解的讀者可以通過該編號在arXiv平臺查閱完整論文。

當你戴上VR頭顯，在虛擬世界里舉起手臂、轉過身去打量一間陌生的房間，你期待看到什么？你當然希望那個世界像真實的一樣，隨著你的身體動作實時響應——你邁步向前，腳下的地板就應該緩緩逼近；你側過頭，墻角的書柜就該從視野邊緣慢慢滑入畫面。更進一步，如果這個世界里有另一個人正站在你看不見的角落里，你的大腦會下意識預期：等我轉過去，他應該還在那里，而且可能已經從椅子上站了起來，就像現實中的人一樣。

然而，現有的AI視頻生成技術在這件事上長期表現不佳。它們或者只能用鍵盤方向鍵來控制視角移動，或者只能用文字描述來觸發場景變化，根本沒法模擬一個真實的人是如何用整個身體去感知和互動世界的。而且這些系統生成出來的世界，像一塊隨用隨生的泡沫——走到哪，生成到哪，對于那些你還沒走到但理應存在的角落，它完全沒有概念。

這正是AnchorWorld想要解決的核心問題。這套系統的名字里有個"錨"字，恰如其分——它的設計思路就是在虛擬世界里提前打下幾個"錨點"，讓整個世界在你動來動去的時候不至于隨機漂移，而是穩穩扎在那里，等你走過去、看到它時，一切都如你所預期。

一、現有技術卡在哪里？

要理解AnchorWorld的價值，先得弄清楚現有技術踩了哪些坑。

大多數"交互式世界模型"，本質上是一個能接受指令然后生成連續視頻的系統。你給它一張起始圖片，再給它一段指令，它就一幀一幀地往后生成畫面。問題在于，這個"指令"往往非常粗糙——要么是鍵盤上的方向鍵（向前、向后、左轉、右轉），要么是一句文字描述（"往廚房走"）。這類控制方式就像用口頭命令指揮一個不懂空間感的機器人，它能做到大方向正確，但對于身體和環境之間那種復雜的空間關系，它完全抓不住。

更接近真實情況的一些新研究開始引入手部姿態甚至全身動作作為控制信號，這方向是對的。但隨即暴露出另一個問題：第一人稱視頻里大多數時候根本看不到完整的人體！你戴著頭顯向前走，攝像頭拍到的是你面前的世界，你的腿、你的軀干，統統不在畫面里。這就導致AI想從第一人稱視頻里學習"身體動作和視覺畫面之間的關系"，就像只能看到水面波紋卻看不到石頭的學生，要靠水紋推斷投入了多大的石頭——信號太稀疏了，學不扎實。

與此同時，"世界狀態"的問題同樣棘手。現有方法通常只靠一張初始圖和歷史畫面來維持場景的連貫性，走到新地方時那片區域就是憑感覺生成，沒有任何提前約束。這意味著你繞一圈回來，墻上的畫可能換了顏色，房間里的人可能憑空消失。這對真正意義上的世界模擬來說，是不能接受的。

AnchorWorld的設計就是針對這兩個缺口：第一，讓系統更好地理解全身動作和視覺畫面的關系；第二，為世界中的特定位置提前"預設狀態"，讓系統知道那里有什么、會發生什么。

二、第一視角的困境怎么破？混合視角訓練法

AnchorWorld解決第一個問題的方式，有點像培養一個優秀的演員：先在第三人稱視角下大量觀察真實的人體動作，再把這些知識遷移到第一人稱視角。

具體來說，研究團隊采用了一種叫做"混合視角訓練"的策略。系統首先在大量普通第三人稱視頻（也就是傳統的、能看到整個人的那種視頻）上訓練，在這個階段，AI可以清楚地看到整個人體是如何運動的——腳怎么邁、手怎么擺、身體重心如何轉移。更重要的是，它能看到這些動作和周圍環境的關系：這個人走過去，腳踩到了地毯，手伸向了桌子，身體旋轉之后視線落在了窗戶上。

在這個階段，研究團隊用了自家內部整理的20萬條單人動作視頻，加上一個基于虛幻引擎（Unreal Engine）生成的合成數據集MultiCamVideo里的10.1萬條視頻，規模相當可觀。

完成第三人稱階段的訓練之后，系統再遷移到第一人稱視頻的訓練。這時候，AI雖然在屏幕上看不到完整的人體，但它已經在第三人稱階段建立起了"身體動作→視覺變化"的空間映射能力，可以把這套經驗應用到第一人稱場景里——哪怕現在只看得到雙手，它依然能猜到身體其他部分在做什么，并據此生成合理的畫面變化。

這套訓練方法用到的真實第一人稱數據主要來自兩個公開數據集：Ego-Exo4D和LEMMA。這兩個數據集的特別之處在于，它們同時錄制了同一場景的第一人稱和第三人稱畫面，就像電影拍攝時主攝像機和監控攝像機同步錄制一樣。這讓系統可以把"我看到的世界"和"別人看到的我"對應起來學習，彌補了單純用第一人稱數據學習時的信息缺失。

為了描述人體動作，AnchorWorld使用了一個叫SMPL-X的標準人體參數模型，把人體拆解成22個主要關節，每個關節用六個數字描述（三個描述空間位置，三個描述旋轉方向）。之所以不用手部關節，是因為研究團隊發現現有的第一人稱視頻數據集在手部估計上質量不夠可靠——手太常被遮擋或跑出畫面了。

三、身體姿態怎么"注入"到視頻生成里？空間姿態注意力機制

有了人體動作數據，下一步是把它真正地"告訴"AI視頻生成系統。這里有個技術上的精妙設計。

AnchorWorld把視頻生成底層模型選定為Wan（一個基于"流匹配"技術的擴散模型），然后在其中加入了一個叫做"空間姿態注意力"的模塊。這個模塊的工作方式可以理解為：把人體動作信息和攝像機運動信息，在每一幀上都緊挨著視頻畫面的信息擺放，讓三者在同一個"會議室"里同時討論——畫面里的每一塊區域，都能直接參考對應時刻的人體姿態和攝像機角度，從而生成在空間上完全匹配的視覺內容。

更關鍵的設計細節在于：系統用同一套"投影"邏輯來處理第三人稱和第一人稱兩種情況。不管攝像機是架在旁邊看全身，還是就裝在頭頂往前看，系統處理的方式是一樣的——把三維空間里的人體動作，按照當前攝像機的位置和角度，投影到二維畫面上。這樣一來，第三人稱和第一人稱的訓練就可以在同一個框架下進行，知識可以流通。

四、"錨點"是什么？給世界打上坐標的關鍵設計

現在來到AnchorWorld最有特色的部分：錨視圖（Anchor View）系統。

假設你正在體驗一個虛擬客廳場景。客廳里有一個沙發，沙發上坐著一個人。你從廚房走進來，初始視角只看到桌子和電視。那個坐在沙發上的人，此刻完全不在你的視線里。但是當你轉過身走近沙發區域，你當然期望他還在那里。更進一步，如果那個人在你看不見的時候已經從沙發上站起來走向了電視，等你走到那個區域時，你應該看到他已經站著而不是坐著。

傳統系統對這個"期望"完全沒有約束能力，因為沙發區域在你走過去之前根本不存在于任何參考幀里。AnchorWorld的錨點機制就是為了解決這個問題。

一個"錨視圖"由三樣東西組成。第一樣是一張RGB圖片，拍攝的是那個位置的場景——比如沙發區域的照片，照片里有沙發和坐在上面的人。第二樣是這張照片在三維世界坐標系中的位置和角度，用一套六維數字描述（三個數描述位置，三個數描述朝向），專業上叫做6-DoF位姿。第三樣是一段文字描述，告訴系統這個區域會發生什么變化——比如"那個人從沙發上站起來，走向電視"。

系統在工作時，會把這些錨視圖的圖片信息和正在生成的視頻幀信息放在一起，通過特殊的位置編碼（3D RoPE）告訴系統哪些是"錨點畫面"、哪些是"正在生成的當前幀"。同時，每個錨點的三維位姿信息也被注入進去，讓系統知道這些錨點在三維空間中分別位于什么地方，和當前視角的相對位置關系是什么。

至于那段文字描述的"動態變化"，系統通過一種叫做"遮蔽交叉注意力"的方式來處理：每段文字描述只和它對應的那個錨點畫面以及當前生成的視頻幀"對話"，不會干擾其他錨點。這就保證了不同位置的變化可以相互獨立地發生，互不串擾。

五、四個階段循序漸進的訓練流程

AnchorWorld的訓練分四個階段進行，每個階段建立在前一個階段的能力基礎之上，就像蓋樓一樣先打地基再建上層。

第一階段是"第三人稱動作訓練"。系統在大量的第三人稱視頻上，學習全身動作和視覺畫面之間的對應關系，建立基本的投影能力和空間感。這一階段用了30000步訓練，總計消耗600個GPU小時（相當于25張高端顯卡連續運行整整一天）。

第二階段是"第一人稱動作訓練"。系統切換到第一人稱數據，把第一階段學到的空間感遷移到頭戴式視角下，學習第一人稱下的畫面生成規律。這一階段用了15000步訓練和300個GPU小時。

第三階段是"靜態錨視圖定制訓練"。系統學習如何利用提前提供的錨點圖片和位姿，在生成視頻的過程中保持對場景的空間一致性。這一階段重點是"走到哪，錨點所在位置的場景應該是什么樣"這類靜態場景的一致性，同樣是10000步和253個GPU小時。

第四階段是"動態錨視圖演化訓練"。在第三階段的基礎上加入"動態數據"——那些錨視圖里有人在做事情的視頻，加上對應的文字描述。系統學習在保持空間一致性的同時，讓錨點所對應的區域按照文字描述中規定的方式發生變化。同樣是10000步和253個GPU小時，但同時混合了靜態數據和10000條篩選出的動態場景數據。

整個訓練過程均在16塊NVIDIA 80G顯卡上進行，學習率固定為0.0001，使用AdamW優化器。推理時，每次生成77幀的視頻，分辨率為480p，需要50個去噪步驟，引導強度設為5。

六、實驗結果：AnchorWorld在各項測試中表現如何？

研究團隊構建了四套測試集來全面評估AnchorWorld，與多個基線方法進行了比較。

參與比較的基線方法包括PlayerOne（一個專門做第一人稱世界模擬的方法，把人體分部位分別學習控制）、PlayerOne-Scene（PlayerOne加上了AnchorWorld的錨點注入機制）、CaM-UE（在虛幻引擎數據上訓練的場景一致性模型，官方版本），以及CaM-Ego（把CaM模型在第一人稱數據上重新訓練的版本）。

第一套測試是在第一人稱數據源中留出的100個測試序列上，場景是靜態的，主要測動作控制和場景一致性。評估指標涵蓋了很多維度：場景一致性用GIM匹配像素數（像素級匹配程度，數字越高說明生成的畫面和真實畫面越接近）、CLIP-V（語義相似度）、PSNR、SSIM（像素精度）和LPIPS（感知相似度）來衡量；動作控制則通過MegaSaM工具從生成視頻中估計出攝像機軌跡，再和真實軌跡比對來評估。AnchorWorld在全部這些指標上都達到了最優。具體來說，GIM匹配像素數為4493.4，CLIP-V為0.885，PSNR為16.06，SSIM為0.578，LPIPS為0.470，攝像機絕對平移誤差（ATE）為0.112，相對平移誤差（RTE）為0.029，相對旋轉誤差（RRE）為3.145，均好于各基線。

第二套測試是在虛幻引擎生成的CineScene數據集上，涵蓋100個序列，場景依然靜態。這套數據更接近"合成影視場景"風格，視覺質量高、場景變化豐富。由于攝像機內參不一致，這里只評估GIM像素匹配和CLIP-V，以及旋轉誤差RRE。AnchorWorld的GIM達到4555.1，RRE為1.656，是所有方法中旋轉誤差最小的，說明它在大幅視角變化下維持了最好的方向準確性。

第三套測試是動態場景：100個包含明顯人物活動的第一人稱測試序列，除了場景一致性和動作準確度之外，還額外測了文字引導的演化效果，使用的是一個叫VideoAlign-TA的指標（衡量生成視頻和文字描述的語義匹配程度）。AnchorWorld在這里的優勢最為突出：GIM為4634.6，CLIP-V為0.899，PSNR為16.37，SSIM為0.555，LPIPS為0.486，ATE為0.048，RTE為0.013，VideoAlign-TA高達0.717，遠高于第二名CaM-Ego的0.385和PlayerOne-Scene的0.449。這說明AnchorWorld在"按照文字描述讓場景中的人物做出對應變化"這件事上，有了質的提升。

視覺化的對比同樣鮮明。在對照圖中，PlayerOne生成的畫面里，人物動作常常不準確，比如文字要求往左走，結果畫面里的人可能往右偏；CaM-Ego只能控制視角，沒法控制身體動作；PlayerOne-Scene雖然加入了錨點，但由于動作控制本身不夠精準，場景一致性也打了折扣。AnchorWorld的結果則在動作準確性和場景穩定性兩方面同時保持了最高水準。

七、視野外的世界，AI也能推算出來嗎？

AnchorWorld最令人印象深刻的能力驗證之一，是對"視野之外場景演化"的處理。

研究團隊設計了這樣一組測試：錨視圖里有一個人，他一開始不在玩家的視野范圍內，只有當玩家進行了某個方向的轉頭動作之后才會出現在畫面里。文字描述設定他"從沙發上站起來"。

關鍵是：玩家什么時候轉頭，會看到他處于什么狀態？如果早點轉頭（比如在第25幀），那個人應該還坐著或者剛開始起身；如果晚點轉頭（比如在第60幀），那個人應該已經站起來了。這不是簡單的"等你看他，他才開始行動"，而是整個世界在持續流動，錨點所在區域的時間狀態要和視頻的整體時間進度保持一致。

實驗結果顯示，AnchorWorld確實做到了這一點——改變玩家的轉頭時機（通過修改人體動作序列來實現），生成的視頻里那個人物所處的狀態就會相應變化，早看到他還坐著，晚看到他已經站起來。這意味著系統在生成視頻時，內部維持著一個對整個世界狀態隨時間演化的推斷，而不只是被動地"看到什么生成什么"。

八、翻轉世界來測空間感

另一個有趣的測試叫做"空間位姿感知測試"。研究團隊把人體姿態和錨點位姿同時做了水平翻轉（就像照鏡子一樣），但保持錨點圖片本身不變。

當翻轉后的位姿導致人的行走方向和錨點位置"出現視野重疊"時，生成的視頻會自然地包含錨點圖片里的場景細節；當翻轉后導致二者"視野不重疊"時，生成的視頻里就不會出現那些細節，而是自然地生成另一側的場景內容。

這說明系統真的在用空間位姿來判斷"我走到哪里、能看到什么"，而不是簡單地把錨點圖片內容粘貼進去。

九、有哪些做不好的地方？

研究團隊對于系統的局限性保持了坦率的態度。

現階段AnchorWorld只能處理較短的視頻片段（77幀），對于長時間的世界探索還無法支持。長時間的探索需要更強的"長期記憶機制"，讓系統能記住很久以前走過的地方是什么樣的，這在技術上還有待突破。

訓練數據的覆蓋范圍也限制了系統的泛化能力。目前的訓練數據主要集中在少數幾種室內場景，對于戶外、大型開放空間等情況，泛化效果不可預知。

動態場景的多樣性同樣受限。由于第一人稱數據集通常只從固定幾個第三人稱視角來錄制同一段活動，文字描述只能做到對所有錨點用同一段描述（不能讓不同錨點演化出不同的故事），而且主要集中于人物活動，環境中的自然動態（比如窗外飄落的樹葉、窗簾被風吹動）還沒有被納入訓練。

技術細節上，系統使用的VAE（一種把圖像壓縮成內部表示的工具）的空間壓縮比例是16倍，這導致精細紋理信息會有一定損失——比如自行車輻條、書架上的文字等細密結構，在生成視頻中可能保持不夠精準。快速頭部轉動時畫面模糊的問題，也是因為訓練數據里本身就有大量運動模糊幀，系統不可避免地學到了這種模式。

歸根結底，AnchorWorld是一套在有限資源和有限數據下，盡可能把"具身世界模擬"這件事做得更完整、更可控的嘗試。它的核心貢獻在于提出了一套可行的架構，把"人體動作控制"和"世界狀態定制"這兩條線同時納入一個統一框架，并通過扎實的實驗證明了這條路確實走得通。對于正在研究虛擬現實、具身智能和視頻生成的研究者來說，這套思路提供了相當清晰的參考。而對于未來有一天真正走進那個AI構建的沉浸式世界的普通用戶來說，這項工作讓那個世界又往"活得像真的"這個目標近了一步。

有興趣進一步探索的讀者可以通過arXiv:2606.07326查閱完整論文。一個值得繼續追問的問題是：當AI能夠持續、穩定地模擬一個"活的世界"，而不只是生成幾秒鐘的短片段時，我們是否就走到了虛擬與現實難以分辨的邊界？那個邊界，可能比我們以為的要近得多。

Q&A

Q1：AnchorWorld是什么技術，和普通的AI視頻生成有什么區別？

A：AnchorWorld是一套專門用于第一人稱視角世界模擬的框架。普通AI視頻生成只是根據文字或圖片生成一段視頻，而AnchorWorld可以接受完整的人體三維動作作為控制信號，同時在世界中預設"錨點"——提前指定某個位置的場景內容和變化規律。當用戶的視角轉過去時，那個位置會按照預設的內容和演化規律呈現，而不是隨機生成。

Q2：AnchorWorld的"錨點"訓練數據從哪里來，普通的視頻能不能用？

A：錨點數據主要來自Ego-Exo4D和LEMMA兩個數據集，這兩個數據集的特點是同時錄制了同一場景的第一人稱和多個第三人稱畫面，可以讓系統把不同視角的內容對應起來學習。普通的單視角視頻缺乏這種同步的多視角配對，無法直接用于錨點系統的訓練。文字演化描述則由Qwen3-VL-32B-Instruct大語言模型自動標注生成。

Q3：AnchorWorld可以用來做什么實際應用？

A：短期來看，AnchorWorld對VR體驗制作、具身AI訓練環境構建和影視預覽制作有直接價值——可以在不真實拍攝的情況下，生成有完整人物動作和穩定場景的第一人稱視頻。長期來看，如果這套技術進一步發展到支持長時間實時交互，它將是構建沉浸式虛擬現實世界和訓練智能機器人的重要基礎工具。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.