網易首頁 > 網易號 > 正文申請入駐

北交大 x 小米 EV 團隊：一次關于世界模型「靠不靠譜」的系統復盤

2025-12-26 12:22:12　來源: AI科技評論

廣東舉報

分享至

當世界模型服務于系統整體而非單一任務時，其價值才得以體現。

作者丨鄭佳美

編輯丨岑峰

在自動駕駛研究不斷向世界模型演進的過程中，一個長期被回避卻無法忽視的問題正逐漸凸顯：模型在論文中的性能提升，是否真的對應著系統在真實駕駛環境中的魯棒性提升?

過去數年中，大量工作通過更復雜的生成結構、更精細的預測目標和更先進的訓練策略，使世界模型在視覺預測與場景生成指標上取得了顯著進展。然而，在工程實踐中，這些看起來 reminder 的模型，往往并不能穩定支撐長期決策、復雜交互和安全約束并存的真實駕駛系統。

問題并不完全出在模型本身，而更深層地指向了實驗范式與評測目標的錯位：我們究竟在通過實驗驗證什么？是模型是否預測得更像，還是系統是否運行得更穩？在缺乏統一任務定義、系統級閉環驗證和可信評測標準的前提下，世界模型的能力邊界正在被系統性高估。

正是在這一背景下，北京交通大學研究團隊聯合小米汽車自動駕駛與具身智能算法團隊，在論文《Progressive Robustness-Aware World Models in Autonomous Driving: A Review and Outlook》中，對自動駕駛世界模型進行了不同于傳統綜述的系統性審視。

這項工作并未提出新的模型或算法，而是基于大量已有實驗結果，重構了一套以魯棒性為核心變量的分析框架，從生成評測、結構化空間建模、規劃驗證到系統級閉環行為，逐層揭示了當前世界模型研究中被忽視的關鍵斷層，并明確指出哪些結論是被實驗真正支持的，哪些則仍停留在指標幻覺之中。

01
基于既有實驗結果的系統性觀察

如果將這篇論文視作一次嚴格意義上的實驗研究，那么它的實驗結果并不是某個模型在某個指標上的提升，而是一組關于整個自動駕駛世界模型研究方向有效性與局限性的實證性結論。這些結論來自對大量已有實驗結果的系統重組，而非主觀推斷。

首先，在最基礎的層面，論文通過對近年來生成式世界模型實驗結果的系統梳理，確認了一個表面上樂觀、但內在矛盾的事實：自動駕駛世界模型在視覺預測、場景生成等任務上的定量指標確實在持續進步，但這種進步并未線性轉化為對駕駛安全或系統穩定性的可靠提升。

具體來說，圖像與視頻預測類實驗顯示，多數方法在諸如 FID、FVD 這類統計分布相似性指標上已經達到了相當成熟的水平。一些模型生成的未來幀在視覺質量上甚至難以與真實數據區分。這一實驗現象在不同論文、不同數據集上反復出現，因此并非偶然。然而，當這些結果被進一步放置到時間序列維度進行審視時，問題開始顯現。

實驗結果顯示，許多模型在短期預測窗口內表現穩定，但隨著預測時間延長，場景結構、目標位置和運動軌跡逐漸偏離合理范圍。這種偏離往往不會在傳統生成指標中被顯式懲罰，卻在真實駕駛中對應著潛在的碰撞風險、規則違反或不可恢復的系統失效。

這一實驗現象本身構成了論文的第一個關鍵結論：當前主流生成評測體系無法充分刻畫自動駕駛所需的魯棒性維度。

其次，當論文將分析重心轉向點云與 Occupancy 表征相關實驗結果時，出現了明顯不同的趨勢。基于三維或四維空間表征的世界模型，在多個實驗設置中表現出更強的一致性和穩定性。

無論是在空間重建精度，還是在為規劃模塊提供狀態輸入時，這類方法在多項公開基準上都展現出相對更可靠的性能。這種優勢并非來源于單一指標的極致優化，而是體現在多指標、多任務條件下的整體穩定性。

通過對比這些實驗結果，論文實際上確認了第二個重要事實：魯棒性更容易從結構化空間建模中涌現，而非從純粹的感知級生成中涌現。

在規劃相關實驗中，論文進一步通過區分開環與閉環評測，揭示了世界模型能力評估中的一個長期混淆點。在開環規劃實驗中，即僅評估模型在給定歷史條件下預測未來狀態的能力時，多項實驗結果顯示，世界模型在軌跡預測質量、環境理解一致性等方面已經接近甚至匹配部分強端到端系統。這說明，從世界演化建模的角度看，世界模型已經具備相當程度的表達能力。

然而，當這些模型被嵌入閉環系統，在真實的決策鏈條中承擔連續規劃與控制職責時，它的能力邊界便開始暴露。

系統不同于更為理想化的開環評測，它引入了反饋機制，模型的輸出會直接影響環境狀態，并作為新的輸入重新回到系統之中，小幅的感知與預測偏差會在這種反饋中逐步累積與放大。

例如在 Bench2Drive 等閉環測評中，只有依賴專家信息的 Think2Drive 能夠將綜合駕駛得分提升至92分左右，而不使用專家信息的 Raw2Drive 得分僅為71分，多數使用世界模型方法的駕駛得分集中在40-60分之間，并伴隨成功率與碰撞率的顯著差異。

也正因如此，可以觀察到一種穩定存在的能力斷層：在開環指標上表現優秀的模型，并不必然在閉環仿真乃至真實系統中展現出同等水平的安全性與穩定性。

由此可見，開環和閉環系統并非簡單的替代關系，而應被視作是互補的兩個層級，即開環主要用于驗證表示與預測的認知正確性，而閉環則用于檢驗長期交互中的行為穩健性。

或許未來的關鍵方向，不僅在于繼續提升開環的預測精度，更在于能夠構建一個能夠有效銜接開環和閉環系統的訓練體系，進而真正支撐系統及魯棒性自動駕駛的實現。

由此，論文在實驗層面確認了第三個關鍵結論：開環性能并不能可靠預測閉環系統的安全性與穩定性。

在更高層級的實驗歸納中，論文還總結了一系列系統性證據，表明世界模型在某些條件下確實能夠為自動駕駛系統帶來實質性收益。這些證據并不集中于單一指標，而體現在可控生成、零樣本泛化、跨任務遷移以及人類主觀評估等多個實驗維度上。

這些實驗結果共同指向一個結論：當世界模型被用于增強系統整體能力，而非單一任務性能時，其價值才開始顯現。

02
非傳統實驗范式的建立

理解這篇論文的實驗過程，關鍵在于認識到它采用的并非傳統意義上的“訓練—測試”實驗范式，而是一種跨研究工作的實驗重構方法。作者并沒有新增模型或數據，而是通過重新組織已有實驗結果，構建了一套用于檢驗研究方向本身的實驗邏輯。

在實驗的第一階段，作者關注的并不是模型能力，而是評測工具本身。他們系統梳理了自動駕駛世界模型領域常用的數據集、仿真平臺與評價指標，并分析這些工具在多大程度上能夠反映真實駕駛需求。通過對比不同論文的實驗設置，作者發現：即使研究目標相似，不同工作之間的評測方式也往往高度異質。這種異質性使得實驗結果難以直接比較，也使得“性能提升”這一結論本身變得不穩定。

這一階段的實驗分析實際上是在對整個領域的實驗基礎設施進行審視，其隱含問題是：如果評測方式本身存在系統性盲區，那么基于這些評測得出的結論是否可靠？

在第二階段，作者將實驗分析的重點從評測工具轉向系統行為。他們不再試圖回答“哪個模型更好”，而是試圖回答“哪些實驗結果在系統層面仍然成立”。為此，論文系統整理了涉及可控生成、零樣本泛化和跨任務遷移的實驗工作。這些實驗往往難以嚴格控制變量，但正因如此，更接近真實工程環境。

通過比較這些實驗結果，作者發現：某些在單一任務中并不占優的方法，在系統級實驗中反而表現出更高的穩定性；而一些在生成指標上表現突出的模型，在系統集成后卻難以維持性能。這種反差本身構成了一種實驗發現，迫使研究者重新思考性能評估的目標。

至于第三階段，論文并未給出完整實驗結果，而是明確指出當前實驗體系的缺失。這并非實驗不足，而是作者基于前兩階段實驗分析后得出的理性判斷：在缺乏統一任務定義、可解釋性評測和可信閉環仿真之前，任何關于“開放世界魯棒性”的結論都缺乏實驗支撐。

03
重新定義「值得被驗證」的實驗目標

從實驗意義上看，這篇論文的價值并不在于它總結了多少工作，而在于它通過實驗性分析改變了“什么值得被實驗驗證”的標準。

首先，它在實驗層面否定了一種隱含但普遍存在的假設，即認為只要生成或預測性能不斷提升，系統魯棒性就會自然改善。通過對大量實驗結果的系統分析，論文清楚地表明，這種假設在自動駕駛場景下并不成立。魯棒性并不會自動從局部性能優化中涌現。

其次，這篇論文通過實驗拆解，強調了系統級評測的重要性。它表明，真正有意義的實驗不應只關注模型在孤立任務中的表現，而應關注模型在復雜系統中的行為。這一觀點對研究范式具有直接約束力：它要求研究者在設計實驗時，必須明確自己所驗證的魯棒性層級。

更深層的意義在于，這篇論文將自動駕駛世界模型的研究問題，從“模型是否足夠強”轉變為“實驗是否足夠真實”。這意味著，未來的關鍵突破不一定來自更復雜的網絡結構，而可能來自更合理的實驗設計與評測體系。

04
一支把魯棒性「講透」的團隊

賈飛陽為本文第一作者，現為北京交通大學計算機科學與技術專業博士研究生，研究方向包括自動駕駛三維目標檢測、端到端自動駕駛以及自動駕駛世界模型等。

賈彩燕為本文通訊作者之一，現任北京交通大學計算機與信息技術學院教授，并擔任交通數據分析與挖掘北京市重點實驗室副主任。其主要研究方向包括機器學習模型（尤其是圖神經網絡）、虛假信息檢測、大模型生成內容檢測與可信計算、推薦算法，以及自動駕駛場景下的多模態融合目標檢測與大模型泛化研究等。

近年來已在國內外學術期刊和國際會議上發表論文80余篇，主持國家自然科學基金面上項目兩項、國家自然科學基金青年基金項目一項，并主持國家重點研發計劃“新一代人工智能”專項子課題一項。

論文地址：

https://doi.org/10.36227/techrxiv.176523308.84756413/v1

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.