无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

北交大 x 小米 EV 團隊:一次關于世界模型「靠不靠譜」的系統復盤

0
分享至


當世界模型服務于系統整體而非單一任務時,其價值才得以體現。

作者丨鄭佳美

編輯丨岑峰

在自動駕駛研究不斷向世界模型演進的過程中,一個長期被回避卻無法忽視的問題正逐漸凸顯:模型在論文中的性能提升,是否真的對應著系統在真實駕駛環境中的魯棒性提升?

過去數年中,大量工作通過更復雜的生成結構、更精細的預測目標和更先進的訓練策略,使世界模型在視覺預測與場景生成指標上取得了顯著進展。然而,在工程實踐中,這些看起來 reminder 的模型,往往并不能穩定支撐長期決策、復雜交互和安全約束并存的真實駕駛系統。

問題并不完全出在模型本身,而更深層地指向了實驗范式與評測目標的錯位:我們究竟在通過實驗驗證什么?是模型是否預測得更像,還是系統是否運行得更穩?在缺乏統一任務定義、系統級閉環驗證和可信評測標準的前提下,世界模型的能力邊界正在被系統性高估。

正是在這一背景下,北京交通大學研究團隊聯合小米汽車自動駕駛與具身智能算法團隊,在論文《Progressive Robustness-Aware World Models in Autonomous Driving: A Review and Outlook》中,對自動駕駛世界模型進行了不同于傳統綜述的系統性審視。

這項工作并未提出新的模型或算法,而是基于大量已有實驗結果,重構了一套以魯棒性為核心變量的分析框架,從生成評測、結構化空間建模、規劃驗證到系統級閉環行為,逐層揭示了當前世界模型研究中被忽視的關鍵斷層,并明確指出哪些結論是被實驗真正支持的,哪些則仍停留在指標幻覺之中。


01
基于既有實驗結果的系統性觀察

如果將這篇論文視作一次嚴格意義上的實驗研究,那么它的實驗結果并不是某個模型在某個指標上的提升,而是一組關于整個自動駕駛世界模型研究方向有效性與局限性的實證性結論。這些結論來自對大量已有實驗結果的系統重組,而非主觀推斷。


首先,在最基礎的層面,論文通過對近年來生成式世界模型實驗結果的系統梳理,確認了一個表面上樂觀、但內在矛盾的事實:自動駕駛世界模型在視覺預測、場景生成等任務上的定量指標確實在持續進步,但這種進步并未線性轉化為對駕駛安全或系統穩定性的可靠提升。

具體來說,圖像與視頻預測類實驗顯示,多數方法在諸如 FID、FVD 這類統計分布相似性指標上已經達到了相當成熟的水平。一些模型生成的未來幀在視覺質量上甚至難以與真實數據區分。這一實驗現象在不同論文、不同數據集上反復出現,因此并非偶然。然而,當這些結果被進一步放置到時間序列維度進行審視時,問題開始顯現。

實驗結果顯示,許多模型在短期預測窗口內表現穩定,但隨著預測時間延長,場景結構、目標位置和運動軌跡逐漸偏離合理范圍。這種偏離往往不會在傳統生成指標中被顯式懲罰,卻在真實駕駛中對應著潛在的碰撞風險、規則違反或不可恢復的系統失效。

這一實驗現象本身構成了論文的第一個關鍵結論:當前主流生成評測體系無法充分刻畫自動駕駛所需的魯棒性維度。


其次,當論文將分析重心轉向點云與 Occupancy 表征相關實驗結果時,出現了明顯不同的趨勢。基于三維或四維空間表征的世界模型,在多個實驗設置中表現出更強的一致性和穩定性。


無論是在空間重建精度,還是在為規劃模塊提供狀態輸入時,這類方法在多項公開基準上都展現出相對更可靠的性能。這種優勢并非來源于單一指標的極致優化,而是體現在多指標、多任務條件下的整體穩定性。


通過對比這些實驗結果,論文實際上確認了第二個重要事實:魯棒性更容易從結構化空間建模中涌現,而非從純粹的感知級生成中涌現。


在規劃相關實驗中,論文進一步通過區分開環與閉環評測,揭示了世界模型能力評估中的一個長期混淆點。在開環規劃實驗中,即僅評估模型在給定歷史條件下預測未來狀態的能力時,多項實驗結果顯示,世界模型在軌跡預測質量、環境理解一致性等方面已經接近甚至匹配部分強端到端系統。這說明,從世界演化建模的角度看,世界模型已經具備相當程度的表達能力。


然而,當這些模型被嵌入閉環系統,在真實的決策鏈條中承擔連續規劃與控制職責時,它的能力邊界便開始暴露。

系統不同于更為理想化的開環評測,它引入了反饋機制,模型的輸出會直接影響環境狀態,并作為新的輸入重新回到系統之中,小幅的感知與預測偏差會在這種反饋中逐步累積與放大。

例如在 Bench2Drive 等閉環測評中,只有依賴專家信息的 Think2Drive 能夠將綜合駕駛得分提升至92分左右,而不使用專家信息的 Raw2Drive 得分僅為71分,多數使用世界模型方法的駕駛得分集中在40-60分之間,并伴隨成功率與碰撞率的顯著差異。

也正因如此,可以觀察到一種穩定存在的能力斷層:在開環指標上表現優秀的模型,并不必然在閉環仿真乃至真實系統中展現出同等水平的安全性與穩定性。

由此可見,開環和閉環系統并非簡單的替代關系,而應被視作是互補的兩個層級,即開環主要用于驗證表示與預測的認知正確性,而閉環則用于檢驗長期交互中的行為穩健性。

或許未來的關鍵方向,不僅在于繼續提升開環的預測精度,更在于能夠構建一個能夠有效銜接開環和閉環系統的訓練體系,進而真正支撐系統及魯棒性自動駕駛的實現。

由此,論文在實驗層面確認了第三個關鍵結論:開環性能并不能可靠預測閉環系統的安全性與穩定性。


在更高層級的實驗歸納中,論文還總結了一系列系統性證據,表明世界模型在某些條件下確實能夠為自動駕駛系統帶來實質性收益。這些證據并不集中于單一指標,而體現在可控生成、零樣本泛化、跨任務遷移以及人類主觀評估等多個實驗維度上。

這些實驗結果共同指向一個結論:當世界模型被用于增強系統整體能力,而非單一任務性能時,其價值才開始顯現。


02
非傳統實驗范式的建立

理解這篇論文的實驗過程,關鍵在于認識到它采用的并非傳統意義上的“訓練—測試”實驗范式,而是一種跨研究工作的實驗重構方法。作者并沒有新增模型或數據,而是通過重新組織已有實驗結果,構建了一套用于檢驗研究方向本身的實驗邏輯。

在實驗的第一階段,作者關注的并不是模型能力,而是評測工具本身。他們系統梳理了自動駕駛世界模型領域常用的數據集、仿真平臺與評價指標,并分析這些工具在多大程度上能夠反映真實駕駛需求。通過對比不同論文的實驗設置,作者發現:即使研究目標相似,不同工作之間的評測方式也往往高度異質。這種異質性使得實驗結果難以直接比較,也使得“性能提升”這一結論本身變得不穩定。

這一階段的實驗分析實際上是在對整個領域的實驗基礎設施進行審視,其隱含問題是:如果評測方式本身存在系統性盲區,那么基于這些評測得出的結論是否可靠?

在第二階段,作者將實驗分析的重點從評測工具轉向系統行為。他們不再試圖回答“哪個模型更好”,而是試圖回答“哪些實驗結果在系統層面仍然成立”。為此,論文系統整理了涉及可控生成、零樣本泛化和跨任務遷移的實驗工作。這些實驗往往難以嚴格控制變量,但正因如此,更接近真實工程環境。

通過比較這些實驗結果,作者發現:某些在單一任務中并不占優的方法,在系統級實驗中反而表現出更高的穩定性;而一些在生成指標上表現突出的模型,在系統集成后卻難以維持性能。這種反差本身構成了一種實驗發現,迫使研究者重新思考性能評估的目標。

至于第三階段,論文并未給出完整實驗結果,而是明確指出當前實驗體系的缺失。這并非實驗不足,而是作者基于前兩階段實驗分析后得出的理性判斷:在缺乏統一任務定義、可解釋性評測和可信閉環仿真之前,任何關于“開放世界魯棒性”的結論都缺乏實驗支撐。


03
重新定義「值得被驗證」的實驗目標

從實驗意義上看,這篇論文的價值并不在于它總結了多少工作,而在于它通過實驗性分析改變了“什么值得被實驗驗證”的標準。

首先,它在實驗層面否定了一種隱含但普遍存在的假設,即認為只要生成或預測性能不斷提升,系統魯棒性就會自然改善。通過對大量實驗結果的系統分析,論文清楚地表明,這種假設在自動駕駛場景下并不成立。魯棒性并不會自動從局部性能優化中涌現。

其次,這篇論文通過實驗拆解,強調了系統級評測的重要性。它表明,真正有意義的實驗不應只關注模型在孤立任務中的表現,而應關注模型在復雜系統中的行為。這一觀點對研究范式具有直接約束力:它要求研究者在設計實驗時,必須明確自己所驗證的魯棒性層級。

更深層的意義在于,這篇論文將自動駕駛世界模型的研究問題,從“模型是否足夠強”轉變為“實驗是否足夠真實”。這意味著,未來的關鍵突破不一定來自更復雜的網絡結構,而可能來自更合理的實驗設計與評測體系。

04
一支把魯棒性「講透」的團隊

賈飛陽為本文第一作者,現為北京交通大學計算機科學與技術專業博士研究生,研究方向包括自動駕駛三維目標檢測、端到端自動駕駛以及自動駕駛世界模型等。

賈彩燕為本文通訊作者之一,現任北京交通大學計算機與信息技術學院教授,并擔任交通數據分析與挖掘北京市重點實驗室副主任。其主要研究方向包括機器學習模型(尤其是圖神經網絡)、虛假信息檢測、大模型生成內容檢測與可信計算、推薦算法,以及自動駕駛場景下的多模態融合目標檢測與大模型泛化研究等。

近年來已在國內外學術期刊和國際會議上發表論文80余篇,主持國家自然科學基金面上項目兩項、國家自然科學基金青年基金項目一項,并主持國家重點研發計劃“新一代人工智能”專項子課題一項。

論文地址:

https://doi.org/10.36227/techrxiv.176523308.84756413/v1

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
比利時女足球博主見偶像C羅激動落淚,獲安慰并合影留念

比利時女足球博主見偶像C羅激動落淚,獲安慰并合影留念

懂球帝
2026-06-13 22:43:16
美伊就協議文本達成一致,伊朗外長:第一階段將遠程電子簽署

美伊就協議文本達成一致,伊朗外長:第一階段將遠程電子簽署

鳳凰衛視
2026-06-13 09:53:04
追隨瓦良格來華的蘇聯航母設計師,如今過得怎樣?

追隨瓦良格來華的蘇聯航母設計師,如今過得怎樣?

阿器談史
2026-06-05 04:41:04
南昌女孩缺考越扒越有!班級前2能上985,老師犀利嘲諷,家長發聲

南昌女孩缺考越扒越有!班級前2能上985,老師犀利嘲諷,家長發聲

奇思妙想草葉君
2026-06-10 18:02:07
異性對接吻一定要慎重,一旦“接吻”了,關系就會發生重大變化!

異性對接吻一定要慎重,一旦“接吻”了,關系就會發生重大變化!

皓皓情感說
2026-05-15 12:29:38
寧波軌道交通集團董事、副董事長?...

寧波軌道交通集團董事、副董事長?...

新浪財經
2026-06-13 11:28:54
嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

夢想總會變成真
2026-04-23 01:11:47
趕緊扔掉!這幾樣日用品或是致癌元兇!家家都有,很多人還天天用

趕緊扔掉!這幾樣日用品或是致癌元兇!家家都有,很多人還天天用

三農老歷
2026-06-06 21:13:06
《知否》告訴我們:在任何關系里,如果感受不到尊重,不要去溝通,也不要去交流,更不要生氣和難過,你的善良很貴不要逢人就給

《知否》告訴我們:在任何關系里,如果感受不到尊重,不要去溝通,也不要去交流,更不要生氣和難過,你的善良很貴不要逢人就給

心理觀察局
2026-06-04 09:48:35
53歲裴勇浚帶娃近照太震撼!零皺紋還是帥 韓網熱議:保養很好

53歲裴勇浚帶娃近照太震撼!零皺紋還是帥 韓網熱議:保養很好

ETtoday星光云
2026-06-12 13:06:08
不再低調!小米尋天N90實車亮相,帶升降車頂對標理想L9

不再低調!小米尋天N90實車亮相,帶升降車頂對標理想L9

沙雕小琳琳
2026-06-13 17:25:25
這組全是許晴年輕舊照!

這組全是許晴年輕舊照!

草莓解說體育
2026-06-05 14:04:24
江蘇“最憋屈”的城市?人均GDP超蘇州和南京,卻被認為只是二線

江蘇“最憋屈”的城市?人均GDP超蘇州和南京,卻被認為只是二線

劉小順
2026-06-12 20:06:35
“蔣萬安比較帥!” 臺北街頭民調出爐,沈伯洋輸得無話可說

“蔣萬安比較帥!” 臺北街頭民調出爐,沈伯洋輸得無話可說

叮當當科技
2026-06-14 06:05:42
周靖人被曝離職阿里:一手帶大通義大模型,升職6天即提交申請

周靖人被曝離職阿里:一手帶大通義大模型,升職6天即提交申請

呼呼歷史論
2026-06-14 01:07:59
形勢有多嚴峻?坐標上海:80末90初程序員都開始失業,評論區炸了

形勢有多嚴峻?坐標上海:80末90初程序員都開始失業,評論區炸了

慧翔百科
2026-05-14 09:00:11
我每月退休金13580,去兒子家住了20天,走時留下40000塊,兒媳突然發來1條信息,我看后立刻拉黑了他們全家

我每月退休金13580,去兒子家住了20天,走時留下40000塊,兒媳突然發來1條信息,我看后立刻拉黑了他們全家

起飛做故事
2026-06-12 19:35:23
重拳整治對印簽證亂象,全鏈條封堵非法入境居留漏洞!

重拳整治對印簽證亂象,全鏈條封堵非法入境居留漏洞!

故事終將光明磊落
2026-06-12 18:34:48
美直升機墜毀后,又有美軍機被擊落,伊外長警告:外軍迅速撤離!

美直升機墜毀后,又有美軍機被擊落,伊外長警告:外軍迅速撤離!

薛小榮
2026-06-12 10:51:03
資治通鑒:記住,誰朋友多你就離他遠點,誰喜歡到處跟人打招呼,你就離他遠點,這話聽著刻薄,可你越往后活,越會明白它有多準

資治通鑒:記住,誰朋友多你就離他遠點,誰喜歡到處跟人打招呼,你就離他遠點,這話聽著刻薄,可你越往后活,越會明白它有多準

心理觀察局
2026-06-13 07:41:04
2026-06-14 07:48:49
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7372文章數 20757關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

伊朗官員:目前版本伊美諒解備忘錄“比之前的更好”

頭條要聞

伊朗官員:目前版本伊美諒解備忘錄“比之前的更好”

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

親子
教育
旅游
手機
公開課

親子要聞

真正覺醒的家庭

教育要聞

整體思想求值,一個視頻學會!

旅游要聞

縉云·走四方吃八方丨郝樹靜:蕉葉上的煙火

手機要聞

比華為三折疊還稀缺!iPhone Ultra國行備貨量不足:博主直言搶到賺到

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版