无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AutoMoT : B2D & nuScense雙SOTA ,重新思考VLM和端到端駕駛結合

0
分享至



大模型進入自動駕駛后,最直接的價值在于場景理解。它可以識別前車是否準備并線、行人是否可能橫穿、施工區域是否會影響車道,也可以分析復雜路口中的讓行關系。

但自動駕駛需要的不只是 “看懂”。車輛真正要做的是在下一秒給出動作,是否減速、軌跡是否偏移、繼續跟車還是選擇繞行。因此關鍵問題變成了大模型的理解能力,如何真正服務于駕駛決策和軌跡規劃?

01 引言



圖中總結了近年來該領域代表性工作的探索方向:一種是把 VLM 放在前面,當作場景編碼器,先理解圖像,再把信息交給 planner。這種方式分工清楚,但理解和規劃仍然是分開的。另一種是把 VLM 作為輔助模塊,讓它輸出風險判斷、駕駛意圖或條件信號,實時控制仍由 planner 完成。這樣對原系統改動較小,但也容易浪費大模型能力:復雜推理最后被壓縮成少量提示,很難完整轉化為動作。

還有一種更直接的做法,是把 reasoning 和 action 放進同一個 VLA 模型里。這樣理解和動作被統一起來,但也帶來實時性問題:高層推理可以慢,軌跡規劃必須快。如果兩者始終同步執行,大模型推理延遲就會限制系統反應速度。

針對上述問題,來自南洋理工大學 AutoMan Lab、哈佛大學和小米汽車的研究團隊提出了AutoMoT,一種面向端到端自動駕駛的統一 Vision-Language-Action 模型,將場景理解、軌跡規劃與動作決策統一到同一潛在空間中,并通過異步推理實現 “低頻理解、高頻行動”。具體而言,理解模塊負責高層語義建模,動作模塊負責決策與軌跡規劃,二者通過layer-wise shared attention在模型內部進行直接交互。

實驗結果表明,AutoMoT 在 Bench2Drive 和 nuScenes 兩個基準上均取得了 SOTA 性能。其中,在 Bench2Drive 閉環評測中,AutoMoT 達到87.34 DS / 70.00%SR,加入 Action Refiner 后的 AutoMoT+ 進一步提升至89.42 DS / 74.09% SR;在 nuScenes 開環規劃評測中,其平均碰撞率僅為 0.07%, 平均 L2 為 0.32。該工作已被 ICML 2026 正式接收。



  • 論文標題:AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving
  • 論文鏈接:https://arxiv.org/abs/2603.14851
  • 項目主頁:https://automot-website.github.io/
  • 代碼鏈接:https://github.com/OscarHuangWind/AutoMoT
  • 模型鏈接:https://huggingface.co/Oscar-Huang/AutoMoT
  • 數據鏈接:https://huggingface.co/datasets/Oscar-Huang/nuSync

02 模型架構



理解、決策與規劃的統一

AutoMoT 由兩個專家組成:Understanding Expert(UE)Action Expert(AE)

如上圖左側所示,UE 是一個 4B 級 Qwen3-VL backbone,輸入多幀 RGB 圖像和導航提示,生成 reasoning tokens;AE 是約 1.6B 參數的動作專家,輸入當前 RGB、LiDAR BEV、decision queries、target points 和 planning queries,生成決策與規劃 tokens。

關鍵在于 UE 和 AE 不是傳統 hierarchical 式串聯。AutoMoT 在每一層引入Layer-wise Shared Attention:UE 提供高層場景理解,AE 在生成動作時可以訪問這些中間表示。這樣,UE 的場景理解不再只限于外部文本解釋,而是直接參與動作生成。

上圖右側展示了 AutoMoT 的 attention 設計。Understanding、Decision、Planning 三類任務通過 cross-task causal mask 建立明確的信息流:Decision 可以讀取 Understanding 的場景理解信息,Planning 則可以同時讀取 Understanding 和 Decision 的信息;任務內部仍保持雙向注意力。因此,Action Expert 并不是從零開始學習規劃,而是在基座模型的先驗知識的基礎上學習決策與軌跡生成。模型先理解場景,再基于理解形成決策,最后結合理解與決策生成規劃,使軌跡預測不再只是幾何擬合,而是由場景語義和駕駛意圖共同驅動。

異步推理,KV Cache 復用場景理解

AutoMoT 的異步推理主要用于解決閉環駕駛中的實時性問題。動作規劃需要高頻刷新,因為自車狀態和周圍交通參與者都在不斷變化;而高層場景理解具有一定時間連續性,例如前方施工區域、慢速車輛或路口拓撲關系,并不會在相鄰幾個控制周期內完全改變。

因此,AutoMoT 讓 UE 周期性更新高層理解,AE 則以更高頻率生成動作。UE 完成一次理解后會保存對應的 KV cache,AE 在后續多個動作步中可以直接基于這些 cached states 進行多步決策和軌跡規劃,而無需每一步都重新執行完整的大模型推理。

這說明 AutoMoT 并不是削弱大模型推理,而是重新定義其參與控制的方式:高層理解仍然影響動作生成,但不再阻塞每一次軌跡刷新。

03 實驗驗證

閉環和開環結果

在 CARLA Bench2Drive 閉環評測中,AutoMoT 取得了87.34 DS / 70.00% SR,超過 SimLingo 的 85.07 / 67.27。在加入 Action Refiner 后,AutoMoT+ 進一步提升至89.42 DS / 74.09% SR,達到當前 SOTA 水平。這表明動作細化模塊能夠進一步提升規劃質量和任務成功率,也體現了 AutoMoT 在完整路線執行中的閉環駕駛能力。



在 nuScenes 開環規劃中,AutoMoT 的 L2@1s / 2s / 3s 分別為0.14 / 0.29 / 0.54,平均 L2 為0.32;碰撞率分別為0.01% / 0.06% / 0.15%,平均碰撞率僅為 0.07%,在安全相關指標上達到當前 SOTA 水平。這說明 AutoMoT 不僅能夠保持較低的軌跡誤差,也能生成更安全的規劃結果。



重新思考基座模型的通用能力到底要不要完全 tailor 到自動駕駛領域?

AutoMoT 還討論了一個容易被忽略的問題:預訓練基座模型進入自動駕駛后,是否需要整體微調成駕駛專用模型?在 AutoMoT 中,保留 Understanding Expert 的預訓練能力并不是單純為了節省算力,而是因為隨著基座模型能力不斷增強,它們已經具備很強的通用場景理解、視覺語義建模和復雜關系推理能力,并在自動駕駛場景理解任務中展現出 SOTA 水平。



圖第一組實驗比較了 AutoMoT 在自動駕駛和通用任務上的 reasoning 能力。AutoMoT 在 LingoQA 上達到67.00,接近 ReCogDrive 的67.20;在 OmniDrive 上達到0.89,高于 ReCogDrive 和 Robotron-Drive 的0.82;在 CODA-LM 上達到6.07。同時,它在 TallyQA 和 InfoVQA 等通用任務上分別達到81.4089.30。這說明,在不完全專門化 backbone 的情況下,AutoMoT 仍然能保持較好的駕駛場景理解和通用推理能力。



第二組實驗進一步說明,fine-tuning 的收益并不均勻。對于 LingoQA 這類場景理解任務,微調幾乎只帶來邊際提升,分數從67.00增至67.20;但在 OmniDrive 這類更接近規劃和動作層的任務上,提升非常明顯,從18.20增至67.80。這表明自動駕駛中真正需要強領域適配的部分,更多集中在如何把場景理解轉化為決策和動作,而不是基礎視覺語言理解本身。

但整體微調 backbone 也會帶來代價。微調后,TallyQA 從81.40降到52.40,InfographicVQA 從89.30降到50.20,VizWiz 從75.60降到50.20。這些結果說明,如果把整個基座模型深度改造成駕駛專用模型,可能會削弱其原本的通用理解和復雜推理能力。

因此,AutoMoT 采用了更明確的分工:UE 保留預訓練 VLM 的通用場景理解能力,AE 則專門學習自動駕駛中的決策、規劃和動作生成。需要強調的是,這并不是否定 fine-tuning 的價值,而是認為不同能力應當在更合適的模塊中進行適配:高層理解能力由 UE 保留,action-level adaptation 則主要由 AE 完成,從而避免整體微調可能帶來的通用能力退化。

4. 結語

AutoMoT 的核心并不是讓 VLM 直接接管駕駛,而是在自動駕駛 VLA 系統中重新組織 “理解” 和 “行動” 的關系。

因此,AutoMoT 選擇保留 UE 的通用理解能力,將自動駕駛中的動作學習主要交給 AE 完成。兩者通過layer - wise shared attention連接,使 AE 在生成決策和軌跡時能夠直接利用 UE 的中間表示,而不是僅僅接收一段外部文本解釋。與此同時,異步推理與 KV cache 將完整 VLM 前向從每個動作周期中解耦出來,從而降低實時控制中的計算壓力。

AutoMoT 提供了一個關于智能駕駛基座模型適配的新視角。將整個基座模型深度適配到駕駛領域固然有其優勢,但也往往伴隨著更高的標注、人力和算力成本。AutoMoT 的 SOTA 性能則展示了另一種更高效的可能:保留基座模型強大的通用場景理解能力,同時將駕駛相關的決策與規劃能力交由專門的動作專家學習,并通過緊湊的跨模塊注意力機制實現二者之間的高效協同。這樣的設計在保持強性能的同時,也為面向真實部署的 VLA 系統提供了一條更具可擴展性的路徑。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

藝術
旅游
房產
本地
公開課

藝術要聞

339米!珠海第一高樓,形似“蛟龍出海”

旅游要聞

六一帶娃去哪玩?鄭州又多了個好去處!

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

本地新聞

用剪紙的方式,打開江蘇揚州

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版