網易首頁 > 網易號 > 正文申請入駐

VLA是怎么讓自動駕駛有駕駛邏輯的？

2026-05-16 08:54:07　來源: 智駕最前沿

江蘇舉報

分享至

[首發于智駕最前沿微信公眾號]目前的自動駕駛技術正處于一個關鍵的十字路口，新技術層出不窮。雖然現有的視覺感知和規劃算法已經能夠處理大部分常規路況，但在面對復雜的人類社交行為和從未見過的突發狀況時，傳統系統依舊會表現得過于死板。為了解決這些難題，有技術方案嘗試將大語言模型的理解能力與自動駕駛的控制邏輯結合起來，這便誕生了VLA模型，即“視覺-語言-動作”模型。

為什么自動駕駛需要一顆懂語言的大腦？

在過去很長一段時間里，自動駕駛系統的邏輯更像是查字典。攝像頭和雷達捕捉到畫面，算法識別出障礙物，然后根據預設的代碼尋找對應的操作。比如看到紅燈就停，看到前車減速就跟著減速。這種方式在規則明確的環境下表現優異，可一旦進入邊緣場景中，它就顯得捉襟見肘。當路邊有個交警揮手讓繞行，或者遇到一輛逆行的自行車，傳統系統可能因為沒有匹配到完全一致的預設案例，而選擇原地停車甚至報錯。

圖片源自：網絡

VLA模型的出現改變了這種單向的邏輯。它引入了語言作為思考的中介。這里的語言不僅僅是用來和乘客對話的，它更像是一種通用的邏輯框架。大語言模型在訓練過程中吸收了整個人類文明積累的常識和推理能力，這使得它不僅能識別出交警，還能理解交警的手勢代表著一種指揮。這種對場景深度語義的理解，是單純的視覺算法很難具備的，它為自動駕駛補齊了最重要的一塊短板，即對物理世界常識的掌握。

這種模型打破了感知與控制之間的壁壘。以往，車上的傳感器負責看，而駕駛算法負責開，兩者之間隔著復雜的參數轉換。但在VLA模型中，視覺信息被轉化成了一種模型能讀懂的特征向量，并與語言指令交織在一起。這意味著汽車在做出轉彎或剎車決定時，不再僅是因為看到了某些像素點的變化，而是因為它理解了當前的交通邏輯。這種跨維度的融合，讓自動駕駛系統從一個只會執行指令的工具，進化成了一個擁有基礎判斷力的智能體。

視覺、語言與動作是如何實時互動的？

要理解VLA的原理，可以把它想象成一個極速運轉的翻譯機。它的輸入端非常豐富，包含了攝像頭采集的高清圖像、激光雷達生成的點云數據，甚至是導航地圖里的路名和交規限制。這些原本形態各異的數據，會被轉化為一種統一的數字語言，輸入到大模型的中心處理器中。與此同時，人類的駕駛意圖也會作為一種引導信號加入其中，讓模型知道接下來的目標是什么。

在這個中心處理器里，視覺數據和語言知識會進行深度的對齊。模型會自動在海量的記憶中搜索，在類似的畫面下，人類的規則和常識會怎么做？這種搜索并不是簡單的匹配，而是一種基于概率和邏輯的推理。比如當視覺系統發現前方路面有大量的積水，而導航顯示這里是低洼地段，語言模型中的常識就會提示水深可能導致熄火或高速通過會產生水滑等。于是，模型會產生一個對應的動作決策。

圖片源自：網絡

最關鍵的一步是動作的輸出。VLA模型不會直接給出一個模糊的建議，而是會把推理的結果轉化成汽車能聽懂的控制指令，比如具體的轉向角度、剎車力度或者加速百分比。為了讓這些指令更加精準，還會給模型喂入大量的專家駕駛數據，讓它學習老司機在面對復雜情況時的處理習慣。通過這種方式，視覺的捕捉、語言的思考和動作的執行會被緊密地鎖在一個循環里，實現了真正意義上的端到端控制。

這種新技術能解決哪些駕駛難題？

VLA模型最大的優勢在于能處理那些極其罕見的特例場景。在自動駕駛領域，這些被稱為長尾場景，比如路面突然掉落的異形貨物、正在追逐打鬧的小狗或者是正在施工且沒有標準標識的臨時路段等都屬于這類場景。傳統的系統很難覆蓋所有的突發情況，而VLA則可以憑借其強大的泛化能力，利用已有的常識進行推斷。即使它從來沒見過掉落的浴缸，它也能通過視覺識別出這是一個不可逾越的固體，并結合安全邏輯選擇最穩妥的繞行路徑。

圖片源自：網絡

除了處理突發狀況，VLA還賦予了汽車更強的人機交互和解釋能力。現在的端到端自動駕駛像個黑盒，乘客不知道它為什么突然急剎，也不知道它為什么要換道。但基于VLA系統的車輛可以實時將駕駛邏輯轉化為自然的語言。它能告訴乘客前方路口有行人視線盲區，我正在減速觀察，或者左側車輛變道意圖明顯，我選擇了避讓。這種透明度不僅能緩解乘客的焦慮，也讓整個駕駛過程變得更加符合人類的社交習慣。

此外，這種模型還支持更加復雜的語音指令。你不需要再通過固定的菜單去設置導航，甚至可以給它一些模糊的指令，比如在不違規的前提下盡量開得快一點或者找一個風景好且方便靠邊停的地方。VLA能夠理解這些充滿主觀色彩的詞匯，并將其轉化為具體的駕駛行為。它能根據路況的復雜程度和道路的限速信息，在安全和效率之間找到一個平衡點。這種對復雜意圖的精準執行，是傳統算法難以企及的。

走向大規模應用還需要跨越哪些門檻？

雖然VLA前景廣闊，但要把這種龐大的模型塞進量產車里，依然面臨著巨大的挑戰。計算效率的問題是不可避免的，大模型需要海量的算力支持，而車載芯片的資源是有限的。如果模型處理一幀畫面的時間太長，就會導致駕駛指令的延遲，這在高速行駛中是非常危險的。因此，如何對VLA模型進行瘦身和加速，在不犧牲智能的前提下提高運行速度，是目前行業攻關的核心方向。

圖片源自：網絡

還有就是安全性的邊界問題，大語言模型有時會產生幻覺，即說出一些邏輯不通或者脫離現實的話。如果這種現象發生在駕駛控制上，后果將不堪設想。因此，在VLA模型的輸出端，必須加上一套堅固的安全護欄。這套護欄通常由基礎的物理定律和嚴苛的交通規則組成，無論大模型的決策多么智能，只要觸碰了安全紅線，系統就會強行介入并進行修正。

數據的質量和多樣性也決定了VLA模型的天花板。要讓汽車真正像人一樣思考，就需要給它喂入更高質量的、帶有詳細語言標注的駕駛數據。這不僅要包括汽車跑出來的軌跡，還要包括人類在開車時當下的心理活動和判斷邏輯。隨著數據規模的不斷擴大和訓練方法的持續演進，VLA模型將會變得越來越成熟。它不再只是一個輔助工具，而是會逐漸演變成一個真正理解物理世界、能夠獨立應對復雜環境的數字化老司機，徹底改變我們的出行方式。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.