![]()
撰文 | 張祥威 編輯|馬青竹
2025年最后一個月,部分車企獲得L3級自動駕駛路測牌照,為明年的新一輪競賽埋下伏筆。
另一邊,無人駕駛公司也在持續(xù)打磨L4。
最近,Waymo的無人駕駛出租車因大規(guī)模停電,在十字路口紅綠燈全黑時出現(xiàn)大面積“趴窩”,引發(fā)嚴重擁堵。
![]()
有行業(yè)人士分析,深層問題在于其采用“規(guī)則驅(qū)動”而非AI驅(qū)動。
可見智駕仍需進化,至少從技術(shù)角度看,仍有不少謎題待解。
諸如:
“端到端+VLM”的下一站,是不是VLA?
“一段式端到端+強化學(xué)習(xí)”,是否比VLA更先進?
世界行為模型和VLA相比究竟有何不同?
VLA和世界模型,究竟誰才是更優(yōu)解?
當(dāng)智駕領(lǐng)域疑云彌漫,厘清問題,可以更好地辨別孰強孰弱,也許還能照見“陷阱”。
那么,智駕進化到2025年底,究竟有沒有理出一條清晰的路線圖?
大亂斗
12月下旬,英偉達全球副總裁、汽車事業(yè)部負責(zé)人吳新宙,在上海浦東測試了多家車企和供應(yīng)商的智駕方案。據(jù)悉,其對文遠知行、地平線的方案評價頗高。
但過去一年的經(jīng)驗證明,單說體驗層面,似乎有點你追我趕,名次波動頻繁,其實難以直接斷言不同方案的優(yōu)劣。
例如,基于規(guī)則驅(qū)動的智駕表現(xiàn),在某個時間段內(nèi)也許比基于數(shù)據(jù)驅(qū)動更加穩(wěn)定。不同代際的模型架構(gòu),在某個時間點也會出現(xiàn)“舊”打敗“新”的情況。
即便就技術(shù)本身而言,行業(yè)有共識,更不缺爭議。
去年還被各家一致夸贊的“端到端”,如今被理想、小馬智行等競相指出存在技術(shù)局限。
行業(yè)普遍認為:“端到端的本質(zhì)是模仿學(xué)習(xí),存在overfit(過擬合)和不可解釋等問題。”面對訓(xùn)練過的場景會表現(xiàn)出色,但遇到從未在訓(xùn)練集中見過的新場景時,就有可能導(dǎo)致決策錯誤。一句話,學(xué)得太死板。
邁入「端到端」時代值得慶祝,但需補充新的能力,各家的技術(shù)路線由此分化。
截至目前,據(jù)《出行百人會/AutocarMax》不完全統(tǒng)計,市面上的核心智駕模型至少有6種,分別為VLA、WEWA、“端到端+強化學(xué)習(xí)”和世界模型等。
![]()
一類采用“端到端+VLM+強化學(xué)習(xí)”。如地平線,在一段式端到端的基礎(chǔ)上,借助云端的“VLM+強化學(xué)習(xí)”來訓(xùn)練語義模型,從而處理可變車道等需要理解交通規(guī)則的場景。
另一類堅信VLA。這一技術(shù)陣營包括理想、小鵬、卓馭和元戎啟行等。其核心觀點為,“端到端+VLM”存在延時和信息損失,可支持實現(xiàn)L3,但要實現(xiàn)L4則離不開VLA。
值得注意的是,對于“端到端+VLM”的協(xié)作,早期有人將其比喻為教練坐在副駕指揮駕駛員開車,后來也有人將其比作賽車手和領(lǐng)航員(參數(shù)丨圖片)的配合關(guān)系。無論如何,基本可以認為,端到端的確存在能力的局限性。
據(jù)悉,小米汽車正一邊布局“端到端+世界模型+強化學(xué)習(xí)”,同時也在投入VLA研發(fā)。小米汽車智能駕駛VLA負責(zé)人陳龍指出,其要做的VLA是將端到端和VLM的能力融合在一起,如果VLA在各種場景下都比端到端好,那么將全面切向VLA這一新方案。
![]()
還有一類采用“端到端+強化學(xué)習(xí)”,代表公司是Momenta。
其創(chuàng)始人、CEO曹旭東認為,“VLM、VLA是很好的方向,但屬于錦上添花。想要提升,要用到強化學(xué)習(xí),把端到端大模型放到通過海量真實數(shù)據(jù)構(gòu)建起來的仿真環(huán)境去做探索。”
Momenta這種訓(xùn)練大模型的方法,類似給ChatGPT喂大量數(shù)據(jù),最終產(chǎn)生類人的通識。
至于采用WEWA技術(shù)的公司,代表是華為。
其做法是,輸入視覺、“觸覺”等多模態(tài)信息,直接輸出控車指令。這一過程中,跳過語言轉(zhuǎn)換環(huán)節(jié)(VLA會將視頻等信息轉(zhuǎn)化為語言Token,然后輸出控車指令),以避免精度損失和信息轉(zhuǎn)換延遲。
華為智能汽車解決方案BU CEO靳玉志曾表態(tài),“不會走VLA的路徑,這樣的路徑看似取巧,其實并不是走向真正自動駕駛的路徑。華為更看重WA,也就是World Action。”
![]()
最后還有一類選擇世界模型的公司,如小馬智行和蔚來。
小馬智行副總裁、北京研發(fā)中心負責(zé)人張寧曾告訴我們,公司在2023年布局端到端研發(fā),后來發(fā)現(xiàn)其不能解決所有問題,便轉(zhuǎn)向世界模型。
從規(guī)則驅(qū)動,到數(shù)據(jù)驅(qū)動,如今又來到“認知驅(qū)動”,智駕技術(shù)持續(xù)進化,背后有沒有一些共識?
共識
上述各家方案,雖稱謂不一,但均未繞開“端到端、VLM、VLA、世界模型、強化學(xué)習(xí)”等技術(shù)范疇。拆解這些技術(shù),可以發(fā)現(xiàn)一些共識。
共識一,智駕模型不僅要會模仿,還要能“理解”。
陳龍在加入小米汽車前,曾在英國自動駕駛初創(chuàng)企業(yè)Wayve供職,不僅與團隊共同提出了“視覺-語言-行為”的模型框架,還是LINGO系列模型的核心開發(fā)者之一。
他認為,“端到端就像教動物學(xué)開車,但動物并不理解開車背后的行為。而VLA是在學(xué)習(xí)了人類世界的知識、交通規(guī)則、價值觀的基礎(chǔ)上,同時具備推理能力。”
這一觀點與理想類似。
![]()
前理想汽車智能駕駛技術(shù)負責(zé)人賈鵬,曾在拆解算法原型時表示:
“端到端模型的目的是學(xué)習(xí)行駛軌跡,但行駛軌跡是不確定的,即使同一個司機,在不同的場景、不同的時間,駕駛行為也不太一樣。如果只是一味地通過模仿學(xué)習(xí)人,只能模仿對的,不知道什么是錯的,會出現(xiàn)很多詭異的駕駛行為。”
基于此,理想在訓(xùn)練過程中引入強化學(xué)習(xí),讓系統(tǒng)知道對與錯,從而得出一個駕駛技巧、價值觀均正確的模型。
共識二,目標逐漸趨同,要打造智能駕駛領(lǐng)域的基礎(chǔ)模型。
近日,地平線創(chuàng)始人余凱與元戎啟行創(chuàng)始人周光討論智駕前景時,二人一致認為,如果能迅速構(gòu)建基礎(chǔ)模型,智駕將從L2+更快通往L4,L3的存在階段將變得很短暫。
目前,各家的做法可大致分為幾項:
通過去掉人工監(jiān)督和標注等做法,減少信息損失和時延,提升模型的效率;
通過更大規(guī)模的優(yōu)質(zhì)數(shù)據(jù),覆蓋更多corner case,提升模型的泛化能力;
通過預(yù)訓(xùn)練、強化學(xué)習(xí)或世界學(xué)習(xí)等,提升模型對物理世界規(guī)律的理解能力;
通過思維鏈、VLA或世界模型等,提升長時序推理能力。
只不過細節(jié)有差別。例如,Momenta強調(diào)的強化學(xué)習(xí),主要通過海量真實數(shù)據(jù)構(gòu)建起來的仿真環(huán)境來訓(xùn)練模型,這是因為其已經(jīng)搭載在足夠多的量產(chǎn)車型上。
![]()
而小馬智行提出的世界模型,據(jù)我們了解更接近強化學(xué)習(xí)。這意味著,除了采集數(shù)據(jù)的規(guī)模不同,兩家的目標存在相似性。
如果跳出智駕,在人形機器人等更廣泛的具身智能領(lǐng)域,則在研發(fā)“通用模型”。一種設(shè)想是,未來或許會出現(xiàn)由人形機器人開車的情況。
未來,究竟是汽車機器人自己行動,還是由人形機器人坐進來開車,又或者是兩種可能性都會發(fā)生?
結(jié)語
智駕從陷入corner case的汪洋大海,到受ChatGPT啟示,借助大語言模型相對輕松地游走在數(shù)據(jù)海洋,再到現(xiàn)在,正忙于煉出一顆類人的駕駛大腦。
可以看到,模型開車的技巧在提升,已經(jīng)能在小路上做出博弈等動作。也要看到,智駕領(lǐng)域的corner case并未被完全解決。
回看文章開頭的那些問題,有的由發(fā)展階段不同導(dǎo)致,也有的更多是技術(shù)細節(jié)的差別。在游戲沒有通關(guān)前,或許真的存在多種解法。無論如何,提升模型能力,才是根本。
—THE END—
出行百人會 | AutocarMax
追蹤汽?出行產(chǎn)業(yè)鏈進化,關(guān)注新產(chǎn)品、新科技、商業(yè)邏輯與商業(yè)人物,影響圈層中有影響力的人。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.