百車全說
別人研究車,而我研究你!
今天咱們聊聊,前不久小鵬發(fā)布的第二代VLA,也就是第二代VLA物理世界大模型。沒關(guān)注智駕領(lǐng)域的人可能都聽不懂這是個(gè)什么東西,關(guān)注智駕的朋友,可能聽起來不明覺厲,但也很難說清楚好在哪里,背后是什么原理,今后買車如果更看重智駕,小鵬帶有二代VLA的車型,是不是應(yīng)該優(yōu)先考慮?
今天這篇文章,咱們?cè)敿?xì)聊聊這玩意到底是真厲害,還是說只是停留在概念上而已,是吹的天花亂墜,還是真有兩把刷子?
![]()
什么是VLA
VLA就是“Vision-Language-Action”,視覺-語言-行動(dòng)模型,一聽就懂,相當(dāng)于看到了什么-用文字描述出來-再根據(jù)文字執(zhí)行動(dòng)作。之前大家經(jīng)常聽到“端到端”智能駕駛,就肯定會(huì)聽到VLA這個(gè)詞,對(duì)吧。現(xiàn)在大家買車,只要帶智駕的,無非是有激光雷達(dá),沒有激光雷達(dá)兩個(gè)版本。沒有激光雷達(dá)的智駕走純視覺路線,有激光雷達(dá)的智駕,他其實(shí)主要也是靠視覺,只不過帶了激光雷達(dá),相當(dāng)于多了一重保障,走的是融合感知方案。但無論哪種方案,有了更先進(jìn)的硬件做基礎(chǔ),所以這兩年各家都在VLA這條路上一路狂飆。
![]()
小鵬二代VLA之前,智駕經(jīng)歷的三個(gè)階段
而在智駕領(lǐng)域,小鵬的二代VLA技術(shù)出來之前,還經(jīng)歷過三個(gè)階段。
第一個(gè)階段,是典型的模塊化方案加高精地圖。說白了,就是把感知、預(yù)測(cè)、規(guī)劃、控制拆成一個(gè)個(gè)模塊,再靠人工編寫規(guī)則把它們串起來。車先靠傳感器識(shí)別車道線、紅綠燈、路牌、障礙物,再結(jié)合高精地圖,去判斷自己現(xiàn)在在哪、該往哪走、下一步該怎么做。這套方案的問題在于,規(guī)則是人提前寫死的,地圖也是提前標(biāo)好的,所以它對(duì)已知場(chǎng)景處理得還行,但一旦碰到?jīng)]見過的、沒覆蓋到的、或者地圖和現(xiàn)實(shí)有偏差的情況,系統(tǒng)就容易發(fā)懵。它不是不會(huì)開車,它是只會(huì)開自己提前背過答案的那條路。早期自動(dòng)駕駛廣泛采用這種模塊化棧,而且高度依賴精準(zhǔn)定位與高精地圖,這也是后來行業(yè)越來越想擺脫它的重要原因。
第二個(gè)階段,就開始從人工寫規(guī)則,升級(jí)到讓模型通過海量駕駛數(shù)據(jù)去學(xué)習(xí),也就是大家常說的端到端、或者偏端到端的數(shù)據(jù)驅(qū)動(dòng)方案。你可以理解成,第一階段是老師把答案寫在黑板上,讓車背下來。第二階段是把大量人類司機(jī)怎么開車的數(shù)據(jù)喂給它,讓它自己去學(xué)輸入和輸出之間的關(guān)系。比如,前面看到什么畫面,后面就打多少方向、踩多大油門、剎多大力度。
![]()
這個(gè)階段比第一階段確實(shí)先進(jìn),因?yàn)樗鼫p少了人工規(guī)則堆砌,提升了訓(xùn)練和迭代效率,但它本質(zhì)上還是一種映射學(xué)習(xí)。也就是說,它更像是在模仿,而不是在真正理解。換句話說,訓(xùn)練里見過的場(chǎng)景,它會(huì)越來越熟。但是訓(xùn)練里沒見過的長(zhǎng)尾場(chǎng)景,它照樣可能不會(huì)。
而且第二階段還有個(gè)很致命的問題,就是黑箱。你看到的是它做出了動(dòng)作,但你很難準(zhǔn)確說清楚,它為什么這么做。出了問題,往往只能看到結(jié)果不對(duì),卻很難一層一層地追溯,到底是感知錯(cuò)了,還是理解錯(cuò)了,還是規(guī)劃錯(cuò)了。換句話說,它會(huì)開,但它不太會(huì)解釋。它像一個(gè)做題很快的學(xué)生,答案可能能寫出來,但你讓他把解題過程完整復(fù)述出來,他不一定講得清楚。對(duì)于智駕這種高安全要求的系統(tǒng)來說,這件事就很麻煩,因?yàn)槟悴还庖鼤?huì)做,還要知道它為什么這么做,出了問題怎么查,怎么改,怎么驗(yàn)證。
接下來,就到了第三個(gè)階段,也就是一代VLA,視覺—語言—行動(dòng)模型。
![]()
這一代跟前面最大的區(qū)別,不是它終于看得更清楚了,而是它開始試著先理解,再行動(dòng)。以前的系統(tǒng),很多時(shí)候是看到畫面,直接輸出動(dòng)作,中間像一根線,輸入接輸出,快是快了,但到底理解了多少,不好說。VLA不一樣,它把視覺信息、語言知識(shí)和行動(dòng)決策放進(jìn)了一個(gè)更統(tǒng)一的框架里。它不僅想知道前面有車、有燈、有行人,它還想進(jìn)一步理解,這個(gè)場(chǎng)景里誰更危險(xiǎn),哪個(gè)目標(biāo)更關(guān)鍵,這個(gè)行人是在等待,還是準(zhǔn)備突然橫穿,這輛電瓶車接下來大概率會(huì)不會(huì)并線,這個(gè)路口真正該優(yōu)先處理的矛盾是什么。
VLA的核心就是把視覺感知、語義理解、語言推理和軌跡/動(dòng)作輸出更緊地連起來,而不是只做機(jī)械的畫面到動(dòng)作映射。
![]()
所以總結(jié)來講,第一階段,是把規(guī)則寫死,像查字典、翻說明書開車。題庫(kù)里有,它就會(huì)。題庫(kù)里沒有,它就愣住。
第二階段,是通過數(shù)據(jù)去模仿,像看別人怎么開,自己照著學(xué)。學(xué)得多了,很多常見題也能做得不錯(cuò),但它更像小鎮(zhèn)做題家,不是真正理解題意,只是為了刷到過,填上了正確答案而已。題目稍微拐個(gè)彎,或者換個(gè)沒見過的說法,它還是容易翻車。
第三階段,也就是一代VLA,才開始往理解題意這個(gè)方向走。它不是單純記住:看到這個(gè)畫面就該往左打一把,看到那個(gè)路口就該踩一腳剎車。它開始嘗試回答另一個(gè)更關(guān)鍵的問題:我為什么要這么做。它會(huì)把環(huán)境里的視覺信息,和更高層的語義知識(shí)、行為邏輯結(jié)合起來,再去生成動(dòng)作或者軌跡。
所以理論上,它對(duì)陌生場(chǎng)景、長(zhǎng)尾場(chǎng)景、復(fù)雜交互場(chǎng)景,會(huì)比前兩代更有潛力。現(xiàn)在很多VLA論文都在強(qiáng)調(diào)一件事,就是想讓車不只是會(huì)反應(yīng),還要會(huì)推理,會(huì)解釋,會(huì)按更接近人類駕駛邏輯的方式處理復(fù)雜場(chǎng)景。
所以,在VLA之前:感知≠理解,只能“看到”,不能“看懂”;動(dòng)作≠推理,只會(huì)“條件反射”,不會(huì)“思考”。在VLA之后:視覺+語言+動(dòng)作深度融合,具備語義理解、常識(shí)推理、泛化能力,能看懂路牌、理解場(chǎng)景、推理因果、應(yīng)對(duì)未知障礙,基本實(shí)現(xiàn)了“看懂+聽懂+做對(duì)”。
小鵬二代VLA有什么不同
如果說一代VLA,解決的是車開始試著看懂這個(gè)世界,那二代VLA,解決的就是車看懂以后,能不能像人一樣把前因后果串起來,再?zèng)Q定下一步該怎么做。這個(gè)差別看上去只是從能理解,到更會(huì)理解,但本質(zhì)上已經(jīng)不是同一個(gè)層級(jí)了。
![]()
一代更像一個(gè)已經(jīng)挺聰明的實(shí)習(xí)生。你把場(chǎng)景給它,它能大致看明白,也能做出八九不離十的動(dòng)作。它知道前面是路口,旁邊有行人,左邊有車插進(jìn)來,這時(shí)候該減速,該觀察,該避讓。它比前兩代強(qiáng)的地方,在于不再只會(huì)背題,而是開始會(huì)讀題了。可問題在于,它很多時(shí)候還是停留在看懂這一層。它知道發(fā)生了什么,但對(duì)為什么會(huì)這樣,接下來大概率會(huì)怎樣,理解還不夠深。
二代VLA想做的,是從看懂眼前,往看穿局勢(shì)再走一步。它不只是識(shí)別這是不是一個(gè)路口,這是不是一個(gè)行人,這是不是一個(gè)施工錐桶。它還要判斷,這個(gè)行人是準(zhǔn)備過,還是只是站著等人;這臺(tái)電動(dòng)車是在正常靠邊,還是下一秒就要突然斜切;前方這臺(tái)車減速,是因?yàn)閾矶拢€是因?yàn)樗舶l(fā)現(xiàn)了前面有風(fēng)險(xiǎn);甚至一個(gè)交警抬手的動(dòng)作,到底是在讓你停,還是讓對(duì)向先走。說白了,一代更像是把場(chǎng)景翻譯成動(dòng)作,二代開始試著把場(chǎng)景翻譯成意圖。
拿同一個(gè)最典型的場(chǎng)景來說,前方是個(gè)沒有明確保護(hù)的路口,右側(cè)有個(gè)大車遮擋視線,路邊站著一個(gè)人,身后還跟著個(gè)小孩。這個(gè)場(chǎng)景,一代VLA大概率也會(huì)減速,也會(huì)謹(jǐn)慎,也知道這里有鬼探頭風(fēng)險(xiǎn)。但它更像是一種經(jīng)驗(yàn)性反應(yīng),因?yàn)樗R(shí)別到了危險(xiǎn)構(gòu)型,所以先保守一點(diǎn)。二代VLA如果做得更成熟,它不是單純知道危險(xiǎn),而是會(huì)進(jìn)一步推理,這個(gè)大人站位靠前,頭朝路口,小孩身體有前傾趨勢(shì),而且兩個(gè)人之間沒有明顯牽手約束,那下一秒小孩突然沖出來的概率就高。它的動(dòng)作就不只是減速,而是更早收油,更堅(jiān)決備剎,甚至在通過這個(gè)遮擋區(qū)之前就把整套風(fēng)險(xiǎn)預(yù)案先擺出來。表面看都是慢一點(diǎn),背后其實(shí)完全不是一個(gè)思路。一個(gè)是看見風(fēng)險(xiǎn)再應(yīng)對(duì),一個(gè)是預(yù)判風(fēng)險(xiǎn)要發(fā)生,所以提前站位。
再比如一個(gè)更復(fù)雜的城市場(chǎng)景。前面紅燈被雪覆蓋住了,路口還有交警在指揮。對(duì)一代VLA來說,它也許能識(shí)別出交警動(dòng)作,也能結(jié)合周圍車流做出一個(gè)相對(duì)合理的選擇,但這個(gè)過程更像是把多個(gè)信號(hào)拼起來,哪個(gè)信號(hào)更明顯,更有把握,它就聽誰的。
![]()
二代VLA追求的則是對(duì)交通秩序優(yōu)先級(jí)本身的理解。它不是簡(jiǎn)單地看見一個(gè)人在揮手,而是知道在這個(gè)時(shí)刻,現(xiàn)場(chǎng)人工指揮的權(quán)重高于被遮擋的信號(hào)燈,高于地圖預(yù)期,高于靜態(tài)交通規(guī)則。它不只是識(shí)別了動(dòng)作,而是理解了這個(gè)動(dòng)作在整個(gè)交通系統(tǒng)里的角色。所以它給出的動(dòng)作不像一代VLA,靠蒙,而應(yīng)該更接近人類老司機(jī)那種我知道現(xiàn)在該聽誰的判斷。
再往下說,同樣是施工繞行場(chǎng)景,一代VLA可能會(huì)表現(xiàn)得像個(gè)很謹(jǐn)慎的好學(xué)生。它看到錐桶,看見臨時(shí)改道,看見地面線和導(dǎo)航線對(duì)不上,就開始小心翼翼往前蹭。只要場(chǎng)景還在它理解邊界內(nèi),它也能過。
但二代如果真做起來了,它會(huì)表現(xiàn)得更像一個(gè)經(jīng)驗(yàn)豐富的司機(jī)。它會(huì)知道這里雖然地上還是舊線,但大家都在跟著臨時(shí)導(dǎo)流牌走;雖然左邊理論上能走,但前車軌跡、護(hù)欄開口、施工人員站位都在告訴它正確路線其實(shí)是往右借道。這個(gè)時(shí)候它不只是避障,而是在還原現(xiàn)場(chǎng)臨時(shí)秩序。一個(gè)是在復(fù)雜場(chǎng)景里勉強(qiáng)不犯錯(cuò),一個(gè)是在復(fù)雜場(chǎng)景里主動(dòng)找到真正的通行邏輯。
![]()
所以,一代和二代最大的區(qū)別,不是識(shí)別精度從九十分提到九十五分,也不是剎車更柔了、轉(zhuǎn)向更順了。這些都只是結(jié)果。真正的核心差別在于,一代主要還是在做場(chǎng)景到動(dòng)作的映射,二代開始做場(chǎng)景到意圖,再到動(dòng)作的推演。前者更像經(jīng)驗(yàn)驅(qū)動(dòng),后者更像世界模型驅(qū)動(dòng)。前者是我見過類似的,所以我知道大概怎么辦。后者是即便我沒見過一模一樣的,我也能根據(jù)這件事為什么會(huì)發(fā)生,推出來接下來應(yīng)該怎么做。
![]()
所以你看,這背后邏輯其實(shí)也不難理解。因?yàn)檎鎸?shí)道路最難的,從來不是那些標(biāo)準(zhǔn)題,而是那些沒有標(biāo)準(zhǔn)答案的半開放題。紅綠燈誰都能認(rèn),車道線誰都能看,難的是線被磨沒了、燈被擋住了、人不按套路來、車和人都在互相試探。
你要真想把智駕往上推,不可能永遠(yuǎn)靠擴(kuò)題庫(kù)。題庫(kù)擴(kuò)得再大,也擋不住現(xiàn)實(shí)世界每天都在出新題。所以一代VLA是讓車第一次開始擺脫死記硬背,二代VLA則是繼續(xù)往前走,試著讓它具備一點(diǎn)舉一反三的能力。
當(dāng)然,你也可以把它理解成,一代是在讓車從條件反射進(jìn)化到初步理解,二代是在讓車從初步理解進(jìn)化到連續(xù)推理。前者解決的是別再像機(jī)器人一樣開車,后者解決的是能不能像人一樣,把這個(gè)路口前后三秒鐘會(huì)發(fā)生什么,在腦子里先過一遍,也就是我們說的防御型駕駛。
說到底,誰更接近真正的比老司機(jī)還老司機(jī)的智駕,不在于它吹得多玄,而在于預(yù)判的準(zhǔn)確。
![]()
哪些車可以升級(jí)VLA二代,有什么區(qū)別
聽完上面這段,你是不是會(huì)覺得,神了,小鵬的VLA二代等于自己有思想了啊,這豈不是離自動(dòng)駕駛更進(jìn)一步了嗎?但依我看,這里面問題還是有很多的。
首先,按小鵬目前官方披露的信息,第二代VLA除了推送給三顆圖靈芯片的Ultra版,也會(huì)推送給雙圖靈的UltraSE,以及部分單圖靈的Max,只是版本和推送節(jié)奏不一樣。比如小鵬P7官方寫得很清楚,UltraSE是2顆圖靈AI芯片+第二代VLA,Ultra是3顆圖靈AI芯片+第二代VLA和VLM大模型。
小鵬G6的說法更直白。官方明確說,Ultra、UltraSE版本會(huì)在4月開啟第二代VLA全量推送;Max版也會(huì)在今年下半年推送蒸餾后的版本。也就是說,單圖靈的Max不是完全上不了,而是上的不是和Ultra完全同一檔的版本,你可以把蒸餾版,理解為閹割版、殘血版。
![]()
至于更老的平臺(tái),尤其不是圖靈芯片那一代的老車,目前我沒有看到小鵬官方給出能直接升級(jí)到第二代VLA的明確承諾,我看也有媒體說,未來會(huì)給雙Orin-X推蒸餾版。
目前,三顆圖靈芯片的包含:P7Ultra、G7Ultra、X9Ultra、G6Ultra等
兩個(gè)圖靈芯片的包含:X9UltraSE、G7UltraSE、G6UltraSE等。少了未來的座艙融合能力,其他全一樣。
一顆圖靈芯片的包含:P7Max、G7Max、G6Max等。只覆蓋高速、城市主干道,沒有全場(chǎng)景、沒有極端場(chǎng)景能力。
記得小鵬剛亮相三顆圖靈芯片的時(shí)候,我還不太建議大家入手Ultra版本,我覺得以當(dāng)時(shí)小鵬的智駕能力,三顆圖靈芯片完全是性能過剩。但現(xiàn)在看到二代VLA的能力,我覺得當(dāng)下如果你要買小鵬的車,三顆圖靈芯片的Ultra版應(yīng)該是首選。
![]()
三顆圖靈芯片分工非常明確,兩塊芯片組成一個(gè)超強(qiáng)的計(jì)算單元,專門負(fù)責(zé)自動(dòng)駕駛,所有的感知融合、規(guī)劃決策都在這里完成;另一塊芯片獨(dú)立出來,專門負(fù)責(zé)所謂的智能座艙,也就是你的語音助手、車載娛樂、導(dǎo)航地圖、手勢(shì)識(shí)別等功能。
為什么要這么做?
因?yàn)橐郧昂芏嘬嚨淖詣?dòng)駕駛和娛樂系統(tǒng)是共享計(jì)算資源的。就像在一個(gè)家庭里,哥哥和弟弟用同一臺(tái)電腦,哥哥要寫畢業(yè)論文,弟弟非要看動(dòng)畫片。結(jié)果就是:你可能在高速上讓車自己開,同時(shí)又想導(dǎo)航、聽周杰倫的歌。就在你喊出“播放《聽媽媽的話》”時(shí),系統(tǒng)為了渲染歌詞、字幕或加載高清MV,占用了GPU的一點(diǎn)點(diǎn)資源。就這零點(diǎn)幾秒的反應(yīng)延遲,可能在遇到緊急情況時(shí)導(dǎo)致一腳急剎。你以為是前面有危險(xiǎn),其實(shí)是系統(tǒng)內(nèi)部的資源沖突、內(nèi)存被打斷導(dǎo)致的“幽靈剎車”。
![]()
小鵬的這個(gè)三芯片方案,就是用最物理、最直接的方式解決問題:開車的歸開車,聽歌的歸聽歌,兩個(gè)大腦互不干擾。
這是一種典型的垂直整合工匠思維:從最底層的硬件到最上層的軟件,每一個(gè)環(huán)節(jié)都要自己掌控,做到極致優(yōu)化。這種做法的好處是將性能榨干到極致:
小鵬這三塊“圖靈芯片”并聯(lián)的總算力達(dá)到了2250TOPS。
(a)作為對(duì)比,NVIDIA下一代旗艦平臺(tái)DriveThor的算力是2000TOPS。
(b)這意味著小鵬的自研方案在量產(chǎn)車上,紙面參數(shù)比芯片巨頭NVIDIA的下一代產(chǎn)品還要高。
配備了總共216GB的超大內(nèi)存,這導(dǎo)致了一個(gè)質(zhì)變:
(a)他們可以把一個(gè)高達(dá)300億參數(shù)的大語言模型完整地塞進(jìn)車?yán)铮瑢?shí)現(xiàn)本地化運(yùn)行。
(b)以前的車只能跑幾十億參數(shù)的模型,遇到復(fù)雜問題(如看不清前方事故)需要把數(shù)據(jù)傳到云端計(jì)算再傳回,這一來一回可能半秒鐘就過去了。
![]()
在開車的世界里,半秒鐘就是生與死的距離。小鵬的XREA2.0因?yàn)槟P驮诒镜兀麄€(gè)思考過程(從發(fā)現(xiàn)問題到執(zhí)行決策)在50到100毫秒內(nèi)就能完成,甚至比人類的反應(yīng)還要快很多。這就是垂直整合、死磕硬件帶來的巨大優(yōu)勢(shì)。
那么,NVIDIA又是怎么操作的呢?
比如說,你可以給系統(tǒng)加一個(gè)語言提示,就像給AI大廚一個(gè)指令:“今天做菜,安全和舒適是第一位的,不要追求速度。”然后整個(gè)車的駕駛風(fēng)格就會(huì)變得更柔和、更保守。這就是一種“水平擴(kuò)展”的平臺(tái)思維。它的優(yōu)勢(shì)在于:
1. 讓更多的車企能更快用上最先進(jìn)的技術(shù)
2. 給了車企定制化的空間(這在歐洲、日本這些法規(guī)嚴(yán)格且獨(dú)特的地方尤其重要)
所以這里就出現(xiàn)了兩條完全不同的路徑:
小鵬:像是一個(gè)頂級(jí)的工匠。他要親手打造一把完美的寶劍,從煉鋼、鍛打到開刃,每一個(gè)細(xì)節(jié)都自己來。雖然能打造出鋒利無比的劍,但很有可能這把劍只有他自己用得最順手。
![]()
NVIDIA:像是一個(gè)軍火商。他打造了一個(gè)可以生產(chǎn)各種武器的兵工廠,把圖紙和生產(chǎn)線開放給你,讓你自己去造適合自己的槍炮。所以這場(chǎng)硬件的戰(zhàn)爭(zhēng),可能沒有絕對(duì)的誰贏誰輸,它更像是一場(chǎng)關(guān)于未來的哲學(xué)辯論:是把一輛車本身打磨得越來越聰明,最終成為一個(gè)接近完美的個(gè)體;還是創(chuàng)造一個(gè)生態(tài),讓世界上所有的車都能更容易地接入到這個(gè)智能網(wǎng)絡(luò)里?是不是有點(diǎn)蘋果跟安卓的感覺了?
前面聊的是硬件方面的不同思路,下面再講講關(guān)于軟件方面。在VLA這個(gè)大的框架下,其實(shí)不同的公司對(duì)智能的理解,也會(huì)有一些不同的分化。這里面會(huì)出現(xiàn)兩種有意思的AI人格,一種是預(yù)言家,另一種是自省者。
我們先說預(yù)言家,它的代表就是理想汽車。理想汽車它有一套系統(tǒng)叫做MindVLA-o1。它比較厲害的地方在于,它不僅能看清楚現(xiàn)在,而且它能生成未來。
![]()
什么意思呢?傳統(tǒng)的自動(dòng)駕駛是“看到,然后再反應(yīng)”這種模式。我看到一個(gè)行人,我計(jì)算它的速度和方向,然后我決定是剎車還是繞行。但理想的這套系統(tǒng),它在看到那個(gè)行人的瞬間,它的大腦里面,或者說它的計(jì)算模型里面會(huì)立刻生成好幾個(gè)未來三秒鐘的3D動(dòng)畫短片。第一個(gè)短片里面,這個(gè)行人停下來看手機(jī);在另一個(gè)短片里面,他突然加速跑向馬路對(duì)面;在第三個(gè)短片里面,他可能被旁邊的一輛自行車嚇到,往后退了一步。那么系統(tǒng)可能會(huì)同時(shí)推演十幾種可能性,并且給每一種可能性分配一個(gè)概率。然后它會(huì)選擇一個(gè)無論在哪種未來里都最安全的駕駛策略。
這就跟下圍棋一樣,圍棋的高手落子之前腦子里面,已經(jīng)推演了后面十幾步甚至幾十步的所有變化。那么這種能力在處理一些比如像行人鬼探頭,或者路口闖紅燈的電動(dòng)自行車,會(huì)有非常大優(yōu)勢(shì)。因?yàn)樗皇窃诜磻?yīng),而是在預(yù)判。它在毫秒之間就已經(jīng)看到了那個(gè)潛在的危險(xiǎn),并且提前做好了規(guī)避動(dòng)作。
那么這種生成式世界模型的技術(shù)背后,就是有著3D高斯濺射這樣非常前沿的圖形學(xué)和AI技術(shù)。它構(gòu)建的不是一個(gè)平面的鳥瞰圖,而是一個(gè)可以被推演,可以被想象的活生生的三維世界。當(dāng)然了,這么做的代價(jià)就是算力的消耗極大。但是理想汽車賭的是對(duì)未來的判斷,所以他們覺得,這帶來的那一點(diǎn)點(diǎn)安全冗余是值得的。
所以,理想汽車這是預(yù)言家,也就是向外看,試圖窮盡世界的所有可能性。
![]()
那么自省者是什么意思呢?
自省者,它的代表是一家叫做DeepRoute.ai元戎啟行的公司。他們?cè)贕TC大會(huì)上展示了他們的VLA模型,一個(gè)高達(dá)400億參數(shù)的龐然大物,這個(gè)模型最有意思的是它的架構(gòu)。他們的系統(tǒng)在開車的時(shí)候可以一心三用,你可以想象它有三種人格:司機(jī)、分析師和批評(píng)家。是不是有點(diǎn)像狼人殺?
1.司機(jī)
他負(fù)責(zé)實(shí)時(shí)開車處理眼前的路況,能夠做出轉(zhuǎn)向、剎車、加速的指令,這是他的本職工作
2.分析師
他在后臺(tái)默默地觀察著司機(jī)的一舉一動(dòng),并且不斷地分析周圍的環(huán)境。當(dāng)遇到了一些關(guān)鍵的、復(fù)雜的或者危險(xiǎn)的場(chǎng)景時(shí),比如說一次緊急避讓或者一個(gè)處理的不太完美的變道,那么分析師就會(huì)立刻把這個(gè)場(chǎng)景記下來,并且進(jìn)行因果分析。剛才為什么會(huì)差點(diǎn)撞上了,是因?yàn)槲覜]看到他,還是因?yàn)槲翌A(yù)判錯(cuò)了他的意圖?
3.批評(píng)家
他不關(guān)心具體的操作,他只負(fù)責(zé)評(píng)價(jià)司機(jī)開的好不好。他會(huì)從三個(gè)維度來打分:安全、舒適,還有是否自然。比如說,剛才那個(gè)變道雖然安全,但是動(dòng)作太生硬,讓乘客不舒服,要扣分。這一次過路口讓行讓得太猶豫了,像一個(gè)新手不夠果斷,扣分
所以,這三個(gè)人格同時(shí)工作,形成一個(gè)完美的閉環(huán)。
司機(jī)在開車,分析師在找問題,批評(píng)家在打分。然后那些被標(biāo)記出來的壞案例和有價(jià)值的案例會(huì)被系統(tǒng)自動(dòng)優(yōu)先提取出來,進(jìn)入下一輪的模型訓(xùn)練,這就形成了一種自我進(jìn)化的機(jī)制。他不再需要成千上萬的人工標(biāo)注員,去從海量的視頻數(shù)據(jù)里面大海撈針一樣,去找那些有用的訓(xùn)練素材,他自己就成了自己最嚴(yán)格的老師,自己給自己找茬,自己給自己改作業(yè)。
所以這個(gè)模式最終帶來的結(jié)果是驚人的。
![]()
傳統(tǒng)車企的數(shù)據(jù)迭代周期可能是一周甚至更長(zhǎng),而元戎啟行就宣稱他們的迭代周期,可以縮短到只要12個(gè)小時(shí)。那么這就意味著他們的AI司機(jī)學(xué)習(xí)和進(jìn)步的速度,是別的企業(yè)的4倍到14倍。他可能今天犯的錯(cuò),明天就不會(huì)再犯了。
所以你看,理想的預(yù)言家是向外看,要理解預(yù)測(cè)這個(gè)復(fù)雜的世界。而元戎啟行是自省者,是向內(nèi)看,試圖反思和完善自己的人格。他們其實(shí)都在用VLA,都在用語言和邏輯來解釋這個(gè)世界,但一個(gè)在預(yù)測(cè)未來,一個(gè)在反思過去。
所以你說哪個(gè)更能接近我們?nèi)祟愴敿馑緳C(jī)的駕駛直覺呢?其實(shí)我覺得可能兩者都有。一個(gè)優(yōu)秀的司機(jī)既要眼觀六路,預(yù)判風(fēng)險(xiǎn),也要在每次開車后默默地復(fù)盤自己哪里做得不好。所以這兩種AI人格的沖突和融合可能就是通往真正通用人工智能的一條必經(jīng)之路。
![]()
真正的難點(diǎn)
前面聊了那么多,大家聽了應(yīng)該也很興奮,覺得離自動(dòng)駕駛越來越近了。但是大家想過一個(gè)問題沒有?技術(shù)再厲害,算力再?gòu)?qiáng),數(shù)據(jù)再多,最終還是要解決一個(gè)最根本的問題,就是我們作為人類敢不敢用它,敢不敢把自己的生命交到一個(gè)機(jī)器手里。
畢竟在大馬路上和坐在高鐵里,它是完全不一樣的。開車沒有軌道,沒有固定的路線,它沒有一個(gè)不受干擾的封閉的環(huán)境,一切都是開放的。但你發(fā)現(xiàn)沒有,當(dāng)開車環(huán)境無法改變的時(shí)候,通往自動(dòng)駕駛最核心的一個(gè)環(huán)節(jié),其實(shí)是“可解釋性”帶來的信任重構(gòu)。
![]()
過去幾年自動(dòng)駕駛的事故,每一次都鬧得沸沸揚(yáng)揚(yáng)。出了事,車企的工程師站出來,面對(duì)監(jiān)管機(jī)構(gòu)和媒體的質(zhì)問,他們能做什么呢?他們只能是攤開手給你看一堆復(fù)雜的神經(jīng)網(wǎng)絡(luò)權(quán)重圖,或者幾百頁的日志代碼,然后告訴你,根據(jù)我們的模型分析,當(dāng)時(shí)系統(tǒng)的決策在概率上是最優(yōu)解。這種解釋你聽得懂嗎?普通人都聽不懂,所以監(jiān)管者也很頭疼。
這就像一個(gè)醫(yī)生做完手術(shù),病人出了問題,家屬問他,為什么?他說我們嚴(yán)格按照一本你看不懂的醫(yī)學(xué)操作手冊(cè)進(jìn)行的,書上說這么做成功率是最高。你說這個(gè)解釋你能接受嗎?你肯定不會(huì)啊,你只會(huì)覺得他在推卸責(zé)任。
![]()
而二代VLA的出現(xiàn)徹底解決了這個(gè)問題。那么再回到我們開頭說的那個(gè)場(chǎng)景,現(xiàn)在如果監(jiān)管機(jī)構(gòu)問小鵬,你的車在那個(gè)路口為什么減速,你的依據(jù)是什么?工程師不用再甩出一堆的圖表,他可以直接播放車?yán)锏哪且欢诬囕d語音,語音里說:
“我觀察到前方有臨時(shí)路牌,但是信號(hào)燈被積雪覆蓋無法識(shí)別。因此,我會(huì)根據(jù)前方穿著制服的交警,他的手勢(shì)指引慢速通過。”
這是一個(gè)清晰、有邏輯、符合人類常識(shí)的解釋。那么監(jiān)管者一聽就明白了,原來你當(dāng)時(shí)的這個(gè)動(dòng)作,你的判斷是這么想的,這個(gè)思路很合理很安全。甚至于他們可以進(jìn)一步討論,如果當(dāng)時(shí)沒有一個(gè)交警站在那邊去指揮,你會(huì)怎么做?VLA系統(tǒng)甚至可以回答:
“如果沒有人指揮,無法確認(rèn)路權(quán),那么我的策略就是停車等待,直到確認(rèn)安全,或者請(qǐng)求人類接管。”
所以你看,當(dāng)機(jī)器可以用語言來解釋自己的決策邏輯的時(shí)候,它就不再是一個(gè)冰冷的、不可知的“它”,而變成了一個(gè)可以溝通、可以理解的伙伴。
![]()
這種可解釋性帶來的影響是連鎖反應(yīng):
1.監(jiān)管層面
中國(guó)的監(jiān)管機(jī)構(gòu)現(xiàn)在已經(jīng)開始批準(zhǔn)L3級(jí)別的自動(dòng)駕駛上路,他們的審批要求里面很重要的一條,就是決策的可解釋性和透明度。這幾乎是在倒逼所有的車企,必須往VLA這個(gè)方向走。
2.保險(xiǎn)公司
保險(xiǎn)公司有資深人士透露,他們正在開發(fā)新的車險(xiǎn)產(chǎn)品,未來能夠提供清晰決策日志、能夠解釋自己行為的車輛,保費(fèi)會(huì)大大降低。而那些還在使用黑盒子的系統(tǒng),保費(fèi)可能會(huì)高得離譜。為什么呢?因?yàn)樨?zé)任清晰了,出了事故,一看日志,是系統(tǒng)判斷失誤,還是硬件故障,一目了然。這對(duì)于保險(xiǎn)公司來說,就降低了最大的不確定性。所以這是一個(gè)巨大的經(jīng)濟(jì)杠桿。
3.公眾的信任
最后,也是最重要的,是公眾的信任。當(dāng)你坐在一輛自動(dòng)駕駛的車?yán)铮蝗豢窟呁\嚕谀阏惶斫膺@個(gè)動(dòng)作時(shí),車內(nèi)語音告訴你:“不要擔(dān)心,我正在為右后方快速接近的救護(hù)車讓路。”這時(shí)候你會(huì)怎么想?無數(shù)次解答你的疑惑,你會(huì)發(fā)現(xiàn),這種透明是任何參數(shù)、任何技術(shù)參數(shù)都換不來的信任構(gòu)建的過程。
所以,2026年這一場(chǎng)自動(dòng)駕駛的革命,我覺得最核心的關(guān)鍵詞不是算力,不是模型參數(shù),而是解釋。這不是算法的勝利,是人類語言的勝利。語言,這個(gè)我們?nèi)祟愖罟爬稀⒆罨A(chǔ)的溝通工具,在AI時(shí)代重新成為了連接技術(shù)與社會(huì)、機(jī)器與人心的那一座最重要的橋梁。
我們今天聊那么多,從硬件的戰(zhàn)爭(zhēng)到算法的靈魂,再到數(shù)據(jù)的洪流,最后落到信任的重建。這一切都指向一個(gè)結(jié)論:2026年確實(shí)是自動(dòng)駕駛歷史上的一個(gè)巨大拐點(diǎn)。這個(gè)轉(zhuǎn)折不僅僅是車變得更聰明,而是車終于學(xué)會(huì)了用一種我們能聽懂的方式,來解釋它為什么會(huì)變聰明。
![]()
所以說,關(guān)于更宏大的所謂“物理AI”這個(gè)概念,我們不能簡(jiǎn)單的把VLA這個(gè)架構(gòu),理解為只是用于自動(dòng)駕駛。你想一想,一個(gè)能理解視覺、能運(yùn)用語言、能夠做出行動(dòng)的AI核心,把它從車?yán)锬贸鰜恚诺揭粋€(gè)機(jī)器人里,它是不是能做更多的事情?
所以,小鵬為什么同時(shí)在做汽車的自動(dòng)駕駛,也在做人形機(jī)器人?現(xiàn)在想想,大家就都明白了。因?yàn)樽詣?dòng)駕駛上取得的每一個(gè)突破,幾乎都可以無縫地遷移到機(jī)器人、工業(yè)自動(dòng)化等等所有需要與物理世界打交道的領(lǐng)域。我們其實(shí)在見證的可能不僅僅是一場(chǎng)交通工具的革命,而是通用物理智能的黎明。所以,小鵬這家公司的價(jià)值也在被重構(gòu)。
第二代VLA發(fā)布后資本市場(chǎng)的反應(yīng)就是很好的證明,摩根士丹利、美國(guó)銀行、匯豐銀行同步給出“買入”評(píng)級(jí),摩根士丹利的研究報(bào)告中指出:小鵬第二代VLA的落地,使其具備與特斯拉在全球市場(chǎng)直接競(jìng)爭(zhēng)的能力,全球智能汽車產(chǎn)業(yè)的格局或迎來新的變量。
你看,現(xiàn)在一臺(tái)車已經(jīng)從一個(gè)把我們從A點(diǎn)送到B點(diǎn)的鐵皮盒子,變成了一個(gè)可以和你溝通、幫你思考,甚至比你更了解這個(gè)物理世界的推理引擎。當(dāng)我們還在討論AI會(huì)不會(huì)取代我們工作的時(shí)候,一種新的能夠理解并且改造物理世界的智能,已經(jīng)悄悄地融入我們最日常的生活里。這意味著什么?沒人能說得清。但這種感覺是不是就像我們第一次看到iPhone,或者第一次連上互聯(lián)網(wǎng)一樣?你知道世界將因此而改變,只是這一次改變的可能不只是信息世界,而是我們身處的這個(gè)實(shí)實(shí)在在的物理世界本身。
![]()
想和三刀做朋友?想和三刀的讀者做朋友?
平時(shí)不能說,不方便說的
咱們?cè)谶@里暢快聊~
高質(zhì)量答疑,高含金量資訊,自媒體學(xué)習(xí)
全在三刀的知識(shí)星球
![]()
BBA不裝了,豪車的好日子結(jié)束了
徹底殺死燃油車的全固態(tài)電池,真的要來了嗎?
大換代的日產(chǎn)軒逸(參數(shù)丨圖片),油車也要跟電車拼智商了?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.