![]()
“過(guò)去十年,自動(dòng)駕駛行業(yè)最大的認(rèn)知糾偏就是世界模型。”
4月24日,北京車展媒體日第一天,小馬智行宣布了兩大新產(chǎn)品動(dòng)向:2027版Robotaxi成本降至23萬(wàn)元以內(nèi)、全球首款全車規(guī)全冗余L4級(jí)無(wú)人輕卡發(fā)布。與此同時(shí),它還在技術(shù)上進(jìn)行了迭代:世界模型1.0躍升至世界模型2.0,構(gòu)建精度飛輪。
發(fā)布會(huì)后,創(chuàng)始人兼CTO樓天城坐下來(lái)跟媒體聊了起來(lái)。他說(shuō),2020年小馬智行就開(kāi)始做世界模型,但當(dāng)時(shí)被認(rèn)為是另類,更多公司選擇采集真實(shí)數(shù)據(jù)做模仿學(xué)習(xí)。“今天所有人都在說(shuō)世界模型,大家意識(shí)到人的不足,意識(shí)到人跟AI的配合應(yīng)該怎么做。”
一個(gè)半小時(shí)的對(duì)話里,樓天城把世界模型2.0拆得很細(xì)。什么是“精度”?不是畫面逼真,而是概率分布。什么是“意圖層”?那是生成模型里可以制定的token,決定權(quán)在訓(xùn)練方。
至于,L2的車跑在路上采集的海量數(shù)據(jù)對(duì)L4有沒(méi)有用?他說(shuō),過(guò)度依賴真實(shí)數(shù)據(jù),甚至可能是負(fù)面的。高峰時(shí)段Robotaxi效率相對(duì)較低?他認(rèn)為,這背后存在“雙標(biāo)”,大家更不愿意接受無(wú)人車犯錯(cuò)。
以下是樓天城在本次群訪中的對(duì)話實(shí)錄(略有刪減)。
Q、世界模型的精度是不是和真實(shí)世界越接近越好,它有沒(méi)有限制?
樓天城:世界模型精度最直接的表現(xiàn),就是它訓(xùn)練出來(lái)的AI司機(jī)表現(xiàn)的好壞,這就是判斷它精度的標(biāo)準(zhǔn),本質(zhì)確實(shí)是跟世界越接近越好。但是這個(gè)接近不光是極端場(chǎng)景能夠跟真實(shí)世界一樣,更多的是概率分布,就是一件事情出現(xiàn)的概率要和真實(shí)世界很接近。
還有大家的交互,開(kāi)車是一個(gè)交互行為,互相之間擠一下車這種行為也要和真實(shí)世界很接近,這個(gè)我們叫精度高,是一個(gè)非常全面的定義。
![]()
其實(shí)2.0的本質(zhì)是說(shuō)這個(gè)世界模型精度有一些不太好的地方,人有的時(shí)候判斷不出來(lái),但是AI可以做準(zhǔn)確的判斷。比如說(shuō)你的世界模型里其他車變道都太激進(jìn)了,你應(yīng)該稍微收一點(diǎn),它能做出這樣的判斷,這是2.0日常工作的一部分,就是它自我判斷出哪里不好,然后改進(jìn)。
它的限制其實(shí)也很明顯,比如說(shuō)我要收集一下這個(gè)版本路上的情況,這件事情必須要人來(lái)做,因?yàn)樗约簺](méi)有辦法擁有這個(gè)車,不掌握車鑰匙,我要幫他做好這些測(cè)試,包括收集反饋的過(guò)程,他自己并沒(méi)有辦法完全完成,他是在人的輔助之下完成一些事。
這其實(shí)一開(kāi)始對(duì)我有沖擊,但我已經(jīng)接受很久了,各位可能還會(huì)有沖擊,就是說(shuō)我們很多研發(fā)的關(guān)鍵部分是AI驅(qū)動(dòng)的,它給我安排任務(wù)。當(dāng)然這個(gè)更多只是在研發(fā)上,它需要在人的幫助下解決各種case,讓case跟實(shí)際情況完全一樣。它的上限至少我還沒(méi)有完全看到,它的上限是非常高的。
問(wèn):精度更多指什么?
樓天城:世界模型2.0強(qiáng)調(diào)的精度更多指:“世界模型1.0”的精度,即虛擬世界里面的駕駛環(huán)境能否跟真實(shí)世界一樣,比如其他車輛跟AI司機(jī)的交互是否真實(shí)。至于intention,這個(gè)是生成模型的中可以制定的token,決定權(quán)在訓(xùn)練方。
Q:世界模型加了一個(gè)意圖層,這在架構(gòu)方面是怎么做到的?
樓天城:意圖層指的是訓(xùn)練過(guò)程當(dāng)中的意圖層,而不是開(kāi)車過(guò)程當(dāng)中的意圖層,開(kāi)車過(guò)程當(dāng)中有在線強(qiáng)化學(xué)習(xí),這也是新的技術(shù),但是這個(gè)各家都會(huì)用一些,不是我們宣傳的主要內(nèi)容,簡(jiǎn)單來(lái)說(shuō)是有的,但是亮點(diǎn)不在這。
我們的意圖層是一個(gè)生成型的意圖,因?yàn)樵谀承﹫?chǎng)景上,有很多其他的車、甚至是其他的人,我先強(qiáng)制說(shuō)這些人、這些車是什么意圖,然后開(kāi)始開(kāi)。在這個(gè)場(chǎng)景當(dāng)中,我可以窮舉所有其他物體的意圖組合,讓車在所有組合當(dāng)中一個(gè)判斷,這個(gè)是我們世界模型做意圖層的關(guān)鍵。
這個(gè)好處有點(diǎn)像多元宇宙,就是人開(kāi)車的時(shí)候我會(huì)對(duì)人周圍每個(gè)物體的意圖做一個(gè)判斷。但是其實(shí)我們自動(dòng)駕駛車不是這樣開(kāi)的,而是對(duì)所有的意圖組合做一個(gè)綜合評(píng)價(jià),然后判斷怎么開(kāi)。它腦子里會(huì)做組合,然后看哪些組合是我需要小心的,然后它去開(kāi),這也是它開(kāi)的比人安全的另外一個(gè)表示。
但是有一點(diǎn),這個(gè)意圖必須要在虛擬世界生成,因?yàn)槲铱梢韵壬梢鈭D,然后反向說(shuō)這個(gè)意圖下其他車要怎么開(kāi)。
Q:如何理解“旁邊那輛車到底是要加塞還是讓行”這種模糊意圖的?
樓天城:可能要退一步。有3個(gè)模型,"車載模型"負(fù)責(zé)開(kāi)車,"世界模型1.0"負(fù)責(zé)訓(xùn)練"車載模型","世界模型2.0"負(fù)責(zé)驅(qū)動(dòng)研發(fā)團(tuán)隊(duì)改進(jìn)"世界模型1.0"。理解和處理“旁邊那輛車到底是要加塞還是讓行”,指的是"車載模型"的能力。生成加塞或讓行用于訓(xùn)練,是"世界模型1.0"的任務(wù)。"世界模型2.0"的任務(wù)是讓這個(gè)過(guò)程更符合實(shí)際道路上的情況。
![]()
Q:意圖是在訓(xùn)練層,落到車端的執(zhí)行層會(huì)有延遲嗎?
樓天城:車在執(zhí)行的時(shí)候,只有車輛模型本身。它會(huì)以訓(xùn)練時(shí)同樣的方式,估計(jì)出其他車的意圖分布,然后做出判斷。因?yàn)樵谟?xùn)練階段,系統(tǒng)也并不會(huì)被告知唯一確定的意圖,同樣是基于意圖分布來(lái)決策,所以兩者狀態(tài)是一致的。
我們覺(jué)得,意圖才是開(kāi)車的更核心層面。人開(kāi)車,其實(shí)就是靠意圖來(lái)決定怎么開(kāi),這一點(diǎn)大家根據(jù)日常開(kāi)車習(xí)慣都能體會(huì)到。相比之下,語(yǔ)言并不是駕駛過(guò)程中最核心的東西。我相信很多年以后回過(guò)頭看,如果真的只能留下一個(gè)layer,那一定保留的是意圖層,而不是語(yǔ)言。因?yàn)槿嗽陂_(kāi)車的時(shí)候,并不會(huì)想著語(yǔ)言。—這也是意圖之所以重要的一個(gè)體現(xiàn)。意圖層本質(zhì)上就是一個(gè)多元宇宙概念。
Q:如何看待,把稍大模型(幾千TOPS算力芯片)放車端,還是選擇小參數(shù)模型、用云端算力?
樓天城:我先拋開(kāi)L4和L2的差別,單說(shuō)模型本身。對(duì)于自動(dòng)駕駛來(lái)說(shuō),如果模型大小只差3到5倍,完全可以通過(guò)最頂尖的蒸餾技術(shù),基本上做到看不出差別。大家覺(jué)得DeepSeek做得非常極致,它減少了20倍。也就是說(shuō),如果算力只差三五倍,本質(zhì)上是一個(gè)“錢花在哪里”的問(wèn)題,你是愿意多買芯片,還是愿意投入蒸餾。換句話說(shuō),你是選擇多招一些工程師把模型蒸餾好,還是索性把錢省下來(lái)直接買芯片。
如果真的差100倍,那肯定有區(qū)別,因?yàn)檎麴s沒(méi)辦法蒸100倍。算力差距在100倍這個(gè)量級(jí)上,會(huì)有質(zhì)的差別;但如果只是三五倍,其實(shí)就是預(yù)算分配的問(wèn)題。這個(gè)結(jié)論在各個(gè)領(lǐng)域都是如此。
Q:有用戶反饋,高峰時(shí)段Robotaxi效率相對(duì)低一些。這是一個(gè)技術(shù)問(wèn)題還是其他?
樓天城:這正是我們過(guò)去半年到一年重點(diǎn)提升的方向。在上個(gè)季度財(cái)報(bào)中我們也提到,比如在廣州和深圳,單車盈利模型已經(jīng)實(shí)現(xiàn)了轉(zhuǎn)正。這里最關(guān)鍵的一點(diǎn)是:在高峰期、市中心區(qū)域,用戶對(duì)車輛感到滿意,才愿意打我們的車。車輛的滿意度非常關(guān)鍵,因?yàn)樗苯佑绊懙絾瘟浚簿褪谴蠹以覆辉敢膺x擇我們的車。這是我們近期最重要的提升方向之一。
簡(jiǎn)單來(lái)說(shuō),這確實(shí)是一個(gè)需要技術(shù)攻克的點(diǎn)。最終在通行效率方面,不可能做到像安全性那樣遠(yuǎn)超人類,基本上也就是達(dá)到差不多的水平,甚至有時(shí)會(huì)稍微差一點(diǎn)點(diǎn)。這是因?yàn)橛幸粋€(gè)因素,路上的人對(duì)無(wú)人車和有人車是存在“雙標(biāo)”的,大家更不愿意接受無(wú)人車犯錯(cuò)。因此無(wú)人車必須開(kāi)得稍微謹(jǐn)慎一些,而這種謹(jǐn)慎可能會(huì)影響到通行效率。同樣一種開(kāi)法,人開(kāi)沒(méi)問(wèn)題,但換成自動(dòng)駕駛,可能就會(huì)被罵。所以效率確實(shí)會(huì)略微低一點(diǎn),但不會(huì)低到讓大家感到不滿意。這也是為什么很多人都說(shuō)能做自動(dòng)駕駛、有幾輛車、能運(yùn)營(yíng),但真實(shí)差距在商業(yè)層面就是巨大的差別。
Q:物理AI和自動(dòng)駕駛差別?
樓天城:物理AI就是訓(xùn)練具身的環(huán)境。目前具身相關(guān)的很多應(yīng)用還處在早期階段,大家看到的很多機(jī)器人仍然停留在DEMO狀態(tài)。如果有一天它們要真正走向?qū)嶋H應(yīng)用,具身同樣需要一個(gè)物理世界模型來(lái)進(jìn)行訓(xùn)練,最終也會(huì)發(fā)展到那一步。
你可以把自動(dòng)駕駛看作最早期的具身應(yīng)用之一,它更早地進(jìn)入了應(yīng)用世界模型的狀態(tài)。相比之下,具身的世界模型需要融入更多的物理定律。大家知道,自動(dòng)駕駛只要保證車不發(fā)生碰撞就行,基本上不用太操心“撞了之后會(huì)怎樣”。但在具身場(chǎng)景中,物理接觸要復(fù)雜得多,而且明顯是多維度的。除了視覺(jué),還包括聽(tīng)覺(jué)等多種感知方式。因此,具身的發(fā)展需要更長(zhǎng)時(shí)間,這也完全符合當(dāng)前具身所處的發(fā)展階段。
Q:怎么看待英偉達(dá)年初開(kāi)源了一個(gè)世界模型?
樓天城:世界模型也是不同的意思,世界模型也分為以生成為主的,以交互訓(xùn)練為主和物理世界為主的,英偉達(dá)是生成為主的世界模型,而我們應(yīng)用是用于訓(xùn)練,所以我們不會(huì)直接買來(lái)用,但是有其他用于生成的人還是很有用的,還是因?yàn)樗胁煌挠猛荆皇俏覀冞@一支的用途。
Q:越來(lái)越多了車企布局Robotaxi,他們會(huì)不會(huì)很快上量,會(huì)影響到小馬節(jié)奏嗎?
樓天城:首先,我們擁有多款車型也是平臺(tái)的一大優(yōu)勢(shì)。同一套技術(shù)方案可以部署在不同車型上。大家也知道,Robotaxi在不同地區(qū)會(huì)有一些本地化特點(diǎn),比如本地用戶更傾向于乘坐本地品牌的車輛,這也是我們考慮的因素之一。
關(guān)于“量”的問(wèn)題,確實(shí)現(xiàn)在有很多玩家開(kāi)始進(jìn)入Robotaxi市場(chǎng)。但從另一方面看,各家的技術(shù)路線其實(shí)很相似,大家都在提基于世界模型的強(qiáng)化學(xué)習(xí),相信各位也聽(tīng)過(guò)不少類似的說(shuō)法。從發(fā)展路徑來(lái)看,大家走的也是傳統(tǒng)Robotaxi公司走過(guò)的路。換句話說(shuō),至少L2階段積累的經(jīng)驗(yàn),并沒(méi)有為L(zhǎng)4提供太多幫助。比如L2說(shuō)有更多真實(shí)數(shù)據(jù),但實(shí)際上,大家都在按照真正L4的發(fā)展路徑往前走。反過(guò)來(lái)說(shuō),即使是不做L4的公司,也可以走這條路。
另外,在當(dāng)前L4領(lǐng)域,真正決定能否大規(guī)模鋪開(kāi)的關(guān)鍵是車的駕駛能力、AI能力以及安全性。造車的能力,我并不是說(shuō)它容易,但從Knowhow來(lái)看,它是一個(gè)相對(duì)更寬泛的領(lǐng)域。我認(rèn)為造車本身可以通過(guò)合作來(lái)實(shí)現(xiàn),造車能力并不是影響車隊(duì)規(guī)模能做多大的關(guān)鍵因素。
Q:它的關(guān)鍵因素是什么?
樓天城:真正決定能否部署大量車輛的關(guān)鍵,是車的AI駕駛能力以及安全性。而要提升安全駕駛能力,就必須走L4級(jí)別的強(qiáng)化學(xué)習(xí),或者說(shuō)世界模型這條技術(shù)路線。
大家都愿意往這個(gè)方向走,一方面說(shuō)明行業(yè)得到了很多關(guān)注,但另一方面,所有玩家已有的積累其實(shí)幫不上太多忙,大家都要沿著這條路慢慢摸索。這是我們看到的趨勢(shì)。
換句話說(shuō),沒(méi)有任何道理能夠省略從0到1000之間的任何一個(gè)步驟。任何一家L4公司從0走到1000所必須經(jīng)歷的所有階段,L2公司也全都得走一遍。
Q:Robotaxi什么時(shí)候能夠走進(jìn)我們?nèi)粘#?/strong>
樓天城:這正是Robotaxi最有意義的特點(diǎn)。它和傳統(tǒng)APP、以及ChatGPT最大的不同在于,用戶的體驗(yàn)需要通過(guò)物理接觸來(lái)完成。我說(shuō)某個(gè)APP很好用,你打開(kāi)網(wǎng)頁(yè)聊聊天就能感受到;但我說(shuō)一輛車開(kāi)得好不好,你必須真正坐上去體驗(yàn)一下。這是所有物理世界應(yīng)用的共性,并不會(huì)因?yàn)樽詣?dòng)駕駛就有所不同。
這個(gè)特點(diǎn)帶來(lái)的結(jié)果,就像您提到的:占領(lǐng)用戶心智需要非常長(zhǎng)的時(shí)間,不是一鋪開(kāi)所有人就會(huì)立刻使用。所以我們才要一個(gè)一個(gè)城市去鋪,一步一步接觸用戶,這個(gè)過(guò)程是必須的。同時(shí),這也意味著后來(lái)者想要進(jìn)入這個(gè)領(lǐng)域,同樣需要經(jīng)歷這個(gè)過(guò)程,無(wú)法像互聯(lián)網(wǎng)產(chǎn)品那樣一夜之間傳播到所有人面前。這是物理AI應(yīng)用的一個(gè)典型特征,需要更長(zhǎng)的時(shí)間來(lái)達(dá)到更大規(guī)模,但好處是一旦達(dá)到了,它的護(hù)城河也會(huì)更強(qiáng)。這本身就是它的特點(diǎn)。
我們所說(shuō)的Robotaxi,都是指真正的無(wú)人駕駛。問(wèn)題不在于你能不能生產(chǎn)出1000輛車,而是究竟有沒(méi)有本事做到幾百輛、幾千輛上路。根本還是在于你的車安全性夠不夠,放這么多車上路,能不能不出事故,能不能不被用戶和路人詬病,這才是關(guān)鍵。
Q:您還認(rèn)為從底層技術(shù)來(lái)說(shuō)L2和L4是不同的物種嗎?
樓天城:剛剛我是從產(chǎn)品角度來(lái)解釋的,說(shuō)明了L2和L4在產(chǎn)品上的區(qū)別,以及L2做得好了反而容易出現(xiàn)的問(wèn)題。下面我再?gòu)募夹g(shù)層面談?wù)勥@兩者之間的差別。
技術(shù)上,大家只需要關(guān)注一點(diǎn):很多人以為L(zhǎng)2對(duì)L4的幫助,主要體現(xiàn)在數(shù)據(jù)上,L2車輛能采集大量真實(shí)數(shù)據(jù),用來(lái)輔助L4。但問(wèn)題也很明顯:到了L4后期,真正依賴的反而是虛擬數(shù)據(jù)、合成數(shù)據(jù)。在這種情況下,過(guò)度依賴真實(shí)數(shù)據(jù)反而可能帶來(lái)負(fù)面影響。這就導(dǎo)致L2積累的最關(guān)鍵優(yōu)勢(shì),其實(shí)幫助不到L4真正的進(jìn)展。
如果你要做L4,就必須按照L4的方式,比如構(gòu)建世界模型、做強(qiáng)化學(xué)習(xí),把這些步驟完整走一遍。這一點(diǎn)上,任何一家公司來(lái)做,并沒(méi)有本質(zhì)差別。
Q:小馬智行成立10年間,自動(dòng)駕駛行業(yè)最大的認(rèn)知糾偏是什么?
樓天城:我覺(jué)得核心就是世界模型。我們是2020年開(kāi)始做世界模型的,第一次對(duì)外公開(kāi)提到這件事是在2024年,中間那幾年因?yàn)橐咔椋](méi)有說(shuō)太多。當(dāng)時(shí)我剛提出來(lái)的時(shí)候,很多人都覺(jué)得我像個(gè)異類——大家都在用采集真實(shí)數(shù)據(jù)做模仿學(xué)習(xí),什么時(shí)候開(kāi)始放棄模仿、轉(zhuǎn)向仿真,什么時(shí)候開(kāi)始從模仿學(xué)習(xí)走向自我學(xué)習(xí)?但今天,已經(jīng)沒(méi)有人再這么說(shuō)了,所有人都在講世界模型。這也是越來(lái)越多行業(yè)外的同行愿意接納這個(gè)思路的過(guò)程,對(duì)大家?guī)椭艽蟆?/p>
不過(guò),這個(gè)過(guò)程對(duì)人的沖擊是很大的。你需要接受一件事:你作為一個(gè)老師教學(xué)生,教著教著,學(xué)生比你強(qiáng)了,你就不要再繼續(xù)“手把手”教了,最好的方式是創(chuàng)造一個(gè)環(huán)境、創(chuàng)造條件,讓學(xué)生自己去變好。這種認(rèn)知上的轉(zhuǎn)變,對(duì)人是會(huì)有沖擊的。但這個(gè)行業(yè)很好,大家都比較開(kāi)放,接受了這種沖擊,意識(shí)到人的局限性,也意識(shí)到人跟AI應(yīng)該怎么配合。
說(shuō)起來(lái)我也有些感慨,AI剛出現(xiàn)的時(shí)候,圖靈測(cè)試非常有名。圖靈測(cè)試的意思是一個(gè)人坐在中間,左右兩邊分別是一個(gè)AI和一個(gè)人,看他能不能分辨出哪邊是人、哪邊是AI。圖靈測(cè)試的本意是希望AI像人一樣。但我反過(guò)來(lái)想,如果AI超越了人類,那么圖靈測(cè)試其實(shí)應(yīng)該能夠區(qū)分出AI和人,因?yàn)楦玫哪莻€(gè)是AI,更差的是人。這么多年過(guò)去,大家并沒(méi)有接受AI在很多方面能超越人類。但在自動(dòng)駕駛這個(gè)領(lǐng)域,過(guò)去十年里,很多人接受了這件事。我對(duì)此非常感激,因?yàn)榇蠹业男膽B(tài)確實(shí)很開(kāi)放。今天圖靈測(cè)試其實(shí)是失效的——因?yàn)樽龅酶玫哪莻€(gè),已經(jīng)是AI,而不是人了。
Q:那就不能反過(guò)來(lái)嗎?
樓天城:人可以反過(guò)來(lái)判斷,就是說(shuō)話突然之間會(huì)“腦抽”的是人,一直很有邏輯的是AI。今天大家跟聊天工具聊就會(huì)有感受,我問(wèn)你一個(gè)什么問(wèn)題,還不如問(wèn)AI工具,這個(gè)現(xiàn)象很明顯。
Q:全車規(guī)、全冗余L4級(jí)無(wú)人駕駛輕卡的難點(diǎn)是什么?
樓天城:從根本上來(lái)講,我們意識(shí)到輕卡和Robotaxi之間存在很多相同之處。大家知道,我們所說(shuō)的輕卡是指2到5噸級(jí)別的,不是那種非常小的車。輕卡實(shí)際運(yùn)營(yíng)的場(chǎng)景都是在正常的道路上,從集散地到集散地,這些道路條件與日常打車場(chǎng)景非常接近,走的是一樣的路,面臨一樣的要求,一樣的車流,一樣的下雨天,所有問(wèn)題都高度相似。可以說(shuō),這是我們找到的、Robotaxi技術(shù)場(chǎng)景最好的延伸方向。兩者的難點(diǎn)和關(guān)鍵點(diǎn),基本上是一致的。
![]()
至于車規(guī)和冗余的問(wèn)題,是因?yàn)槲覀儚腞obotaxi的經(jīng)驗(yàn)中認(rèn)識(shí)到:一臺(tái)車既然要在路上跑,大家對(duì)它的安全要求一定非常高,該做的事情都必須做到。所以我們決定一步到位,沒(méi)有選擇先做沒(méi)有冗余的版本去試錯(cuò),而是直接按照應(yīng)有的安全標(biāo)準(zhǔn)來(lái)設(shè)計(jì)這款車。因此,輕卡可以說(shuō)是很好地沿襲了小馬智行已有的優(yōu)勢(shì),是我們最直接的商業(yè)拓展方向。
Q:計(jì)劃怎么布局輕卡領(lǐng)域無(wú)人駕駛?
樓天城:提到無(wú)人物流車,我還是先從監(jiān)管說(shuō)起。現(xiàn)在物流車領(lǐng)域已經(jīng)有了更加標(biāo)準(zhǔn)化的監(jiān)管,最近也出臺(tái)了對(duì)物流車的相關(guān)管理規(guī)定,對(duì)什么樣的人可以上什么樣的道路,給出了更明確的要求。尤其是在物流行業(yè),特別是城際物流,能夠上一定等級(jí)的快速路是非常重要的。這些車輛并不是走羊腸小道就能通行的,它們通常以40、60甚至80公里的時(shí)速在路面上運(yùn)行。這就要求車輛本身是一輛足夠好的車,一輛正常人能開(kāi)的車,也意味著它在穩(wěn)定性、安全性驗(yàn)證等各方面都必須通過(guò)標(biāo)準(zhǔn)。
因此,我們希望從具備車規(guī)級(jí)或符合標(biāo)準(zhǔn)的方式進(jìn)入這個(gè)市場(chǎng)。我們也相信,隨著未來(lái)監(jiān)管越來(lái)越嚴(yán)格、也越來(lái)越標(biāo)準(zhǔn)化,能夠合法開(kāi)上這些道路的車輛,在整個(gè)運(yùn)輸體系中會(huì)擁有更大的發(fā)揮空間。
Q:為什么沒(méi)有做更小的車?
樓天城:我們認(rèn)為輕卡是最大的市場(chǎng),我們也做過(guò)統(tǒng)計(jì)不同車型的數(shù)量,這個(gè)車其實(shí)是市場(chǎng)上運(yùn)載量最大的,而且明顯比第二大很多。可能唯一能跟它比的就是卡車和Robotaxi。
Q:為什么現(xiàn)在布局Robovan?這一市場(chǎng)有沒(méi)有特殊技術(shù)問(wèn)題需要解決?
樓天城:我們的Robotaxi和Robotruck在技術(shù)上有大約80%的共享部分。自動(dòng)駕駛物流的共享比例只會(huì)更高,甚至可以說(shuō),絕大部分真正最難的部分都是共享的。那么最難的部分是什么呢?是路上的一些極端情況,比如突然的加塞、與周圍車輛的博弈、各種非常危險(xiǎn)狀態(tài)的應(yīng)對(duì)。這些難點(diǎn)跟開(kāi)的是一輛轎車還是一輛大貨車,并沒(méi)有本質(zhì)區(qū)別。核心難點(diǎn)都是共享的。正是因?yàn)槲覀兛吹搅思夹g(shù)上的這種共享空間,所以才這樣去做。
另外,從商業(yè)角度來(lái)看,也有越來(lái)越多人開(kāi)始相信這個(gè)故事。兩年前,很多人并不太相信這個(gè)方向,或者說(shuō)不太相信它能帶來(lái)效率的提升。而今天,這是雙方互相推動(dòng)、共同發(fā)展的一個(gè)過(guò)程。
Q:小馬智行新一代Robotaxi選擇用4顆Orin來(lái)等效1000TOPS的算力,而不是單顆的Thor-X為什么?
樓天城:關(guān)于算力芯片的問(wèn)題,其實(shí)非常簡(jiǎn)單。核心在于我們需要一個(gè)冗余系統(tǒng)。如果僅僅是一顆Thor芯片,我會(huì)懷疑它是否構(gòu)成一個(gè)完整的系統(tǒng)。因?yàn)樽詣?dòng)駕駛本身是要求冗余的。
我們的方案是分成兩組,不是“2+2”,而是“3+1”。我們專門用一顆Orin芯片來(lái)做冗余,它的任務(wù)是當(dāng)系統(tǒng)其他部分失效時(shí),能夠保障最基本的安全,比如讓車輛穿過(guò)危險(xiǎn)區(qū)域,安全地靠邊停車。因此,系統(tǒng)本身的獨(dú)立性非常重要。如果只用一顆Thor芯片,一旦整顆芯片出了問(wèn)題,系統(tǒng)就完全無(wú)法應(yīng)對(duì)了。
當(dāng)然,如果真的是單顆Thor-X芯片,那是另外一回事。但如果方案是一顆Thor加上一顆Orin,只是沒(méi)有把Orin單獨(dú)算出來(lái),那也可以。不過(guò),從技術(shù)角度來(lái)說(shuō),大家不會(huì)這樣去設(shè)計(jì),我也沒(méi)有聽(tīng)說(shuō)過(guò)任何一家公司會(huì)用一顆Thor加一顆Orin來(lái)做。這個(gè)層面的細(xì)節(jié)確實(shí)有點(diǎn)深了。
Q:四顆獨(dú)立芯片之間的通訊,相比單顆會(huì)不會(huì)受影響?
樓天城:這個(gè)很多工作能做好的話,能夠彌補(bǔ)這個(gè)缺陷。但是對(duì)方也不可能是一顆Thor,至少是兩顆Thor,但是如果說(shuō)是兩顆Thor的話,那成本就非常高了。
Q:車端是什么架構(gòu),什么方案?
樓天城:首先我相信,車端各家基本都已經(jīng)處于端到端的狀態(tài)了。如果不是端到端,也不好意思說(shuō)自己是L4。單從高層面來(lái)看,彼此之間的差異其實(shí)已經(jīng)不太明顯。因此,更多的不同點(diǎn)體現(xiàn)在訓(xùn)練范式1.0和開(kāi)發(fā)范式2.0上,這是主要的差別。所以我的重點(diǎn)也會(huì)放在那些能夠真正體現(xiàn)差異的地方。
說(shuō)到車端的問(wèn)題,剛才提到的意圖也是車端的一個(gè)特點(diǎn),但它是得益于訓(xùn)練范式1.0的不同所帶來(lái)的優(yōu)勢(shì)。
如果單看車端的高層面,大家基本都已經(jīng)實(shí)現(xiàn)了端到端,以Transformer為主。不過(guò),很多訓(xùn)練上的決策其實(shí)是由模型自己來(lái)完成的。雖然結(jié)構(gòu)很多東西需要人來(lái)確認(rèn),但大量?jī)?yōu)化部分已經(jīng)交給模型去做了。這種方法可以理解為“用模型來(lái)訓(xùn)練模型”,比如先構(gòu)建一個(gè)世界模型,再用它去訓(xùn)練其他模型,其中的許多結(jié)構(gòu)設(shè)計(jì)是由AI自主決定的,而不是人為設(shè)定的。
Q:圈內(nèi)也有人把車端的模型叫做世界模型,怎么理解?
樓天城:我覺(jué)得這可能是一個(gè)誤解。確實(shí)存在某種在線的做法,但嚴(yán)格來(lái)說(shuō),那個(gè)東西是不是該叫世界模型,其實(shí)可以硬去那么叫。它更多體現(xiàn)的是一個(gè)Smart Agent的行為。因?yàn)槭澜缒P统撕蚐mart Agent做交互之外,還需要包含評(píng)價(jià)的部分。但評(píng)價(jià)本身很難想象會(huì)放在車端,那樣會(huì)顯得很奇怪。
Q:世界模型的能力邊界在哪里?對(duì)未來(lái)路線選擇會(huì)有什么影響?
樓天城:技術(shù)路線本身也就是拿一個(gè)模型來(lái)開(kāi)發(fā),這已經(jīng)是接下來(lái)的發(fā)展方向了。這件事不僅出現(xiàn)在自動(dòng)駕駛領(lǐng)域,我們把它叫做Agent。現(xiàn)在很多領(lǐng)域已經(jīng)在用Agent做研發(fā),這已經(jīng)是一種現(xiàn)實(shí)。所以用Agent做研發(fā),就是自動(dòng)駕駛接下來(lái)更加常見(jiàn)的技術(shù)路線。
至于能力邊界的問(wèn)題,至少它已經(jīng)證明了,Agent能夠超越由人來(lái)研發(fā)所達(dá)到的上限。但它自己的上限在哪里,目前AI還無(wú)法回答這個(gè)問(wèn)題,我也只能去問(wèn)AI本身。如果說(shuō)有一天,它能做到虛擬世界和真實(shí)世界非常接近,并利用所有AI的能力進(jìn)行訓(xùn)練,那么在復(fù)雜場(chǎng)景下比人類高出很多,這一點(diǎn)是一定能做到的。但最終的上限在哪里,其實(shí)是應(yīng)該由AI來(lái)回答的問(wèn)題。
Q:從AI開(kāi)車到AI評(píng)估開(kāi)車,下一步會(huì)是AI來(lái)干什么?
樓天城:兩個(gè)方向。
第一是物理。物理世界中還有很多東西是AI尚未攻克的,尤其是真正理解物理世界的運(yùn)作機(jī)制。今天我不太確定AI能不能在短時(shí)間內(nèi)做到這一點(diǎn)。甚至如果有機(jī)會(huì),我也愿意為此做一些貢獻(xiàn),也就是通過(guò)AI的方式來(lái)理解物理世界究竟是如何運(yùn)作的。這是一件非常有挑戰(zhàn)性的事情。
第二是,AI已經(jīng)從“訓(xùn)練模型”走向了“驅(qū)動(dòng)研發(fā)”的階段。接下來(lái),它能不能進(jìn)一步去運(yùn)行一個(gè)更大的團(tuán)隊(duì),或者運(yùn)營(yíng)一家公司,由AI來(lái)制定策略?再往后,它甚至有可能去管理一個(gè)社區(qū)。從AI發(fā)展的角度來(lái)看,有一種分級(jí)標(biāo)準(zhǔn):Agent最開(kāi)始是輔助人類完成工作,接著可以獨(dú)立完成某些任務(wù),再進(jìn)一步能夠自主創(chuàng)新。其實(shí)今天AI已經(jīng)具備了一定的自主創(chuàng)新能力。下一個(gè)階段的關(guān)鍵,就是它能不能運(yùn)行一個(gè)“社區(qū)”,也就是開(kāi)始具備社會(huì)性能力。這會(huì)是AI發(fā)展的一個(gè)重要趨勢(shì)。
如果說(shuō)大家會(huì)擔(dān)心人類有一天需要學(xué)會(huì)與AI共存,那其實(shí)就是在那個(gè)階段。到那時(shí),人類確實(shí)需要認(rèn)真思考:人和AI之間的關(guān)系到底是什么。
Q:怎么看待自動(dòng)駕駛行業(yè)可能面臨著大模型公司的降維打擊這一說(shuō)法?
樓天城:如果你指的是像OpenAI這樣的大模型公司,這類東西的標(biāo)準(zhǔn)叫法其實(shí)是“基礎(chǔ)模型”,英文里并沒(méi)有“大模型”這個(gè)詞,只有基礎(chǔ)模型(Foundation Model)。它們其實(shí)都是自動(dòng)駕駛公司進(jìn)步的基礎(chǔ),大家之間是合作關(guān)系。
但從另一個(gè)維度來(lái)看,真正要做到自動(dòng)駕駛,遠(yuǎn)不止有一個(gè)模型就夠了。首先,基礎(chǔ)模型本身本質(zhì)上更像是Token之間的“成語(yǔ)接龍”。在這個(gè)基礎(chǔ)模型之上,我們還需要完成很多后續(xù)工作,比如構(gòu)建Agent、做出產(chǎn)品、進(jìn)行硬件適配、做好運(yùn)營(yíng)等等。這些都是在基礎(chǔ)模型的基礎(chǔ)上進(jìn)一步完成的事情。因此,大家確實(shí)是合作關(guān)系。
即便你擁有一個(gè)非常完美的基礎(chǔ)模型,后面這些工作一樣也省不掉。簡(jiǎn)單來(lái)說(shuō),如果只是一個(gè)模型,甚至任何新玩家進(jìn)入這個(gè)市場(chǎng)影響也不會(huì)很大,或者說(shuō)進(jìn)入門檻依然很高。但如果說(shuō)基礎(chǔ)模型越來(lái)越好,那確實(shí)會(huì)幫助到其他公司的進(jìn)步,我們?cè)谶@方面也得到了好處。所以說(shuō),大家更多是合作關(guān)系。自動(dòng)駕駛不只是一個(gè)模型,而是一整套系統(tǒng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.