網易首頁 > 網易號 > 正文 申請入駐

對話小馬智行樓天城:馴服脫韁的野馬,讓 AI 自我進化

0
分享至



現在最稀缺的是能駕馭 AI 的人。

文丨李安琪

很長一段時間,樓天城都在向外界解釋一件事:L4 Robotaxi 和 L2 量產智駕不是同一條路。他曾多次說過,模仿學習無法實現 L4。

最近頭部車企 L2 智駕和供應商正在轉向世界模型,強化學習常常一起出現。對此樓天城表示 No surprise,他說這是小馬智行已經做了很多年的事!跋胱 L4,大家就都要從 0 開始做,或者說再走一遍我們走過的路!

樓天城說,小馬智行 2020 年就意識到,依賴人類駕駛行為數據的模仿學習很快會遇瓶頸;模型需要一個能持續生成的虛擬場景、評估行為、行為博弈的訓練系統,才能突破天花板。小馬智行把這套系統稱為 “世界模型”。

2024 年推出世界模型 1.0 時,樓天城曾向我們比喻,世界模型是車端模型的工廠。不同公司對 “世界模型” 的定義不完全相同。在樓天城的描述里,它不直接開車,只負責模擬車端模型決策后世界如何變化:周圍交通參與者如何反應,風險是否繼續演化。

近期,樓天城再次向我們談到世界模型的最新變化。他說,世界模型 1.0 很多判斷仍依賴人:人來診斷問題、判斷開得好不好,再決定采什么數據、優化哪些場景。

但人力也可能成為 “瓶頸”。在世界模型 2.0 中,小馬智行將更多診斷和反饋工作交給 AI:例如當車端模型在某個場景表現不佳時,世界模型 2.0 會嘗試自動識別問題,并要求工程師補采特定場景數據。

創業早年,樓天城作為 CTO 最重要的工作之一是招足夠聰明的人,自動駕駛的系統上限也取決于團隊里最強的工程師。而今天 AI 成為小馬內部最聰明的大腦:開車比人好,駕齡比人長。樓天城常常跟工程師說一句既玩笑又認真的話,“完成 AI 交給你的任務。”

最早走這條路線,樓天城也擔心:模仿學習走不通,新路線短期內也不跑不通怎么辦?不過,世界模型的推進速度比他預期更快。在新技術路線支撐下,小馬智行計劃今年將 Robotaxi 擴展到全球 20 個城市中心。

把更多工作交給 AI 后,挑戰也隨之而來:AI 的診斷未必總是正確,如何更準確地識別問題、反饋問題,仍需要在 Robotaxi 實際運營中驗證。樓天城將當下的 AI 比喻為脫韁野馬,現在最稀缺的是能駕馭 AI 的人,能設置框架、讓其自我演進。

樓天城還在研究下一階段的世界模型。雖然還看不清技術全貌,但他已想到更遠的終局:他一直堅持認為,現實世界是個虛擬世界。如果真的有一天,他希望用世界模型來研究微觀世界,從而理解真實世界究竟如何存在與運轉!斑@可能是人類充分利用 AI 后,我們這代人類能做的最大貢獻之一!

以下是我們和小馬智行 CTO 樓天城的對談,內容經編輯:

“L2 變化很快,但 L2 的積累不會再幫助他們做 L4”

晚點:L2 智駕領域經歷了多輪技術變化,但 L4 Robotaxi 領域很少看到技術迭代的大波動,為什么?

樓天城:Robotaxi 技術門檻非常高,必須達到非常安全才能入門。L2 因為有人接管,可以更早鋪開,技術方案的變化相對更多。這某種程度上也是 L4 門檻高的一個表現。

晚點:看到 L2 這么多輪變化,你內心有什么想法嗎?

樓天城:no surprise,他們走的路徑、這些變化我都經歷過。在我看來,確實是大家在努力的過程。

晚點:你自己是怎么變化和迭代的?

樓天城:就是對更高、極致的車輛駕駛能力追求的過程。同樣是 L4,也有很大差別,能不能開到市中心區域,高峰期能不能開,訂單量夠不夠高,能不能去更多城市和國家,這些都可以不斷進步。從技術路徑上看,基于世界模型、強化學習的大框架這幾年沒有變化,不過細節升級是巨大的。

晚點:你們從 2020 年開始摸索世界模型,當時 Robotaxi 的表現遇到瓶頸了嗎?

樓天城:所有人都會遇到,單靠收集更多人類數據、模仿人類開車這套方式,模型已經很難再進步了,就是單車 MPI(平均多少里程需要接管一次)上不去了。我們也是被逼的,原來那套做法已經不管用了。

我們 2020 年開始做世界模型和強化學習。公司內部也經歷了這樣的變化:以前模型跟著人類司機開就是了;后來發現,為了實現 Robotaxi 的大規模落地,跟人類司機一樣好是不夠的,于是給模型創造一個虛擬的訓練環境,設置強化學習獎勵函數,模型自己摸索。

就像高中老師,要把知識傳授給學生;到了讀研讀博階段,很多問題可能導師也不會,但會給你創造條件。用世界模型本身不表示技術領先,如果精度不高,還不如采集人類數據來優化。

隨著我們世界模型精度不斷提升,大概 2022 年開始,發現它能超過傳統模仿學習的水平。很多家都開始往世界模型走,說明大家都有了心態的變化,開始認識到人類駕駛能力的不足,認識到實際道路采集數據可能不是一個好的做法了。

晚點:當時的主流應該還是模仿學習,會擔心冒險嗎?

樓天城:我冒的 “險” 其實是萬一這路還不 work 怎么辦?首先從技術判斷,大概率還是 work 的,但究竟要用多少時間,可能是個問題。萬一要用很久了,大家能不能支撐這么久?

晚點:虛擬世界是你們的世界模型 1.0,那做世界模型 2.0 的契機是什么?

樓天城:世界模型不是有和沒有的區別,而是看精度。我們把虛擬世界中的其他車輛的行為跟模型的交互,與真實世界非常接近,叫做精度高;如果差別很大就叫精度低。

世界模型 1.0 的出現,是大家接受了要像博士導師一樣給模型創造條件。但這個階段,裁判仍然是人,模型開的好不好,還是人來判斷。但你有沒有想過,有一天人如果判斷不了怎么辦?遇到瓶頸了怎么辦?世界模型 2.0 有個很好的功能是自我糾錯。

有時候路上非常繁忙,車輛該不該減速?說不清楚,萬一撞了怎么辦?只能人為判斷。 但有段時間人為判斷反而車開得更差了,原因是當 AI 司機的水平顯著超越人之后,人類司機已經不足以判斷它開的好不好了。

有一個很著名的梗是圖靈測試,本來是讓人盲測區分人和 AI,因為當時預期的 AI 是約等于人的能力。但如果 AI 變得比人更強大了怎么辦?世界模型 2.0 也是這個概念,人不能區分 AI 的駕駛能力好壞了,那就用 AI 來區分。

晚點:L2 領域很多技術概念和你提到的東西越來越像:世界模型+強化學習,技術共性越來越多?你怎么看?

樓天城:說明大家之前的方案也遇到瓶頸。

晚點:你之前覺得他們大概率到不了 L4。

樓天城:因為之前他們的方案對于做 L4 并沒有幫助。就是說你如果不想做 L4 沒關系,但想做 L4 大家就從 0 開始做,或者說這種事就走我們的老路上了。

至于達到什么水平,有可能還是我們 4-5 年前的狀態,得看世界模型的實際精度。Again,世界模型不是有了就可以做到了,還得精度高,車的表現得好。

世界模型本身是虛擬的,如果這個世界物體的行為跟真實世界的不一樣,那訓練出來的模型不太會開車。如果其他車反應非常激進,那訓出來的模型上路肯定謹小慎微,反過來,如果虛擬世界的車都守規矩,那模型在真實世界就沒有 handle 極端情況的能力,意識不到危險的存在。

晚點:世界模型的共識為什么這么久才形成?

樓天城:之前不形成是因為,大家開始覺得模仿學習是方向,還沒到強化學習。2020 年之前,我也是模仿學習,每天多收一點數據,效果慢慢變好,何必這么累,是個舒適區。如果沒意識到舒適區里有瓶頸,就不會跳出來。

根本還是在于,大家愿不愿意接受這是個瓶頸,得承認當初收集的數據,很多積累、擅長的東西都變得沒用了,接受會有個過程。但 L2 的積累不會再幫助他們做 L4 了。

晚點:所以你認為自動駕駛領域不存在 Scaling law ?

樓天城:這本身是個認知。最近大語言模型加數據還是會有幻覺。就看你怎么評價它,如果關注的是幻覺出現的概率,那 Scaling law 可能還不夠;但如果以 general capability (通用能力)來說,Scaling law 是有進步的。

晚點:你看重哪一點?

樓天城:自動駕駛是物理 AI 的一種,出錯的成本非常高。自動駕駛 Scaling law 不管用,是因為 Robotaxi 關注的東西,靠 Scale 不太管用,萬一有幻覺怎么辦?但如果是常規場景處理,不要求處理邊界場景比如 L2,司機可以兜底,Scaling law 可能對它有幫助。目標不同,不同判斷。

晚點:你什么時候比較完整的看到了世界模型的全貌,全貌應該是什么樣的?

樓天城:我也在逐漸看清楚,這是一個過程。2020 年我已經想到了,1.0 用虛擬環境給模型訓練,但 2.0 的發展確實這兩年才看到?赡苓有世界模型 3.0,今天我還沒看到很多概念。

世界模型 2.0 是 AI ,“完成 AI 交給你的任務”

晚點:小馬世界模型 1.0 和 2.0 的關系是什么?

樓天城:我先解釋下世界模型 1.0。首先,“世界模型”“強化學習” 一般同時出現。它不再依賴人開車到實際道路采集的數據,而是依賴的是在虛擬環境里自演進,這是訓練范式的一次躍升。

晚點:你們怎么搭建這個虛擬世界的?

樓天城:世界模型 1.0 大概是 3 個元素:用傳感器數據造一個虛擬環境;其次,環境里面的各種車、人跟模型的交互要跟真實世界很接近;第三點是評價體系要非常健全,能真正反映車開的好不好,模型會按照打分機制不斷優化自己。車會在世界模型里做幾億次甚至幾千億次訓練。

有一個很著名的詞,叫 “模型訓練模型”,本質是拿一個世界模型訓練一個車載模型。

晚點:虛擬世界里,你們的車跟其他車的博弈,怎么做到跟真實世界的一樣?

樓天城:首先,渲染的環境會跟現實世界的一樣,基本看不出差別。人車博弈肯定不會完全一樣,但很接近了。打分機制也要比較完美,它本身也是個老師模型,你沒法直接評價老師模型的好壞,但它的學生車端模型上路后可以。等于老師教給學生,學生到路上表現不好,老師就會反思,原來這個地方沒教好

最常見的,就是早些年把 corner case 加入一起訓練,出現概率太高,“學生模型” 就會很謹慎了;出現概率太低,“學生模型” 就會魯莽,所以要調整概率。

學生模型的評價體系也重要。比如駕駛的安全感,我們一開始沒有把它加入評價體系,后來才加進去,不斷迭代。我們的車載模型先上路,看看什么地方不好,然后反饋到世界模型改進,再訓練車載模型。

晚點:能舉個例子嗎?

樓天城:舉個幾年前的例子,我們的車在雨天老是減速,后來發現原來雨天時候,傳感器噪聲很多,但我們世界模型中生成的噪聲就很不真實,我們改了之后,車載模型下次就知道要先濾噪,就可以很好應對雨天了。

晚點:這個是工程師排查出來的吧。

樓天城:對,但世界模型 2.0 就不是了。

晚點:世界模型 1.0 跟 2.0 有重疊的部分嗎?

樓天城:沒有重疊,連共同之處都沒有。1.0 是數據生成的場景,評價體系、環境交互這些東西,在這些之外,2.0 擁有自我診斷、自我進化的能力。

我們會把車載模型路上收集的各種數據,也扔給世界模型 2.0,讓它來定義什么是好與不好?它來發現車載模型哪沒做好,它驅動了整個世界模型的演進過程、精度提升過程。它自主完成了世界模型 1.0 的工程師得工作。

整個訓練過程是,世界模型 1.0 訓練車載模型之前,先有另外一個模型來驅動這個過程,這個模型叫做世界模型 2.0。這樣的好處是,不僅效率更高,而且天花板更高。它是一個更高級的開發環境。

晚點:開車是 AI 模型來診斷,但最終乘車的是人類,這個評價體系是不是應該考慮用戶?

樓天城:你有坐過 1 萬小時車嗎?

晚點:沒有。

樓天城:乘客給的評價是很有價值的,但不一定表示系統真的有問題,有可能是不同用戶的喜好不同,也可能是正確或者錯誤的判斷,這些我們都會收集起來,讓 AI 判斷到底是什么問題。用戶的體驗權重我們放很高,但是也會考慮一萬個小時的無人駕駛所有數據,而不只是一趟體驗。

晚點:如果 AI 給的診斷是錯的呢?

樓天城:它的診斷可能不是 100% 正確,但遠比人好。或者說,靠人來診斷,模型進化都是負面效果了,只能靠它繼續沖破天花板,這是它令人 exciting 的地方。

晚點:你們已經能看到令人 exciting 的表現提升了嗎?

樓天城:首先不僅是沖破天花板,而且提升速度比我們前幾年都快,因為它是自動過程,又快又能沖破天花板。

最明顯的就是 Robotaxi 的市中心表現,現在我們去各地市中心、能把單量撐上去,很多商業上的成功,都是靠它做到的。一些狹小道路,各種神奇的場景,我們更能 handle 了。這是基于 1 萬個小時統計的,應對不好的表現頻率明顯在降低,F在評價 Robotaxi,肯定不能再是開一趟的評價了。

晚點:你們世界模型 2.0 有個能力是 intention “意圖層”,它是什么?

樓天城:它是個推演能力,這是世界模型 1.0 的優勢,但可能是由世界模型 2.0 的能力提升,使得 intention 意圖層發揮了潛能 。

簡單舉例,比如人過馬路,要不要過?車變道,要不要變?這些都是意圖層。早年采集數據,你永遠沒法問別的司機你的意圖是什么,因為別人不會告訴你,只能采集行為數據。但世界模型里面可以生成意圖,這是一個不需要標注的無限量的信號。注意,它不是靠采集的,它天然就存在。

大家喜歡把 intention (意圖)跟 language (語言)比,但這兩個完全不是一個東西。

晚點:它是類似于的 CoT 推過程?

樓天城:GPT-3 是吧?差一點,它是輸入層面的推理,不是輸出層的。

它在訓練的時候可以生成很多條不同的意圖組合,從而生成其他東西(機動車、行人)的軌跡,它會要求車輛模型在這個多重宇宙中選擇全局最優得路線。如果不做多重 intention,車輛模型就會像人一樣,硬選擇一個最可能的意圖組合去開,但有可能這個判斷是錯的。

我們的車端模型可以考慮多種 intention 組合,然后選擇綜合起來最好的方式去開。

晚點:前兩年蔚來技術日也提到類似思路,車輛生成不同的軌跡預判,跟你們說的是同一個東西?

樓天城:也是這個思路,只差一點。因為虛擬環境數據是無限的,可以推演所有可能。他們可能還是靠收集數據,但不能用收集的數據涉及所有可能,我們的世界模型可以有無數種可能,因為他是虛擬生成的。

晚點:有了這個意圖,能帶來的效果是什么?

樓天城:我對所有的意圖可能性都保證了安全,永遠不需要回答說我們的行為是針對哪一種 intention 組合,這可能就是最大的差別。假如說現實世界有 4 種可能,無論概率高低,模型就始終都考慮 4 種可能下我都會是安全的,而不是在 4 種可能中選 1 個概率最大得來輸出動作。

晚點:這種推演的能力,跟 VLA 模型有什么關系嗎?

樓天城:沒有。L(Language)是真實世界的東西,而 I(intention)是虛擬世界的東西。

在當前算力下,用 I (intention)是最好的,沒有之一;陂L期算力我說不準,intention 能不能活到最后我不知道,但可以堅持很久。而 Language 哪怕在長期應該也不會是最優解,最近小鵬也提到了這點,人開車是不用經過語言的翻譯的。(注:小鵬得 VLA 2.0 方案中,去掉了語言中間層)。

晚點:所以云端世界模型 “蒸餾” 到車端的模型有變化嗎?

樓天城:嚴謹的說,云端模型沒有 “蒸餾” 到車端這一步,它只訓練出個車載模型,“模型訓練模型” 過程,這個過程不是蒸餾的。

用蒸餾這個詞會引人誤解,世界模型本質是對世界的描述,世界模型不用管怎么開車。世界模型不開車、也不輸出軌跡,只是負責讓車在接近真實世界的環境里運轉,這是它的唯一任務。

晚點:但你說它有 intention、有意圖。

樓天城:那是其他物體的意圖,其他物體的軌跡,它完全不管自動駕駛車輛怎么開,它只管自動駕駛車怎么開之后這個世界怎么變化而已。世界模型從數學來說就是周圍狀態的傳遞分布。

導師只負責告訴你做什么題,但至于怎么做,跟老師一點關系沒有,導師不會親自開車。

晚點:世界模型 2.0 你們花了多長時間才做出來?

樓天城:原先計劃是至少 2026 年底或者 2027 年。2.0 之前,AI 大模型還沒有這么火,今天看有這么多實際成功例子下,我覺得回頭看,如果當時能預知到今天這樣子,那的 2.0 一定能夠勝,我會覺得能不能更早點做。

有些效果加速是在近期,迭代過程也不是勻速的,感謝最新的 AI 大潮吧。到現在算是比較穩定了。

晚點:世界模型的效果有超出你的預期嗎?

樓天城:我不想這么說,預期本來應該設得高一些。這是一個新的理念,新的開發范式,徹底顛覆,是很令人激動的事。我不確定什么時候到來,但比想象更快一些。

晚點:這個過程當中,你個人的狀態是什么樣子的?

樓天城:這些年開發,我自認為還是比較 open,知道 AI 的潛力和人的局限。任何東西不如機器是很正常的,我更多是評判這個路徑能不能走得通。

晚點:內部有工程師不理解這個路徑嗎?

樓天城:跟世界模型 1.0 是一樣,總會有人質疑,但工程師還是非常有韌勁的團體,大家愿意去做一些新的嘗試,達到效果。

晚點:世界模型 2.0 是一個新的開發方式,對你們的工程師和組織管理帶來的變化是什么?

樓天城:公司的確發生了很大的變化。世界模型 1.0 是工程師親自下場教,工程師要開始當導師和裁判。而現在我們也得抽出來,AI 是裁判了,我們開始研究怎么幫助 AI 驅動、訓練過程變得更快,模型部署更優或者讓車載系統成本更低,大家會把更多精力放到其他同樣很有意義的工作。

晚點:可能訓練模型只需要很少一撮人,其他人去做數據處理或者仿真這些?

樓天城:聽 AI 說讓你做什么,完成 AI 給你分配的任務。雖然是開玩笑,但公司很多人都在做這個事,這是新的變化。

晚點:包括你嗎?

樓天城:AI 當然沒有直接給我下任務,但 “完成 AI 交給你的任務,且高質量完成”,是內部很認真的說法。很多研發中的任務究竟應該做什么,是由 AI 來判斷的,員工的心態變化需要跟上。

晚點:這會讓工程師的價值感來源降低?

樓天城:首先這個 AI 是他們自己 build,這難道不是更大的成就感嗎?我要替工程師說一句,我們工程師是非常上進的團體,大家一直想 build 一些能比自己做得好的東西,這是巨大的成就。今天拋開自動駕駛,整個 AI 圈不斷發生這樣的事情。

我也很鼓勵、努力幫助我們的同事做得比我更好,我會身體力行去幫他,這是巨大的成就感。

晚點:世界模型 2.0 繼續升級,還有哪些技術挑戰?

樓天城:這已經是 AI for development (人工智能促進發展)的雛形了,要做得更深、寬度更廣。更深就是識別問題更準,發現問題收集反饋更準確,以及部署過程更穩,更有效率。其實還有一點,就是今天我跟你講這東西,會不會是 AI 告訴我的?

晚點:有點嚇人。

樓天城:世界模型 2.0 本質,是不是可以認為 AI 運行了一個組織,這個組織由虛擬人來驅動自動駕駛系統的開發。但這個組織能不能更大一點,變成公司本身呢?我今天出去路演,是不是 AI 讓我做的?

這個沒有道理不可能,但它需要可能更多機制,今天技術還不夠,但以后有可能。今天 2.0 可以認為是 AI 開始運行了一個社區、一個團隊,它們來專門驅動自動駕駛的看法。畢竟它是 AI,需要一些人去物理世界幫他收集東西,它肯定是有這樣一個組織,雖然不是物理的,但它可以告訴我們怎么給你講這些東西。

晚點:如果你們的這匹馬失控了呢?

樓天城:這也是我們愿意做的事情另一個意義吧,我們盡可能理解 AI 的邊界,才能讓它不失控。好在,AI 操作物理世界至少今天還需要通過人,但這個東西有一天也可以被打破的。

L2 和 L4,我選擇了自己更擅長的東西

晚點:你之前在訪談中提到過,做 L2 和 L4 的差別還挺大的。

樓天城:我個人感受來說,這是大家開發理念上的差別,做 L2 會問只裝一個激光雷達夠不夠,甚至不裝激光雷達夠不夠?做 L4 不會問這種問題,萬一不夠怎么辦?L4 應該優先保證足夠安全。

大家的目標不一樣,會有很多理念上的沖撞,其實就是對 corner case 的態度,很難交互、極端的場景,L4 車輛需要的是怎么解決,L2 的產品邏輯是提醒用戶接管。

晚點:所以你們專注于做 L4。

樓天城:我從個人角度來解釋。我更擅長做一些更有開創性、有意義的東西。你讓我去摳成本,肯定能做,但這不是我最擅長的點。這個跟公司本身的 DNA、更擅長什么有關系。

人和 AI 一樣,都有個學習過程。剛才說的也是我逐步慢慢學到的。我愿意以第一性原理去分析這個事,不再把個人很多喜好放進來,做更理性的判斷

晚點:更大的算力對你們來說是誘惑嗎?現在很多量產車的算力也到了千 TOPS。

樓天城:算力如果能差 100 倍,還是有區別的。但如果只是差幾倍,從駕駛能力上看沒有本質差別。1000 TOPS 跟 3000 TOPS 沒有區別。如果想壓縮模型,從模型結構設計上可以輕松把 3 倍拉回來,但 100 倍那做不到。

晚點:聽起來 “芯片自研帶來軟硬件一體化” 這事不是很吸引你。

樓天城:如果差 100 倍是有的,DeepSeek 當年是 20 倍,那是人和純軟件的努力。

晚點:今年你們的 Robotaxi 目標是 20 個城市,2022 年車企智駕的 “百城大戰” 打得很辛苦你們比他們還多了一重挑戰:無人車的精細化運營。要怎么做?

樓天城:從 Robotaxi 角度來說,在中國,一線城市是主導市場。Robotaxi 的特殊之處,不需要做百城或者永遠都沒必要去做百城,這是商業模式所決定的,做好幾個關鍵的城市就可以,可能 20 城已經占據非常重要的部分了。我們的 20 城包括海外。

技術已經不是 Robotaxi 的瓶頸了。我們去一個新城市,遇到的一些極端情況,基本在世界模型生成的很多 corner case 都見過了。

晚點:最近你們遇到的比較棘手的城市是哪個?

樓天城:比如下暴雪、路面結冰這種極端天氣比較難,這是一個自動駕駛還沒能特別涉足的場景,但是世界上路面不結冰的地方還是很多的。

晚點:Robotaxi 規模變大,怎么避免可能帶來的規模交通事故?

樓天城:我們的評價體系中,安全肯定第一,車的舒適性、還有通行效率都很重要。早年時候,我們的世界模型就把通行效率放到其中,所以會比較靈活地穿梭在每個地方,這是一直做的事。

還有一點,我們也很看重冗余系統,我們也和豐田、廣汽、北汽一起打造量產的 Robotaxi,就是希望硬件上有冗余,比如緊急情況下能靠邊停車、防止本車道停車被追尾或者堵塞交通,這些都是冗余安全的范圍?赡苡|發頻率不高,但在長期的運營中很重要。

晚點:特斯拉在北美奧斯汀也開始做車內無人的 Robotaxi 的運營了,它下一步可能面臨什么?

樓天城:數量就沒起來,他們也公布了事故率的數字,但還沒比人開車安全低很多,還沒到那個水平。這個跟他們的車隊數量有關。無人的還不太打得到,數量太少了。

還是先把無人車做到吧,100 萬輛的有人車,不會有一天突然就變成 100 萬輛無人車。哪怕它有很多量產車,但無人車輛也得從個位數開始。

晚點:有可能它的擴張速度會快一點。

樓天城:就得看實際進展了。百萬輛有人的車并沒有幫助它這個過程走的更快,否則絕對不會只在今天的范圍和無人車規模。它這一兩年的范圍擴展并不明顯。

晚點:Robotaxi 什么時候可以上高速?

樓天城:現在主駕無人的高速就只對內部開放,在技術和監管更 ready 之后我們會對外開放。我們內部的測試線就是去從公司去機場。當下 L2 高速容易于城區,L4 城區容易于高速,所有的人都這么認為的。

高速是高價值場景,但高速上的極端事件頻率很低,導致學習時的梯度下降速度變得更慢,更難發現問題,導致過程非常長,哪怕在 AI 幫助下。

比如在城市路上開了 1 萬小時,基本就知道開成什么樣子了。但高速還是不行,不知道什么路段開得不好沒有千萬公里高速公路里程積累,都不要說能在高速上開得好。

晚點:過去幾年行業對卡車有一些比較過高的期待,收費沒那么容易,你們從技術或者商業的角度怎么理解卡車的戰略意義?

樓天城:卡車的天花板非常高,行業價值可以跟 Robotaxi 相提并論。我們的卡車跟乘用車用的是一套代碼,但卡車個兒大,法規要求更嚴格,所以在公開道上鋪開會更慢。我們也在港口做卡車,包括專線,但一個能在港口開卡車的 司機,他的能力是在外面公開道路鍛煉出來的。技術現在不是主要的 blocker,我們也在等政策成熟。我們一定會咬住這塊業務。

晚點:目前來看,L4 自動駕駛編隊行駛(前車有安全員、后車無人)是更加可行的產品形態?

樓天城:編隊是個長期產品?梢哉J為,編隊的司機就是我們負責自動駕駛卡車運營的人。 Robotaxi 在一個區域,我們會有些地勤網格員在守著,車壞了也還是離不開運營人員。但卡車不能幾千公里一路都守,編隊司機就等于是網格員,這是長期存在且 work 的商業模式。到了集散地,總要人來簽字,網格員可以 cover。

晚點:卡車端的模型跟 Robotaxi 是完全同一套嗎?

樓天城:是一起被訓練出來的,但最后的控制模型環節,卡車和乘用車不太一樣。

晚點:Robotaxi 已經開始單車盈利了,卡車呢?

樓天城:車和 Robotaxi 的商業模式不同,因為卡車的能源和車輛成本占比更高,其實哪怕是有安全員的 Robotruck,單車也是盈利的。所以卡車的目標是隨著技術發展,提高卡車車隊的人車比,解決卡車司機短缺的問題。

AI 是脫韁野馬,打造一副馬鞍駕馭它,讓它自己演化

晚點:你們今年的新技術迭代,跟過去兩年 AI 大模型的技術進化,是同時發生的嗎?

樓天城:世界模型的發展跟整個 AI 大勢非常相關。2018 年根本沒有生成模型,但今天大家已經生成的不錯了。我們當時選擇了 follow,才獲得了今天的東西。

晚點:有同行說,自動駕駛行業最大的打擊可能來自于多模態大模型的降維打擊,比如字節等,你怎么看?

樓天城:自動駕駛可不僅僅只是一個模型,還有運行模型的框架、芯片部署,內存/CPU 怎么分配、傳感器系統如何設計冗余,車上路后還有各種運營問題。

從商業來看,好的模型只是其中一小部分。即便有更多模型出來,Robotaxi 行業的壁壘也不會降低,必須把所有東西都做好才行。

從技術維度上看,今天大家的關注重點還是多模態嗎?假如明天出來一個新模型,大家只會問它對 coding、agent 有多大幫助?今天關注點早就不在多模態上,都在 AI coding 上了。

AI coding 后面是什么?AI for development,我們的世界模型 2.0 是 AI for development 的一種可能,物理 AI、AI for science(人工智能助力科學)是另一種可能。多模態已經是過去時了,今天大家聊的至少是 coding 或者是 coding 往后的東西。

晚點:你們現在最稀缺、最需要的是什么樣的人才?

樓天城:是 Harness(馬具),能駕馭 AI 的人。我們要的是訓練馬的能力,得建一套系統,要知道如何分解任務、構建系統,知道如何讓 AI 驗證,給 AI 設計一個讓它不斷發揮、改進的路程。

但這種駕馭 AI 的能力是在幾年前、在還沒有 AI 的時候訓練出來的。如果工作第一天就開始用 AI,我可能永遠不會用這個東西。

我們也在一些高校上課,發現學生考試成績都是直線下降,因為大家做作業基本都拿 AI 做,這是很嚴重的問題。這是局部最優,但長期有害。我寫 code 也有這種感受,用 AI 久了之后就不如原來了,得去思考,讓 AI 怎么一步步做這個東西。如果我沒有原來的積累,我會擔心我培養不出來這東西。

晚點:現在頂級的 AI 人才會更傾向于流向 AI 大廠、具身公司,Robotaxi 公司在人才的吸引力上會受到影響嗎?

樓天城:蘿卜白菜各有所愛,很多人確實有理由去大廠,但學術、工業都還有個人偏好。我們更多還是找大家互相 match 的人,大家各自有各自的 taste。如果你關心應用、關心物理世界,那沒有比自動駕駛更好的方向了。指望具身應用?那還早,商業模式都根本不成熟,將來的成本、能耗都還沒算。

今天至少比前幾年前好,我可以非常自信地說,自動駕駛是物理 AI 中最早、最 pioneer(先鋒)的應用。

晚點:你現在也用 AI coding 嗎?

樓天城:我是深度應用使用者,我自認為有一些理解。對于 AI coding 本身,我相信你肯定聽到過 “Harness” 這個詞,意思是馬鞍,今天大模型很火,但就跟脫韁野馬一樣,如果直接騎上去,估計會摔得半死。如何限制、駕馭它,讓它們在框架中自己演進才是關鍵。

如何駕馭它,差別非常大。AI 用的好不好的人之間,原來差距可能是 120% 到 180% 的區別,但今天可能是 100 倍和負 200 倍的差別,差距在拉大。

晚點:你之前很喜歡參加編程競賽,現在沒人看非 AI 的榜了,你還有競賽樂趣嗎?

樓天城:我跟 AI 一起配合吧,我用 AI 幫我去刷某些東西,幫我做一些題,在一些有影響力的題庫上,排得也非常高,但這是個人的行為。again,學會駕馭 AI,讓 AI 能更好地做題。如果說要有樂趣,這可能是唯一有價值的樂趣了。

晚點:今年小馬成立 10 年了。你本人跟小馬公司有比較大的變化嗎?

樓天城:一直保持變化,每過一段時間就要重新審視一下這個行業,究竟挑戰是什么,該做什么,哪些新的東西能被我們所用,哪些新的坑要躲開。

晚點:創業這么久,你個人的最大的歷練是什么?

樓天城:很多,首先跟上技術發展。其次,幫助別人進步吧。幾年前吧,很多投資人伙伴問我,我說我最重要的任務就是招到比我好的人,給他們更好的發揮空間,這是我一直堅持做的事情。

晚點:今天可能得加一個前提,AI 可能已經比大部分人要做得好。

樓天城:對,在有 AI 的背景下,讓它成為最好的。

晚點:那你最希望能立刻改變的是什么?

樓天城:自動駕駛跟很多大語言模型的差別是,它的感性認識需要物理體驗,得真正坐進去才有感受,不像聊天工具,打開網頁就可以感受了。

所以先行者的優勢非常大,后來者必須也同樣要通過物理世界接觸,別人才能改變印象。它不會以互聯網那種方式爆發,但 again,爆發之后也絕不會在短時間內就開始易主。

晚點:世界模型第三階段是什么?

樓天城:世界模型本身有三個階段,第三階段就是物理世界模型,這是世界模型的未來,甚至要接觸 AI for science 了,做一些這樣的能力的積累,不是壞事,或多或少幫到第二階世界模型。但如果做,它肯定不會局限在自動駕駛了,會擴展到更大范圍了。

晚點:你們的產品布局也會到更大范圍嗎?

樓天城:至少先具備這個能力吧,產品方面肯定是更全面的決定,會根據實際商業情況做綜合的考慮。合適的時候我再對外分享。

晚點:AI 能開車、擁有對世界推演的能力之后,就能做好家務嗎?

樓天城:不能。做家務只是一個最常見的物理 AI 應用,但如果我對物理定律沒有理解,可能永遠只能做非常低階的事。自動駕駛當年要用世界模型,就是因為要超越人的水平,將來更多物理世界應用,單純跟人模仿還是會遇到瓶頸。

機器人可能今天還在早期,有很多進展,但它們還沒走到被要求超越人的階段,它還沒到我們 2020 年要開始用世界模型的階段。但很多物理定律的引入非常困難,今天連重力最基本的定律引入都非常困難,很多機器人倒水倒到杯子下面去了。

晚點:世界模型第三階段之后,你能看到的終局是什么?

樓天城:還真有終局。比如機器人能在里面做訓練,這是最基本的。這是宏觀物理世界,但還有一個微觀物理世界,如果真有那一天,我還能做這些事,我想用微觀物理世界真正理解,我們的世界究竟是如何被存在的。我一直堅持,我們的世界是個虛擬世界。

晚點:是外星人布置的嗎?

樓天城:微觀世界有很多東西的,比如量子干涉,玻色子、粒子這些。他們究竟怎么運轉的?很多問題還沒解決。這些東西究竟能不能通過一個虛擬環境來做模擬?如果能,可能我們就可以真正理解我們的世界是如何被模擬的。

這可能是人類這么多年充分利用 AI 后,我們這代人類能做的最大貢獻之一,這點毋庸置疑。我不知道我有沒有機會能 touch 到它,如果能,我一定會盡我全力。

題圖來源:小馬智行

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
比亞迪正式接觸F1!中國車企沖擊圍場第12個席位

比亞迪正式接觸F1!中國車企沖擊圍場第12個席位

林子說事
2026-04-27 14:18:56
國民黨內訌,前高層沖闖黨部斥責鄭麗文:你不配當主席,是個卒子

國民黨內訌,前高層沖闖黨部斥責鄭麗文:你不配當主席,是個卒子

面包夾知識
2025-12-31 23:04:14
兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

三農老歷
2026-04-13 17:10:06
泰國擬恢復57國免簽名單,取消93國60天免簽政策

泰國擬恢復57國免簽名單,取消93國60天免簽政策

曼谷陳大叔
2026-04-27 16:14:05
NBA現役球員榜前十!本賽季僅出戰16場球員占據前十 哈登落榜

NBA現役球員榜前十!本賽季僅出戰16場球員占據前十 哈登落榜

體壇八點半的那些事兒
2026-04-27 18:27:15
明明只是戲子,卻把自己當大腕,論“耍大牌”,這5位明星夠丟人

明明只是戲子,卻把自己當大腕,論“耍大牌”,這5位明星夠丟人

青橘罐頭
2026-04-22 09:59:06
如果美國偷偷印兩萬億美元,然后拿到其他國家買東西,結果會怎樣

如果美國偷偷印兩萬億美元,然后拿到其他國家買東西,結果會怎樣

傲傲講歷史
2026-04-12 23:30:10
景美人更美

景美人更美

藍色海洋009
2026-04-26 18:07:20
1939年國民黨坑了一小學老師,導致潛伏延安的55名特務被一網打盡

1939年國民黨坑了一小學老師,導致潛伏延安的55名特務被一網打盡

掠影后有感
2026-04-24 12:00:57
瞞不下去了,真的需要徹查了!

瞞不下去了,真的需要徹查了!

胖胖說他不胖
2026-04-25 14:12:40
血管堵塞的6個信號,別等堵死才發現!錯過可能拖成大病

血管堵塞的6個信號,別等堵死才發現!錯過可能拖成大病

孟大夫之家1
2026-04-27 13:20:05
麥迪:哈登小卡KD依然是核心,我年紀大了以后就成替補了

麥迪:哈登小卡KD依然是核心,我年紀大了以后就成替補了

懂球帝
2026-04-27 16:51:06
李金羽不忍了,半場棄用身價標王外援,遼寧過不了河南 難逃6連敗

李金羽不忍了,半場棄用身價標王外援,遼寧過不了河南 難逃6連敗

替補席看球
2026-04-27 14:18:35
男人別亂摸!女人最“扛不住”3種觸碰,第2種最容易讓她死心塌地

男人別亂摸!女人最“扛不住”3種觸碰,第2種最容易讓她死心塌地

朗威談星座
2026-04-27 13:28:30
芬蘭外長突然發難:不和中國簽自貿協定!中方一句話淡定回應

芬蘭外長突然發難:不和中國簽自貿協定!中方一句話淡定回應

聞識
2026-04-27 12:07:18
前阿里財務總監爆火言論:普通家庭買車是最蠢的動作!評論炸鍋

前阿里財務總監爆火言論:普通家庭買車是最蠢的動作!評論炸鍋

許三歲
2026-04-10 09:31:44
牧民草原撿來小馬駒養了5年,獸醫摸摸它失聲大叫:這根本不是馬

牧民草原撿來小馬駒養了5年,獸醫摸摸它失聲大叫:這根本不是馬

飛云如水
2025-05-15 21:32:09
昨日因果昨日了,王艷為19歲兒子謀后路,原來她和李嘉欣處境一樣

昨日因果昨日了,王艷為19歲兒子謀后路,原來她和李嘉欣處境一樣

手工制作阿殲
2026-04-25 08:01:41
傷得很深!男子打賞女主播近300萬,想結婚時才知對方女兒都20歲了:我只顧為愛沖鋒,結果她全是假話

傷得很深!男子打賞女主播近300萬,想結婚時才知對方女兒都20歲了:我只顧為愛沖鋒,結果她全是假話

臺州交通廣播
2026-04-10 16:23:25
中央5臺直播乒乓時間表:4月27日CCTV5轉播國乒!附今日出征消息

中央5臺直播乒乓時間表:4月27日CCTV5轉播國乒!附今日出征消息

古史青云啊
2026-04-27 14:39:22
2026-04-27 20:43:00
晚點LatePost
晚點LatePost
晚一點,好一點。商業的真相總是在晚點!锻睃cLatePost》官方賬號
3180文章數 21927關注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

上海男子開啟輔助駕駛超速行駛 撞上2名道路養護工人

頭條要聞

上海男子開啟輔助駕駛超速行駛 撞上2名道路養護工人

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

財經要聞

Meta 140億收購Manus遭中國發改委否決

汽車要聞

不那么小眾也可以 smart的路會越走越寬

態度原創

本地
親子
藝術
公開課
軍事航空

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

親子要聞

小小的身影甜甜的舞姿,一場即興表演,解鎖專屬溫暖瞬間

藝術要聞

你絕對想不到,攝影能讓她成為女神!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗外長折返伊斯蘭堡內情披露

無障礙瀏覽 進入關懷版