網易首頁 > 網易號 > 正文申請入駐

對話小馬智行樓天城：馴服脫韁的野馬，讓 AI 自我進化

2026-04-24 22:26:59　來源: 晚點LatePost

北京舉報

分享至

現在最稀缺的是能駕馭 AI 的人。

文丨李安琪

很長一段時間，樓天城都在向外界解釋一件事：L4 Robotaxi 和 L2 量產智駕不是同一條路。他曾多次說過，模仿學習無法實現 L4。

最近頭部車企 L2 智駕和供應商正在轉向世界模型，強化學習常常一起出現。對此樓天城表示 No surprise，他說這是小馬智行已經做了很多年的事�！跋胱� L4，大家就都要從 0 開始做，或者說再走一遍我們走過的路�！�

樓天城說，小馬智行 2020 年就意識到，依賴人類駕駛行為數據的模仿學習很快會遇瓶頸；模型需要一個能持續生成的虛擬場景、評估行為、行為博弈的訓練系統，才能突破天花板。小馬智行把這套系統稱為 “世界模型”。

2024 年推出世界模型 1.0 時，樓天城曾向我們比喻，世界模型是車端模型的工廠。不同公司對 “世界模型” 的定義不完全相同。在樓天城的描述里，它不直接開車，只負責模擬車端模型決策后世界如何變化：周圍交通參與者如何反應，風險是否繼續演化。

近期，樓天城再次向我們談到世界模型的最新變化。他說，世界模型 1.0 很多判斷仍依賴人：人來診斷問題、判斷開得好不好，再決定采什么數據、優化哪些場景。

但人力也可能成為 “瓶頸”。在世界模型 2.0 中，小馬智行將更多診斷和反饋工作交給 AI：例如當車端模型在某個場景表現不佳時，世界模型 2.0 會嘗試自動識別問題，并要求工程師補采特定場景數據。

創業早年，樓天城作為 CTO 最重要的工作之一是招足夠聰明的人，自動駕駛的系統上限也取決于團隊里最強的工程師。而今天 AI 成為小馬內部最聰明的大腦：開車比人好，駕齡比人長。樓天城常常跟工程師說一句既玩笑又認真的話，“完成 AI 交給你的任務。”

最早走這條路線，樓天城也擔心：模仿學習走不通，新路線短期內也不跑不通怎么辦？不過，世界模型的推進速度比他預期更快。在新技術路線支撐下，小馬智行計劃今年將 Robotaxi 擴展到全球 20 個城市中心。

把更多工作交給 AI 后，挑戰也隨之而來：AI 的診斷未必總是正確，如何更準確地識別問題、反饋問題，仍需要在 Robotaxi 實際運營中驗證。樓天城將當下的 AI 比喻為脫韁野馬，現在最稀缺的是能駕馭 AI 的人，能設置框架、讓其自我演進。

樓天城還在研究下一階段的世界模型。雖然還看不清技術全貌，但他已想到更遠的終局：他一直堅持認為，現實世界是個虛擬世界。如果真的有一天，他希望用世界模型來研究微觀世界，從而理解真實世界究竟如何存在與運轉�！斑@可能是人類充分利用 AI 后，我們這代人類能做的最大貢獻之一�！�

以下是我們和小馬智行 CTO 樓天城的對談，內容經編輯：

“L2 變化很快，但 L2 的積累不會再幫助他們做 L4”

晚點：L2 智駕領域經歷了多輪技術變化，但 L4 Robotaxi 領域很少看到技術迭代的大波動，為什么？

樓天城：Robotaxi 技術門檻非常高，必須達到非常安全才能入門。L2 因為有人接管，可以更早鋪開，技術方案的變化相對更多。這某種程度上也是 L4 門檻高的一個表現。

晚點：看到 L2 這么多輪變化，你內心有什么想法嗎？

樓天城：no surprise，他們走的路徑、這些變化我都經歷過。在我看來，確實是大家在努力的過程。

晚點：你自己是怎么變化和迭代的？

樓天城：就是對更高、極致的車輛駕駛能力追求的過程。同樣是 L4，也有很大差別，能不能開到市中心區域，高峰期能不能開，訂單量夠不夠高，能不能去更多城市和國家，這些都可以不斷進步。從技術路徑上看，基于世界模型、強化學習的大框架這幾年沒有變化，不過細節升級是巨大的。

晚點：你們從 2020 年開始摸索世界模型，當時 Robotaxi 的表現遇到瓶頸了嗎？

樓天城：所有人都會遇到，單靠收集更多人類數據、模仿人類開車這套方式，模型已經很難再進步了，就是單車 MPI（平均多少里程需要接管一次）上不去了。我們也是被逼的，原來那套做法已經不管用了。

我們 2020 年開始做世界模型和強化學習。公司內部也經歷了這樣的變化：以前模型跟著人類司機開就是了；后來發現，為了實現 Robotaxi 的大規模落地，跟人類司機一樣好是不夠的，于是給模型創造一個虛擬的訓練環境，設置強化學習獎勵函數，模型自己摸索。

就像高中老師，要把知識傳授給學生；到了讀研讀博階段，很多問題可能導師也不會，但會給你創造條件。用世界模型本身不表示技術領先，如果精度不高，還不如采集人類數據來優化。

隨著我們世界模型精度不斷提升，大概 2022 年開始，發現它能超過傳統模仿學習的水平。很多家都開始往世界模型走，說明大家都有了心態的變化，開始認識到人類駕駛能力的不足，認識到實際道路采集數據可能不是一個好的做法了。

晚點：當時的主流應該還是模仿學習，會擔心冒險嗎？

樓天城：我冒的 “險” 其實是萬一這路還不 work 怎么辦？首先從技術判斷，大概率還是 work 的，但究竟要用多少時間，可能是個問題。萬一要用很久了，大家能不能支撐這么久？

晚點：虛擬世界是你們的世界模型 1.0，那做世界模型 2.0 的契機是什么？

樓天城：世界模型不是有和沒有的區別，而是看精度。我們把虛擬世界中的其他車輛的行為跟模型的交互，與真實世界非常接近，叫做精度高；如果差別很大就叫精度低。

世界模型 1.0 的出現，是大家接受了要像博士導師一樣給模型創造條件。但這個階段，裁判仍然是人，模型開的好不好，還是人來判斷。但你有沒有想過，有一天人如果判斷不了怎么辦？遇到瓶頸了怎么辦？世界模型 2.0 有個很好的功能是自我糾錯。

有時候路上非常繁忙，車輛該不該減速？說不清楚，萬一撞了怎么辦？只能人為判斷。但有段時間人為判斷反而車開得更差了，原因是當 AI 司機的水平顯著超越人之后，人類司機已經不足以判斷它開的好不好了。

有一個很著名的梗是圖靈測試，本來是讓人盲測區分人和 AI，因為當時預期的 AI 是約等于人的能力。但如果 AI 變得比人更強大了怎么辦？世界模型 2.0 也是這個概念，人不能區分 AI 的駕駛能力好壞了，那就用 AI 來區分。

晚點：L2 領域很多技術概念和你提到的東西越來越像：世界模型+強化學習，技術共性越來越多？你怎么看？

樓天城：說明大家之前的方案也遇到瓶頸。

晚點：你之前覺得他們大概率到不了 L4。

樓天城：因為之前他們的方案對于做 L4 并沒有幫助。就是說你如果不想做 L4 沒關系，但想做 L4 大家就從 0 開始做，或者說這種事就走我們的老路上了。

至于達到什么水平，有可能還是我們 4-5 年前的狀態，得看世界模型的實際精度。Again，世界模型不是有了就可以做到了，還得精度高，車的表現得好。

世界模型本身是虛擬的，如果這個世界物體的行為跟真實世界的不一樣，那訓練出來的模型不太會開車。如果其他車反應非常激進，那訓出來的模型上路肯定謹小慎微，反過來，如果虛擬世界的車都守規矩，那模型在真實世界就沒有 handle 極端情況的能力，意識不到危險的存在。

晚點：世界模型的共識為什么這么久才形成？

樓天城：之前不形成是因為，大家開始覺得模仿學習是方向，還沒到強化學習。2020 年之前，我也是模仿學習，每天多收一點數據，效果慢慢變好，何必這么累，是個舒適區。如果沒意識到舒適區里有瓶頸，就不會跳出來。

根本還是在于，大家愿不愿意接受這是個瓶頸，得承認當初收集的數據，很多積累、擅長的東西都變得沒用了，接受會有個過程。但 L2 的積累不會再幫助他們做 L4 了。

晚點：所以你認為自動駕駛領域不存在 Scaling law ？

樓天城：這本身是個認知。最近大語言模型加數據還是會有幻覺。就看你怎么評價它，如果關注的是幻覺出現的概率，那 Scaling law 可能還不夠；但如果以 general capability （通用能力）來說，Scaling law 是有進步的。

晚點：你看重哪一點？

樓天城：自動駕駛是物理 AI 的一種，出錯的成本非常高。自動駕駛 Scaling law 不管用，是因為 Robotaxi 關注的東西，靠 Scale 不太管用，萬一有幻覺怎么辦？但如果是常規場景處理，不要求處理邊界場景比如 L2，司機可以兜底，Scaling law 可能對它有幫助。目標不同，不同判斷。

晚點：你什么時候比較完整的看到了世界模型的全貌，全貌應該是什么樣的？

樓天城：我也在逐漸看清楚，這是一個過程。2020 年我已經想到了，1.0 用虛擬環境給模型訓練，但 2.0 的發展確實這兩年才看到�？赡苓€有世界模型 3.0，今天我還沒看到很多概念。

世界模型 2.0 是 AI ，“完成 AI 交給你的任務”

晚點：小馬世界模型 1.0 和 2.0 的關系是什么？

樓天城：我先解釋下世界模型 1.0。首先，“世界模型”“強化學習” 一般同時出現。它不再依賴人開車到實際道路采集的數據，而是依賴的是在虛擬環境里自演進，這是訓練范式的一次躍升。

晚點：你們怎么搭建這個虛擬世界的？

樓天城：世界模型 1.0 大概是 3 個元素：用傳感器數據造一個虛擬環境；其次，環境里面的各種車、人跟模型的交互要跟真實世界很接近；第三點是評價體系要非常健全，能真正反映車開的好不好，模型會按照打分機制不斷優化自己。車會在世界模型里做幾億次甚至幾千億次訓練。

有一個很著名的詞，叫 “模型訓練模型”，本質是拿一個世界模型訓練一個車載模型。

晚點：虛擬世界里，你們的車跟其他車的博弈，怎么做到跟真實世界的一樣？

樓天城：首先，渲染的環境會跟現實世界的一樣，基本看不出差別。人車博弈肯定不會完全一樣，但很接近了。打分機制也要比較完美，它本身也是個老師模型，你沒法直接評價老師模型的好壞，但它的學生車端模型上路后可以。等于老師教給學生，學生到路上表現不好，老師就會反思，原來這個地方沒教好

最常見的，就是早些年把 corner case 加入一起訓練，出現概率太高，“學生模型” 就會很謹慎了；出現概率太低，“學生模型” 就會魯莽，所以要調整概率。

學生模型的評價體系也重要。比如駕駛的安全感，我們一開始沒有把它加入評價體系，后來才加進去，不斷迭代。我們的車載模型先上路，看看什么地方不好，然后反饋到世界模型改進，再訓練車載模型。

晚點：能舉個例子嗎？

樓天城：舉個幾年前的例子，我們的車在雨天老是減速，后來發現原來雨天時候，傳感器噪聲很多，但我們世界模型中生成的噪聲就很不真實，我們改了之后，車載模型下次就知道要先濾噪，就可以很好應對雨天了。

晚點：這個是工程師排查出來的吧。

樓天城：對，但世界模型 2.0 就不是了。

晚點：世界模型 1.0 跟 2.0 有重疊的部分嗎？

樓天城：沒有重疊，連共同之處都沒有。1.0 是數據生成的場景，評價體系、環境交互這些東西，在這些之外，2.0 擁有自我診斷、自我進化的能力。

我們會把車載模型路上收集的各種數據，也扔給世界模型 2.0，讓它來定義什么是好與不好？它來發現車載模型哪沒做好，它驅動了整個世界模型的演進過程、精度提升過程。它自主完成了世界模型 1.0 的工程師得工作。

整個訓練過程是，世界模型 1.0 訓練車載模型之前，先有另外一個模型來驅動這個過程，這個模型叫做世界模型 2.0。這樣的好處是，不僅效率更高，而且天花板更高。它是一個更高級的開發環境。

晚點：開車是 AI 模型來診斷，但最終乘車的是人類，這個評價體系是不是應該考慮用戶？

樓天城：你有坐過 1 萬小時車嗎？

晚點：沒有。

樓天城：乘客給的評價是很有價值的，但不一定表示系統真的有問題，有可能是不同用戶的喜好不同，也可能是正確或者錯誤的判斷，這些我們都會收集起來，讓 AI 判斷到底是什么問題。用戶的體驗權重我們放很高，但是也會考慮一萬個小時的無人駕駛所有數據，而不只是一趟體驗。

晚點：如果 AI 給的診斷是錯的呢？

樓天城：它的診斷可能不是 100% 正確，但遠比人好。或者說，靠人來診斷，模型進化都是負面效果了，只能靠它繼續沖破天花板，這是它令人 exciting 的地方。

晚點：你們已經能看到令人 exciting 的表現提升了嗎？

樓天城：首先不僅是沖破天花板，而且提升速度比我們前幾年都快，因為它是自動過程，又快又能沖破天花板。

最明顯的就是 Robotaxi 的市中心表現，現在我們去各地市中心、能把單量撐上去，很多商業上的成功，都是靠它做到的。一些狹小道路，各種神奇的場景，我們更能 handle 了。這是基于 1 萬個小時統計的，應對不好的表現頻率明顯在降低�，F在評價 Robotaxi，肯定不能再是開一趟的評價了。

晚點：你們世界模型 2.0 有個能力是 intention “意圖層”，它是什么？

樓天城：它是個推演能力，這是世界模型 1.0 的優勢，但可能是由世界模型 2.0 的能力提升，使得 intention 意圖層發揮了潛能。

簡單舉例，比如人過馬路，要不要過？車變道，要不要變？這些都是意圖層。早年采集數據，你永遠沒法問別的司機你的意圖是什么，因為別人不會告訴你，只能采集行為數據。但世界模型里面可以生成意圖，這是一個不需要標注的無限量的信號。注意，它不是靠采集的，它天然就存在。

大家喜歡把 intention （意圖）跟 language （語言）比，但這兩個完全不是一個東西。

晚點：它是類似于的 CoT 推過程？

樓天城：GPT-3 是吧？差一點，它是輸入層面的推理，不是輸出層的。

它在訓練的時候可以生成很多條不同的意圖組合，從而生成其他東西（機動車、行人）的軌跡，它會要求車輛模型在這個多重宇宙中選擇全局最優得路線。如果不做多重 intention，車輛模型就會像人一樣，硬選擇一個最可能的意圖組合去開，但有可能這個判斷是錯的。

我們的車端模型可以考慮多種 intention 組合，然后選擇綜合起來最好的方式去開。

晚點：前兩年蔚來技術日也提到類似思路，車輛生成不同的軌跡預判，跟你們說的是同一個東西？

樓天城：也是這個思路，只差一點。因為虛擬環境數據是無限的，可以推演所有可能。他們可能還是靠收集數據，但不能用收集的數據涉及所有可能，我們的世界模型可以有無數種可能，因為他是虛擬生成的。

晚點：有了這個意圖，能帶來的效果是什么？

樓天城：我對所有的意圖可能性都保證了安全，永遠不需要回答說我們的行為是針對哪一種 intention 組合，這可能就是最大的差別。假如說現實世界有 4 種可能，無論概率高低，模型就始終都考慮 4 種可能下我都會是安全的，而不是在 4 種可能中選 1 個概率最大得來輸出動作。

晚點：這種推演的能力，跟 VLA 模型有什么關系嗎？

樓天城：沒有。L（Language）是真實世界的東西，而 I（intention）是虛擬世界的東西。

在當前算力下，用 I （intention）是最好的，沒有之一�；陂L期算力我說不準，intention 能不能活到最后我不知道，但可以堅持很久。而 Language 哪怕在長期應該也不會是最優解，最近小鵬也提到了這點，人開車是不用經過語言的翻譯的。（注：小鵬得 VLA 2.0 方案中，去掉了語言中間層）。

晚點：所以云端世界模型 “蒸餾” 到車端的模型有變化嗎？

樓天城：嚴謹的說，云端模型沒有 “蒸餾” 到車端這一步，它只訓練出個車載模型，“模型訓練模型” 過程，這個過程不是蒸餾的。

用蒸餾這個詞會引人誤解，世界模型本質是對世界的描述，世界模型不用管怎么開車。世界模型不開車、也不輸出軌跡，只是負責讓車在接近真實世界的環境里運轉，這是它的唯一任務。

晚點：但你說它有 intention、有意圖。

樓天城：那是其他物體的意圖，其他物體的軌跡，它完全不管自動駕駛車輛怎么開，它只管自動駕駛車怎么開之后這個世界怎么變化而已。世界模型從數學來說就是周圍狀態的傳遞分布。

導師只負責告訴你做什么題，但至于怎么做，跟老師一點關系沒有，導師不會親自開車。

晚點：世界模型 2.0 你們花了多長時間才做出來？

樓天城：原先計劃是至少 2026 年底或者 2027 年。2.0 之前，AI 大模型還沒有這么火，今天看有這么多實際成功例子下，我覺得回頭看，如果當時能預知到今天這樣子，那的 2.0 一定能夠勝，我會覺得能不能更早點做。

有些效果加速是在近期，迭代過程也不是勻速的，感謝最新的 AI 大潮吧。到現在算是比較穩定了。

晚點：世界模型的效果有超出你的預期嗎？

樓天城：我不想這么說，預期本來應該設得高一些。這是一個新的理念，新的開發范式，徹底顛覆，是很令人激動的事。我不確定什么時候到來，但比想象更快一些。

晚點：這個過程當中，你個人的狀態是什么樣子的？

樓天城：這些年開發，我自認為還是比較 open，知道 AI 的潛力和人的局限。任何東西不如機器是很正常的，我更多是評判這個路徑能不能走得通。

晚點：內部有工程師不理解這個路徑嗎？

樓天城：跟世界模型 1.0 是一樣，總會有人質疑，但工程師還是非常有韌勁的團體，大家愿意去做一些新的嘗試，達到效果。

晚點：世界模型 2.0 是一個新的開發方式，對你們的工程師和組織管理帶來的變化是什么？

樓天城：公司的確發生了很大的變化。世界模型 1.0 是工程師親自下場教，工程師要開始當導師和裁判。而現在我們也得抽出來，AI 是裁判了，我們開始研究怎么幫助 AI 驅動、訓練過程變得更快，模型部署更優或者讓車載系統成本更低，大家會把更多精力放到其他同樣很有意義的工作。

晚點：可能訓練模型只需要很少一撮人，其他人去做數據處理或者仿真這些？

樓天城：聽 AI 說讓你做什么，完成 AI 給你分配的任務。雖然是開玩笑，但公司很多人都在做這個事，這是新的變化。

晚點：包括你嗎？

樓天城：AI 當然沒有直接給我下任務，但 “完成 AI 交給你的任務，且高質量完成”，是內部很認真的說法。很多研發中的任務究竟應該做什么，是由 AI 來判斷的，員工的心態變化需要跟上。

晚點：這會讓工程師的價值感來源降低？

樓天城：首先這個 AI 是他們自己 build，這難道不是更大的成就感嗎？我要替工程師說一句，我們工程師是非常上進的團體，大家一直想 build 一些能比自己做得好的東西，這是巨大的成就。今天拋開自動駕駛，整個 AI 圈不斷發生這樣的事情。

我也很鼓勵、努力幫助我們的同事做得比我更好，我會身體力行去幫他，這是巨大的成就感。

晚點：世界模型 2.0 繼續升級，還有哪些技術挑戰？

樓天城：這已經是 AI for development （人工智能促進發展）的雛形了，要做得更深、寬度更廣。更深就是識別問題更準，發現問題收集反饋更準確，以及部署過程更穩，更有效率。其實還有一點，就是今天我跟你講這東西，會不會是 AI 告訴我的？

晚點：有點嚇人。

樓天城：世界模型 2.0 本質，是不是可以認為 AI 運行了一個組織，這個組織由虛擬人來驅動自動駕駛系統的開發。但這個組織能不能更大一點，變成公司本身呢？我今天出去路演，是不是 AI 讓我做的？

這個沒有道理不可能，但它需要可能更多機制，今天技術還不夠，但以后有可能。今天 2.0 可以認為是 AI 開始運行了一個社區、一個團隊，它們來專門驅動自動駕駛的看法。畢竟它是 AI，需要一些人去物理世界幫他收集東西，它肯定是有這樣一個組織，雖然不是物理的，但它可以告訴我們怎么給你講這些東西。

晚點：如果你們的這匹馬失控了呢？

樓天城：這也是我們愿意做的事情另一個意義吧，我們盡可能理解 AI 的邊界，才能讓它不失控。好在，AI 操作物理世界至少今天還需要通過人，但這個東西有一天也可以被打破的。

L2 和 L4，我選擇了自己更擅長的東西

晚點：你之前在訪談中提到過，做 L2 和 L4 的差別還挺大的。

樓天城：我個人感受來說，這是大家開發理念上的差別，做 L2 會問只裝一個激光雷達夠不夠，甚至不裝激光雷達夠不夠？做 L4 不會問這種問題，萬一不夠怎么辦？L4 應該優先保證足夠安全。

大家的目標不一樣，會有很多理念上的沖撞，其實就是對 corner case 的態度，很難交互、極端的場景，L4 車輛需要的是怎么解決，L2 的產品邏輯是提醒用戶接管。

晚點：所以你們專注于做 L4。

樓天城：我從個人角度來解釋。我更擅長做一些更有開創性、有意義的東西。你讓我去摳成本，肯定能做，但這不是我最擅長的點。這個跟公司本身的 DNA、更擅長什么有關系。

人和 AI 一樣，都有個學習過程。剛才說的也是我逐步慢慢學到的。我愿意以第一性原理去分析這個事，不再把個人很多喜好放進來，做更理性的判斷

晚點：更大的算力對你們來說是誘惑嗎？現在很多量產車的算力也到了千 TOPS。

樓天城：算力如果能差 100 倍，還是有區別的。但如果只是差幾倍，從駕駛能力上看沒有本質差別。1000 TOPS 跟 3000 TOPS 沒有區別。如果想壓縮模型，從模型結構設計上可以輕松把 3 倍拉回來，但 100 倍那做不到。

晚點：聽起來 “芯片自研帶來軟硬件一體化” 這事不是很吸引你。

樓天城：如果差 100 倍是有的，DeepSeek 當年是 20 倍，那是人和純軟件的努力。

晚點：今年你們的 Robotaxi 目標是 20 個城市，2022 年車企智駕的 “百城大戰” 打得很辛苦你們比他們還多了一重挑戰：無人車的精細化運營。要怎么做？

樓天城：從 Robotaxi 角度來說，在中國，一線城市是主導市場。Robotaxi 的特殊之處，不需要做百城或者永遠都沒必要去做百城，這是商業模式所決定的，做好幾個關鍵的城市就可以，可能 20 城已經占據非常重要的部分了。我們的 20 城包括海外。

技術已經不是 Robotaxi 的瓶頸了。我們去一個新城市，遇到的一些極端情況，基本在世界模型生成的很多 corner case 都見過了。

晚點：最近你們遇到的比較棘手的城市是哪個？

樓天城：比如下暴雪、路面結冰這種極端天氣比較難，這是一個自動駕駛還沒能特別涉足的場景，但是世界上路面不結冰的地方還是很多的。

晚點：Robotaxi 規模變大，怎么避免可能帶來的規模交通事故？

樓天城：我們的評價體系中，安全肯定第一，車的舒適性、還有通行效率都很重要。早年時候，我們的世界模型就把通行效率放到其中，所以會比較靈活地穿梭在每個地方，這是一直做的事。

還有一點，我們也很看重冗余系統，我們也和豐田、廣汽、北汽一起打造量產的 Robotaxi，就是希望硬件上有冗余，比如緊急情況下能靠邊停車、防止本車道停車被追尾或者堵塞交通，這些都是冗余安全的范圍�？赡苡|發頻率不高，但在長期的運營中很重要。

晚點：特斯拉在北美奧斯汀也開始做車內無人的 Robotaxi 的運營了，它下一步可能面臨什么？

樓天城：數量就沒起來，他們也公布了事故率的數字，但還沒比人開車安全低很多，還沒到那個水平。這個跟他們的車隊數量有關。無人的還不太打得到，數量太少了。

還是先把無人車做到吧，100 萬輛的有人車，不會有一天突然就變成 100 萬輛無人車。哪怕它有很多量產車，但無人車輛也得從個位數開始。

晚點：有可能它的擴張速度會快一點。

樓天城：就得看實際進展了。百萬輛有人的車并沒有幫助它這個過程走的更快，否則絕對不會只在今天的范圍和無人車規模。它這一兩年的范圍擴展并不明顯。

晚點：Robotaxi 什么時候可以上高速？

樓天城：現在主駕無人的高速就只對內部開放，在技術和監管更 ready 之后我們會對外開放。我們內部的測試線就是去從公司去機場。當下 L2 高速容易于城區，L4 城區容易于高速，所有的人都這么認為的。

高速是高價值場景，但高速上的極端事件頻率很低，導致學習時的梯度下降速度變得更慢，更難發現問題，導致過程非常長，哪怕在 AI 幫助下。

比如在城市路上開了 1 萬小時，基本就知道開成什么樣子了。但高速還是不行，不知道什么路段開得不好沒有千萬公里高速公路里程積累，都不要說能在高速上開得好。

晚點：過去幾年行業對卡車有一些比較過高的期待，收費沒那么容易，你們從技術或者商業的角度怎么理解卡車的戰略意義？

樓天城：卡車的天花板非常高，行業價值可以跟 Robotaxi 相提并論。我們的卡車跟乘用車用的是一套代碼，但卡車個兒大，法規要求更嚴格，所以在公開道上鋪開會更慢。我們也在港口做卡車，包括專線，但一個能在港口開卡車的司機，他的能力是在外面公開道路鍛煉出來的。技術現在不是主要的 blocker，我們也在等政策成熟。我們一定會咬住這塊業務。

晚點：目前來看，L4 自動駕駛編隊行駛（前車有安全員、后車無人）是更加可行的產品形態？

樓天城：編隊是個長期產品�？梢哉J為，編隊的司機就是我們負責自動駕駛卡車運營的人。 Robotaxi 在一個區域，我們會有些地勤網格員在守著，車壞了也還是離不開運營人員。但卡車不能幾千公里一路都守，編隊司機就等于是網格員，這是長期存在且 work 的商業模式。到了集散地，總要人來簽字，網格員可以 cover。

晚點：卡車端的模型跟 Robotaxi 是完全同一套嗎？

樓天城：是一起被訓練出來的，但最后的控制模型環節，卡車和乘用車不太一樣。

晚點：Robotaxi 已經開始單車盈利了，卡車呢？

樓天城：車和 Robotaxi 的商業模式不同，因為卡車的能源和車輛成本占比更高，其實哪怕是有安全員的 Robotruck，單車也是盈利的。所以卡車的目標是隨著技術發展，提高卡車車隊的人車比，解決卡車司機短缺的問題。

AI 是脫韁野馬，打造一副馬鞍駕馭它，讓它自己演化

晚點：你們今年的新技術迭代，跟過去兩年 AI 大模型的技術進化，是同時發生的嗎？

樓天城：世界模型的發展跟整個 AI 大勢非常相關。2018 年根本沒有生成模型，但今天大家已經生成的不錯了。我們當時選擇了 follow，才獲得了今天的東西。

晚點：有同行說，自動駕駛行業最大的打擊可能來自于多模態大模型的降維打擊，比如字節等，你怎么看？

樓天城：自動駕駛可不僅僅只是一個模型，還有運行模型的框架、芯片部署，內存/CPU 怎么分配、傳感器系統如何設計冗余，車上路后還有各種運營問題。

從商業來看，好的模型只是其中一小部分。即便有更多模型出來，Robotaxi 行業的壁壘也不會降低，必須把所有東西都做好才行。

從技術維度上看，今天大家的關注重點還是多模態嗎？假如明天出來一個新模型，大家只會問它對 coding、agent 有多大幫助？今天關注點早就不在多模態上，都在 AI coding 上了。

AI coding 后面是什么？AI for development，我們的世界模型 2.0 是 AI for development 的一種可能，物理 AI、AI for science（人工智能助力科學）是另一種可能。多模態已經是過去時了，今天大家聊的至少是 coding 或者是 coding 往后的東西。

晚點：你們現在最稀缺、最需要的是什么樣的人才？

樓天城：是 Harness（馬具），能駕馭 AI 的人。我們要的是訓練馬的能力，得建一套系統，要知道如何分解任務、構建系統，知道如何讓 AI 驗證，給 AI 設計一個讓它不斷發揮、改進的路程。

但這種駕馭 AI 的能力是在幾年前、在還沒有 AI 的時候訓練出來的。如果工作第一天就開始用 AI，我可能永遠不會用這個東西。

我們也在一些高校上課，發現學生考試成績都是直線下降，因為大家做作業基本都拿 AI 做，這是很嚴重的問題。這是局部最優，但長期有害。我寫 code 也有這種感受，用 AI 久了之后就不如原來了，得去思考，讓 AI 怎么一步步做這個東西。如果我沒有原來的積累，我會擔心我培養不出來這東西。

晚點：現在頂級的 AI 人才會更傾向于流向 AI 大廠、具身公司，Robotaxi 公司在人才的吸引力上會受到影響嗎？

樓天城：蘿卜白菜各有所愛，很多人確實有理由去大廠，但學術、工業都還有個人偏好。我們更多還是找大家互相 match 的人，大家各自有各自的 taste。如果你關心應用、關心物理世界，那沒有比自動駕駛更好的方向了。指望具身應用？那還早，商業模式都根本不成熟，將來的成本、能耗都還沒算。

今天至少比前幾年前好，我可以非常自信地說，自動駕駛是物理 AI 中最早、最 pioneer（先鋒）的應用。

晚點：你現在也用 AI coding 嗎？

樓天城：我是深度應用使用者，我自認為有一些理解。對于 AI coding 本身，我相信你肯定聽到過 “Harness” 這個詞，意思是馬鞍，今天大模型很火，但就跟脫韁野馬一樣，如果直接騎上去，估計會摔得半死。如何限制、駕馭它，讓它們在框架中自己演進才是關鍵。

如何駕馭它，差別非常大。AI 用的好不好的人之間，原來差距可能是 120% 到 180% 的區別，但今天可能是 100 倍和負 200 倍的差別，差距在拉大。

晚點：你之前很喜歡參加編程競賽，現在沒人看非 AI 的榜了，你還有競賽樂趣嗎？

樓天城：我跟 AI 一起配合吧，我用 AI 幫我去刷某些東西，幫我做一些題，在一些有影響力的題庫上，排得也非常高，但這是個人的行為。again，學會駕馭 AI，讓 AI 能更好地做題。如果說要有樂趣，這可能是唯一有價值的樂趣了。

晚點：今年小馬成立 10 年了。你本人跟小馬公司有比較大的變化嗎？

樓天城：一直保持變化，每過一段時間就要重新審視一下這個行業，究竟挑戰是什么，該做什么，哪些新的東西能被我們所用，哪些新的坑要躲開。

晚點：創業這么久，你個人的最大的歷練是什么？

樓天城：很多，首先跟上技術發展。其次，幫助別人進步吧。幾年前吧，很多投資人伙伴問我，我說我最重要的任務就是招到比我好的人，給他們更好的發揮空間，這是我一直堅持做的事情。

晚點：今天可能得加一個前提，AI 可能已經比大部分人要做得好。

樓天城：對，在有 AI 的背景下，讓它成為最好的。

晚點：那你最希望能立刻改變的是什么？

樓天城：自動駕駛跟很多大語言模型的差別是，它的感性認識需要物理體驗，得真正坐進去才有感受，不像聊天工具，打開網頁就可以感受了。

所以先行者的優勢非常大，后來者必須也同樣要通過物理世界接觸，別人才能改變印象。它不會以互聯網那種方式爆發，但 again，爆發之后也絕不會在短時間內就開始易主。

晚點：世界模型第三階段是什么？

樓天城：世界模型本身有三個階段，第三階段就是物理世界模型，這是世界模型的未來，甚至要接觸 AI for science 了，做一些這樣的能力的積累，不是壞事，或多或少幫到第二階世界模型。但如果做，它肯定不會局限在自動駕駛了，會擴展到更大范圍了。

晚點：你們的產品布局也會到更大范圍嗎？

樓天城：至少先具備這個能力吧，產品方面肯定是更全面的決定，會根據實際商業情況做綜合的考慮。合適的時候我再對外分享。

晚點：AI 能開車、擁有對世界推演的能力之后，就能做好家務嗎？

樓天城：不能。做家務只是一個最常見的物理 AI 應用，但如果我對物理定律沒有理解，可能永遠只能做非常低階的事。自動駕駛當年要用世界模型，就是因為要超越人的水平，將來更多物理世界應用，單純跟人模仿還是會遇到瓶頸。

機器人可能今天還在早期，有很多進展，但它們還沒走到被要求超越人的階段，它還沒到我們 2020 年要開始用世界模型的階段。但很多物理定律的引入非常困難，今天連重力最基本的定律引入都非常困難，很多機器人倒水倒到杯子下面去了。

晚點：世界模型第三階段之后，你能看到的終局是什么？

樓天城：還真有終局。比如機器人能在里面做訓練，這是最基本的。這是宏觀物理世界，但還有一個微觀物理世界，如果真有那一天，我還能做這些事，我想用微觀物理世界真正理解，我們的世界究竟是如何被存在的。我一直堅持，我們的世界是個虛擬世界。

晚點：是外星人布置的嗎？

樓天城：微觀世界有很多東西的，比如量子干涉，玻色子、粒子這些。他們究竟怎么運轉的？很多問題還沒解決。這些東西究竟能不能通過一個虛擬環境來做模擬？如果能，可能我們就可以真正理解我們的世界是如何被模擬的。

這可能是人類這么多年充分利用 AI 后，我們這代人類能做的最大貢獻之一，這點毋庸置疑。我不知道我有沒有機會能 touch 到它，如果能，我一定會盡我全力。

題圖來源：小馬智行

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.