網易首頁 > 網易號 > 正文申請入駐

對談長安智駕陶吉：一段式端到端沒捷徑，只有“邊開車邊換輪子”

2026-07-02 17:21:26　來源: 晚點LatePost

北京舉報

分享至

追趕者的每一步都是取舍。

文丨郭瑞嬋

編輯丨龔方毅

“今天行業里真正量產了一段式端到端（從傳感器直接到駕駛行為的一體化模型）的車企和供應商，不到一只手的數量，” 長安汽車首席智駕官陶吉說，“我也感覺在公眾腦海里，怎么都輪不到長安。”

下半年長安會量產這套智駕，在那之前，《晚點 Auto》分別在上海和重慶見到了陶吉，跟著他在重慶從下午試車到晚上 —— 這是他日常工作之一，拉著骨干一起，順手在車上把會也開了。幾次交流下來，和技術細節討論得一樣多的，是一個追趕者在有限條件下如何做出的一連串具體選擇。

而那些取舍的背后，超越了一個純技術負責人的職責范疇。

三年前，陶吉辭掉上一家公司的 CEO，拒掉了具身智能的創業融資，跑到了長安。當時幾家主機廠發出邀請，他選長安的原因之一是：先一起做好智駕，再一起做具身智能。一年后長安將端到端列為智能化的未來戰略方向，計劃投入百億資金用于研發，“這是長安歷史上規模最大的戰略投資項目之一”。

長安早年轉做乘用車時從底特律請回一批工程師從頭建設，專門設了一個 “專家服務辦公室”，回國的專家嫌重慶屋外青蛙叫得睡不著，辦公室就派人去抓。重視人才的傳統延續到了今天。陶吉來長安第一天就有了簽審權、預算，相當于一個小特區。

追趕者的每一步都是取舍。過去幾年，由傳統主機廠孵化的智駕自研團隊大多走向收縮，長安的智駕布局雖早，但主要以規控為主，在端到端轉型里不占優。陶吉剛加入時，長安沒有可以讓車識別路況的自研感知模型，500 人的團隊里只有三十多人給模型做數據和開發工具，而自研端到端僅這個板塊就需要數百人，整體至少達到千人規模。

國企招人薪資有限，還要兼顧內部公平。同時，智駕是系統工程，大批量招人后，不同背景的人才之間容易產生摩擦。陶吉在這件事上有教訓。他加入長安前創辦了 L4 卡車公司千掛科技，那段經歷讓他知道 “該強勢就強勢，該壓制噪音就壓制”。

他在長安發起 “AI 基石計劃”，把大批校招生轉到基建方向，并設定了 “1:4:N” 的人才比例，每個方向配 1 位能定大方向的 “明白人”、4 位與其同頻并有過相關經驗的 “聰明人”，再由他們帶動 N 位 “執行人” 往前沖。3 年間，團隊從 500 人擴充到 1500 人，他形容 “邊開車邊換輪子”。

陶吉 2013 年在百度做無人車時，團隊里的人就在問，最聰明的人為什么都去大廠貼廣告了？他說那時起就想把 AI 用到物理世界里，到現在也沒變；中間放棄具身智能的創業，是因為具身智能的技術路徑和產品形態都不清晰，需要大量資金長期投入，而自動駕駛仍然是實現物理 AI 最快的領域。

他推崇特斯拉，關注最前沿的技術和智駕排名，會主動帶隊向同行請教，但他也清楚長安的稟賦，并不追求做第一。“我不是一個容易被誘惑的人，” 他說。2025 年一季度末決定全力押注一段式端到端之前，陶吉讓團隊并行測試了一季度的一段式和兩段式端到端，最后才選擇基建要求更高但上限也更高的前者。對 VLA（視覺-語言-動作模型）的態度也一樣，如果沒有一家公司證明它的表現超過了端到端，長安不會盲目大規模投入。

這也是陶吉第一次做端到端，一下狂喜、一下狂悲，頭發白了不少，但他說，只要方向沒錯，按正確的方法做事，做出一段式端到端是水到渠成，“可能早幾個月或晚幾個月，必定會往這個方向走。”

以下是《晚點 Auto》和陶吉的對話，經編輯：

一段式端到端沒有捷徑

晚點：傳統主機廠自研智駕在一段時間里曾被判了 “死刑”，很少人相信你們能做出一段式端到端。

陶吉：今天行業里真正量產了一段式端到端的車企和供應商，不到一只手的數量，我也感覺在公眾腦海里，怎么都輪不到長安。

早期傳統主機廠做智駕，容易對技術和路徑判斷不足，要么走向賽馬，要么在供應商和自研之間來回跳，都會帶來研發上的問題：方向不正確，或者積累不能持續，最后半死不活。再一個是機制和組織問題，科技公司背景的人跟傳統主機廠背景的人融合不了，團隊里做模型的和做規則的融合不了，就會產生嚴重內耗。

這需要天時、地利與人和，得找到合適的人、授權，沿著一個正確的方向走、持續積累，看到逐步起來的過程，才能不斷增強信心，不然堅持不住。

長安已經做得不錯，但一度也很緊張，我們做端到端花了一年六七個月，中間面臨很多 “效果到底行不行”“什么時候才能成” 的質疑，我們還有央國企的身份，上級單位的關注也會帶來壓力，得頂住。長安能做出來，我覺得值得在中國自動駕駛歷史上標記一下。

晚點：23 年你加入長安時，智駕技術路線的端到端轉向還不明顯，你們怎么確定技術方向？

陶吉：最早 23 年底做了一個三年規劃，當時特斯拉發布了 FSD V12，我們看到了端到端的趨勢，但不能在一窮二白的情況下一步登天，要逐步先把感知的各種小模型一統，再把感知跟規控模型一統，往端到端走。

所以第一年先用上一代感知大模型加手寫規控代碼的方法，把高速 NOA（自動輔助導航駕駛）快速做出來，同步補一些工具鏈、基建能力。24 年下半年高速 NOA 量產之后，行業同步發生了變化，理想用端到端實現了彎道超車，我們深感不能再用老的范式來做城區 NOA，一定要直接進入端到端，所以在公司內部開始論證、立項。

我的立項材料寫了兩個月，因為立項很重要，端到端需要算力和數據，花銷的大頭是資源，人的占比反而小了，這些資源投入在央國企需要經過正式的流程。我們 24 年 10 月立項通過，雖然流程長，但我觀察央國企有一個好處：一旦決定要做，momentum（動力）會非常強，決定了，就不會輕易再改，這對團隊來講是好事。

晚點：這些技術細節怎么解釋給平常主要關注傳統業務的高層聽？

陶吉：他們不會關注具體的技術細節，充分授權，我只要負責把這事做成功。討論要投多少資源比較難，那個時候行業也不明晰，有人說非常貴，特斯拉花了 1000 億，國內頭部可能每年花一、兩百億在做智駕，這里面有多少水分、多少真實，很難分辨。所以只能預估，公司覺得百億元量級能承受，那就干。

晚點：是一年一百億嗎？

陶吉：那肯定沒有這么多，相當于批了個百億規模預算給端到端。今天回過頭來看，各家花在端到端上的資源不完全一樣，有的因為過去的儲備恰好發揮了作用，就能花相對較少的資源做出效果；有的從零開始采集數據，真的是靠暴力砸錢砸出來的，人才很重要，但首先還是資源。

晚點：那長安應該屬于后者。

陶吉：我們敬畏時間差，所以更要聚焦，用更快、更準的實驗閉環，實現高效突破。我們有接近 3 萬張卡的集群，有云服務商跟我們講，在他們的車企客戶里，訓練規模最大的單一模型是長安的，用 4000 卡訓一個模型，比一些新勢力還大。不過，我們也盡量控制了訓練成本，沒有暴力砸錢。

晚點：你剛到長安看到的基建能力是怎樣的？

陶吉：實話實說，比較弱。傳統主機廠過去的積累偏控制、偏規劃層面，屬于團隊經驗驅動；真正數據驅動的感知、模型部分，儲備少，我來的時候長安連自己的 BEV（鳥瞰視角）方案都還沒有。我一加入就開始建數據閉環，包括數據采集、標注、模型訓練這一整套設施。

后來轉向一段式端到端，數據閉環的要求更高了：它的數據量是傳統感知模型的好幾個數量級，不可能人工逐幀標注，得有一套能大規模自動標注、打標簽的流水線，才能把我們叫 “片段”（clip）的數據生產出來。所以我們又從 0 搭建一套新的數據處理系統。

還有算法測試驗證的仿真工具。長安最早用的是供應商的傳統仿真工具，可以做簡單的回灌和可視化，一次最多并行幾十個仿真用例，但一次提交代碼需要跑數萬個仿真集合，遠遠不夠，必須要并行化。

而且自動駕駛方案一直在快速迭代，仿真也得跟著從上一代的 logsim（回放真實路測數據的仿真）和 worldsim（人工構建虛擬場景的仿真）迭代到今天世界模型（用 AI 生成虛擬場景的仿真模型）的方法，我們要一邊搭上一代仿真工具，也要一邊跟著行業前沿把新一代搭起來，整個過程是邊開車邊換輪子。

晚點：這個過程可以借助供應商的力量嗎？

陶吉：仿真引擎要方便自己團隊的工程師調試、可視化、檢測是否碰撞、加減速是否合理，但供應商提供的工具是固化的，不能按我們的需求來定制，基本上好的自動駕駛研發團隊都是用自己的仿真引擎。我們現在也只有最底層的云服務用到供應商。

晚點：基建從無到有，遇到的障礙可能是什么？

陶吉：障礙其實是 “要不要老老實實打地基” 這個選擇。有的企業圖快，拿供應商的白盒代碼、現成能在車端跑起來的東西，攢一攢就上了，但這種方法的可持續性要打個問號：你能不能真正吸收掌握、并且持續迭代下去？我的理念一直是基礎要打好，上面才修得高。

第二是資源和認知。我剛到長安時，團隊里做基建（infra）、工具鏈的，也就三十來人，當時整個智駕團隊大約 500 人。這樣的比例是不對的。通常一個上千人的團隊，跟數據基建相關的至少要占到三四百人。如果只靠從外部招人，時間未必等得及，所以要先把資源傾斜到基建團隊，我們啟動了內部自由轉崗招聘，但當時還有不少同學覺得基建不重要，更愿意在車上寫規控代碼。

我們 24 年在內部發起 “AI Cornerstone” 的基石計劃，明確一定要把這件事干起來，為了讓大家覺得它足夠重要，還特地起了個英文名。我們給正在工廠實習的校招生做宣講，把當年和上一年校招進來的同學大批量轉到這個方向，承諾他們干滿兩年后可以自由選擇新方向。

晚點：現在長安的基建能力到什么水平了？

陶吉：基建已經在行業第一梯隊。只有先把工具做到第一梯隊，產品才能跟上。

晚點：你們跳過了兩段式端到端，直接做一段式的考量是什么？

陶吉：端到端立項后，我們大概花了三四個月判斷技術選型，兩條路線并行嘗試，再做取舍。結果兩段式和一段式各有各的難，時間上很難確定哪個更快。

晚點：你看到的難點各是什么？

陶吉：兩段式對傳統感知能力的儲備、對標注精度和數據量都有很高的要求，我們當時只做了高速上的 BEV 大模型，如果要用兩段式做城區，感知數據一樣要重新采集、人工標注，起步速度會比較慢。一段式省去了很多中間要處理的環節，見效比較快，理論天花板也更高，但后面持續提升所需要的測試驗證、仿真能力要求很高；而且一段式沒有兩段式的結構化感知結果輸出，仿真評測無法用上一代的工具，還需要重新搭建。

我們最終選了一段式，因為這條路線攻克的是未來的方向，更值得投入。選了之后團隊士氣也上來了，他們還是想做前沿的事情。

晚點：這之前行業里已經有公司做出來端到端了，你們有所謂的后發優勢嗎？

陶吉：做到 70 分，是有大方向的理論可以參考，但要做到足夠好，真是靠實驗科學——數據怎么去噪、數據怎么配比調優、加哪些模型特征才有用，都是一天訓一二十個模型試出來的。

它有點像生物進化，是一個自然淘汰、篩選的過程，每一輪會有基因突變，適應環境的好基因被保留下來，一代代演進，好的東西越留越多、不好的越來越少。我們每一輪訓出來的模型，有很多是殘次品，但通過仿真、通過道路測試，我能選出有 “好基因” 的那幾個，讓它們再往下走、再加新的特征和數據，繼續挑出好的。

這也是為什么基建的能力這么重要。基建就像一個廚房：你得有好的爐灶、好的炒菜工具、好的鍋和勺子，才能同時快速炒出很多個菜，快速嘗出哪個配方好。再具體一點，數據處理、生產那套工具鏈就像在廚房里切菜備菜——你得有足夠多的原料、切菜備菜的速度夠快，整個炒菜周期就快；訓練的 infra、對算力的使用能力，就是有沒有猛火、有沒有好的專用廚師。

這些基建能力和快速迭代沉淀下來的數據配方，不是靠幾個人帶走幾段代碼和配方就能復制到另一家公司。

晚點：端到端之后，智駕自研的門檻到底是變高了，還是變低了？

陶吉：這要看門檻怎么定義了。如果把 “需要足夠多會寫復雜代碼和規則的人” 當成門檻，那門檻確實降低了，但端到端的門檻是剛剛說的數據基建能力，這背后是一整套體系能力，需要有好的組織和團隊融合來支撐，無法輕松復制。我們把整套數據閉環系統和底層云平臺打通，就花了至少一年時間，而這還只是基礎，還需要做大量實驗科學來迭代完善。

晚點：今天大家都在強調的仿真世界模型，它具體能起多大作用？

陶吉：今天仿真世界模型的能力還是被吹得太高了，我了解的實際作用沒那么大。一段式沒有結構化的感知作為中間結果，是原始傳感器畫面直接丟給模型。你每改一次模型、車的行為一變，車看到的視角也跟著變了，這時候你得在仿真中同步重構一個新視角下的畫面來測試驗證，這就是世界模型的一部分應用方向。

它現在的問題還是，視角變化大了，畫面重構就跟不上，只能在不變的視角下前后移動，所以只能對縱向行為做閉環——比如驗證車能不能及時、柔和地減速、剎停，可一旦涉及變道、轉彎這種橫向大角度偏移，它跟實車結果的差異還是很大。

坦白說，今天的算法測試方法還是比較原始，以開環仿真為主，再加實車測試。

晚點：有 Robotaxi 公司用積累的數據訓練一段式端到端，效果很好。你們怎么看 Robotaxi 數據的價值？

陶吉：我們最近跟做 Robotaxi 的同行交流過。他們證明了用 Robotaxi 的規則數據訓練一段式端到端非常有用。以前我會覺得這不合適，因為那是規則寫的，去學規則，不就把上限鎖死了嗎？

實際上 Robotaxi 數據質量非常高，很干凈，而且因為都裝了 360 度激光雷達，采回來的障礙物都帶真值（ground truth）標注，模型能學到對環境很好的表達。而我們不可能給那么多車都裝 360 度激光雷達去掃、去標，只能靠自動化標注。恰恰現在自動化標注的準確率還不算很高，質量參差不齊。

用 Robotaxi 數據跑出來的行為一致性很高，經過一層模型的學習后，動作也變得更柔和、平滑，因為模型做不了突變的動作，輸出一定是連續的。再加上一部分人開的數據來微調，就用了比較小的資源做到了比較好的效果。

現在，我們也在嘗試把小量特定場景數據加到模型里，看有沒有幫助，但也不必完全復刻別人，畢竟大家各有基因。重要的是要保持開放、多嘗試。

晚點：如果雇傭數百個好司機，采集他們的開車數據，是否也能接近 Robotaxi 的一致性？

陶吉：替代不了。一是沒有激光雷達的真值；二是保證不了他們開車的動作一樣、風格一樣，我們交代司機一定要遵守交通規則，他們就慢慢開，這樣采集回來的都是低速數據，沒有超速和亂變道，但效率也沒有了。后來我們跟網約車平臺合作，用幾百臺網約車來采數據，效率起來了，但亂開、壓線的比例又高了，好不容易篩了一輪數據后，又發現司機在不該休息的時候休息了、在路邊停著，模型都會把這些行為學進來，所以很難辦——Robotaxi 就不會無緣無故在路邊停著。

只要人對、方向對，做出來是早晚的事

晚點：之前業內也陸續有人才加入傳統主機廠干智駕，但很多人都沒有成功，你猶豫和擔心過嗎？

陶吉：有些朋友覺得，我膽子挺大的。他們比較擔心，我去一個陌生而且不是世俗認知里有這方面基因的傳統車企，會很難適應。過去從互聯網到汽車行業的人，有些落地都做得不是特別好，更不用說在央國企的難度了。

傳統主機廠從外部招來的人才，通常會被當做專家，是行政領導旁邊的一個顧問——解決不了問題時來問你，但責任主體還是自己的人。但長安不一樣，我來了第一天就拿到了實權，給資源、搭團隊、全程為智駕負全責。

晚點：剛剛你說了，這是個百億規模的投入，在長安屬于什么級別？

陶吉：長安歷史上規模最大的戰略投資項目之一，直到今天也是。

晚點：你怎么說服長安的管理層在一個項目上花這么多錢？

陶吉：其實沒有特別說服的過程，只是把道理和同行的情況展示清楚。當時朱董（長安汽車董事長朱華榮）甚至還在問：這夠不夠？是不是太少了？長安既然要做，就要做成。

晚點：擔不擔心立項之后，萬一做不出來被追責、被卡預算？

陶吉：我觀察，其他地方立項困難，更多是沒想清楚要不要做，外部噪音很多，內部對團隊的信任又不夠，就會反復質疑、反復讓你論證——說白了是最高決策層不夠篤定。

長安是真的想清楚要干，團隊也讓他們看到是值得托付的。朱董一直說，做不做得出來，最終責任是他來背。還有高層跟我開玩笑地說：做不出來你還想走？你就得跟我一直做。其實是變相安定團隊，讓大家別擔心，這個事我們會一直做下去。

晚點：他沒有說 “做不出來你就走”。

陶吉：對，所以沒有 “做不出來就把你怎么樣” 這回事。

晚點：他們還給你什么保證？讓你可以大體上按照你的想法去做事？

陶吉：我現在有一個總裁助理的行政職稱，長安也給智能化板塊設計了一個公司叫長安科技，作為 “特區” 做機制的市場化，智駕的簽審權、流程都在我這。

晚點：民營企業可以用高薪和股權來招人、激勵員工，但央國企這方面有客觀限制，怎么辦？

陶吉：央國企有當期經營目標實現、工資總額等壓力，還得充分考慮內外部公平性的問題。長安給了我一個總的工資池子，讓我自己看著來，要招到優秀的人才，又要充分調動原有的人才池。我定了一個 1:4:N 的比例，即每個方向都有 1 個能定大方向的人，4 個聰明的、跟他同頻并且有過相關經驗的人，他們都有一定級別、薪酬基本能跟市場匹配；N 則是這個池子里的基數，大多是原來主機廠內部招的人，有了方向和指引之后做執行。

據我所知，有些央國企希望通過引入幾名行業頭部人才來開展自研，我覺得可行性不高。智駕是一個非常龐大的系統工程，想靠幾個人把所有人都教會、帶起來不現實。到了 24 年下半年轉型做端到端，人才畫像變了，我們要找的人未必對傳統自動駕駛那套特別熟悉，但需要對模型、對數據、對天然用 scaling 的方式做事有直覺。

我們早期招人挺順利的，關鍵崗位都缺人，可以吸引一批在原來公司沒法按照自己技術理念做事、或者想負責更大范圍的人才。這些負責人絕大多數都是過去共事過，或者熟人非常信任推薦的，聚起來比較快。

晚點：你們做端到端時，智駕的變化、進展都挺快，沒多久 VLA 就量產上車了，這些對你有影響嗎？

陶吉：我不是一個容易被誘惑的人，還是喜歡正向去想：到底需不需要這個技術來做事。

VLA 和再往前的 VLM，這套理念我們很早就講了：24 年的長安科技生態大會上，我就提過 “全模態的輸入、全模態的輸出”——整車應該是一個完整的智能體（agent），能接收攝像頭、導航、語音、車內傳感器、座艙交互等各種輸入并理解，輸出也應該是多樣的，包括駕駛行為、語言交互反饋或者車內打開車窗之類的適時控制。理想情況下是用一個大一統模型來做，類似 VLA 或者今天大家所說的基模（Foundation model），從云端蒸餾到車端，只是真正的工程化落地沒那么理想。

技術還是為了解決問題，不能為了用而用，今天我還沒看到行業有哪家公司的 VLA 完整證明它的駕駛能力超過了端到端的上限。我們內部也有個小團隊在做純 VLA 駕駛，展現的潛力還可以，但我們暫時還不會大規模轉過去，得先看到有先例證明它能突破更高的天花板。

產品上，要實現類多模態輸入輸出的效果，方法有很多種，未必非叫 VLA，只要用戶覺得好用就行，我們今天也能用語音來跟智駕交互，花樣很多，但有些是真需求，有些可能是偽需求，內部也一直在辯論。

晚點：你們現在預研的 VLA，具體表現如何？

陶吉：特點是大腦比較聰明、小腦有點缺陷。它的繞障時機、跟動態障礙物交互、選道的準確性，更像人、更有思維感；但在橫向縱向的穩定性、速度合理性上還有不足，離端到端純模仿學習的水平還有差距。背后的原因我很難用理論解釋，更多是實驗科學。

晚點：聽下來，長安的策略還是在跟隨，而不是通過走一條新的路來實現彎道超車？

陶吉：以長安的人才儲備和基礎設施，不太適合第一個探索完全 “無人區”，這需要踩很多坑，資源消耗可能要達到第二、第三名的一個數量級以上。我們需要彎道超車，但實現方式是找一條能讓我們進第一梯隊，同時投入又相對可控的路徑，不是純技術邏輯驅動。我也不是一個純技術負責人，需要綜合考慮很多因素。今天大家講了很多 buzzwords（熱詞），結果跑得最好的不是講最多的那家，那這時候就需要冷靜思考一下了。

我們不到一年量產高速 NOA，一年半到今天準備城區 NOA 的量產，放到整個行業來看，還算比較快，因為這里面包含了構建團隊、重新搭基建的過程。其他公司過去在數據和基建的儲備上比較完善，做起來會更快一些，長安能做到這個進度，還是不容易的。

晚點：這是你們作為追趕者必須要做的取舍，還有別的關鍵點嗎？

陶吉：大方向不要錯，按正確的方法來做事。首先 “我” 得對，“我” 才能帶來一批對的人和對的組織文化。如果組織的目標明確、能夠很好協同，公司也愿意投入足夠的資源，這是水到渠成的事，可能早幾個月、晚幾個月，但必定會往這個方向走。

晚點：去年你們喊 “全民智駕”，量產和下放并行做，你們壓力大嗎？

陶吉：挺大的，但現在有個好處，端到端之后，模型的遷移裁剪比原來那么復雜的軟件棧容易多了，只要掌握了模型裁剪、量化、部署的這套能力，這件事就變成一個工程化的遷移動作。如果同一套模型可以同時在 500 TOPS 和 100 TOPS 算力芯片上跑通，那么中間再加 200、400 就會比較順暢。就像大語言模型，一發就是從 2B（2 億參數量）到 7B 到幾十、幾百 B 都有。

晚點：進入數據驅動之后，每年需要的訓練費用不降反增，未來怎么保障這塊的投入？

陶吉：是，AI 研發完一代，還有下一代、下下一代，每年都是一樣的規模投入。朱董昨天也正好在會議上提到，要學會接受和了解這種新模式，AI 不像過去發動機、電池，開發完一代以后就不用持續投入更多。所以長安要聰明地解決資金來源，聰明地把每一代研發的能力外溢做好，首先內部搭載量要上來、規模化分攤，同時要外溢到其他相關領域，撬動社會資源創造更多價值。

把智駕做成生意，比做出來更難

晚點：你在百度從 0 到 1 做過無人車，之前也創業過，人的選擇、組織搭建、工具鏈和產品開發，這些是在你的舒適區之內嗎？

陶吉：這些都還在我的認知范圍內。但做完這些不代表就成了，單是技術研發的過程就非常坎坷和耗費心力，我過去也沒做過端到端，我也要跟大家一起往前，不斷學習、提升認知。你看頭發也白了不少。

團隊整個狀態有點像坐過山車，前一天某個能力突然提升了還在狂喜，第二天泛化一下，發現還有很多問題又狂悲，所以大家說不要 “狼來了”。改善要經過相對漫長的時間。

晚點：還好，白頭發看不太出來，看著還是挺年輕的。技術之外，超出你認知的是什么？

陶吉：前面講過，我不只是技術負責人。除了技術方向的選擇，資源怎么分配，用什么硬件載體來搭自研方案，智駕之后往哪走，整車智能的含義，產品定義，還有怎么做車型最愿意買單的方案，這些都是我要考慮的。

長安最開始看待高階智駕、城區 NOA 就像 “白月光”，想達到最高點。我們去做了，但做完之后發現平臺太貴了，沒有車型愿意搭，這時大家變得格外現實，又要好又要便宜。我們跟新勢力不一樣，新勢力早期只做高配的研發，中低配都交給供應商了，相對聚焦，不走商業閉環的邏輯，而是想通過自研把高階的品牌立起來，帶動股價上漲，股價可以用來補貼研發。

但長安作為央國企不能只看資本市場表現，更要看成本和效益。

長安的車型跨度大，從不到 10 萬到 30 萬都有，所以希望自研團隊可以從 5 TOPS 平臺一直做到 1000 TOPS，方便不同價位車型搭載，但這肯定不行，行業內沒有任何一家車企、供應商會做跨度這么大的方案，大家都是專攻一段。這時候我要做取舍，到底應該選什么樣的平臺貨架才能規模化搭載、分攤團隊投入，這是這兩年在技術之外一直思考的事情。

晚點：我們很少會和智駕負責人聊到貨架搭配。

陶吉：我之前做 L4 確實不太關注這些，怎么把生意做成，是我到主機廠后才逐漸關注的，因為經常被要求做證明題，訓模型太花錢了，這些投入稍微抖一抖，可能整個公司利潤都上升好多。朱董堅持我們要自己干，但同時也要想怎樣可以少花點錢。

晚點：很多人覺得，更好的智駕體驗需要一顆更對路的自研芯片，你怎么看？

陶吉：我覺得今天不需要，在走到真正跨域融合的整車 AI 之前，市面上給智駕、座艙用的芯片已經足夠成熟，今天主流的算子庫是相對明確的，底層依然是基于 Transformer 架構，已經應用了很多年，并沒有出現技術突變。芯片供應商也一直在跟進行業的技術演變，比如 4、5 年前設計的英偉達 Thor 芯片帶寬還只有 270G，隨著模型越來越大，最近的智駕芯片帶寬已經達到了 500G，并不存在 “只有主機廠自己知道、而供應商看不到” 的算法洞察。

今天所謂的艙駕一體芯片更多還是基于降本需求，兩個域控合為一個以后，節省了周邊元器件、供電、線束，但在內部還是一分為二、硬隔離在用，智駕跑智駕，座艙跑座艙。未來如果真的實現了多腦合一，需要的芯片跟現有的在定義和規格上有巨大差異，那才需要自己來做芯片。

我們內部也爭論過要不要自研芯片，理由無非是兩個：一是軟硬垂直整合做優化，特斯拉是典型案例，但在現實中，芯片供應商用自己的芯片都沒有外部方案商用得徹底，這不是技術原理問題，而是組織專注度的問題；二是不同車型的 BOM（物料清單）都能統一、集量降本，但以單一主機廠的搭載量，很難實現真正的成本分攤，降本空間有限。

我覺得，如果能把模型跨算力、跨芯片的裁剪做得成本足夠低，這才是今天最大的芯片自由，因為行業現在已經有不同供應商出不同算力的芯片，市場不再被壟斷，選項變多了，如果能做到芯片自由，就有很大的議價權，幫助降本。

這也能相對解決我們不知道怎么做貨架搭配的煩惱。用戶到底喜歡高性價比的中算力方案，還是更貴、性能也更好的高算力方案，過去很令我們糾結，因為一旦做多了就做不過來，但如果芯片自由了，貨架搭配就會很靈活，可以等市場信號相對明確之后再定平臺。所以對我們來說，今天更值得在芯片自由上發力。

晚點：智駕對消費者買車的決策影響有多大一直存疑，尤其在 15 萬以下的市場，你們看到的真實情況是怎樣的？

陶吉：我們做過門店調研，有 80% 的用戶會主動追問智駕，有些人會說 “我用不用你別管，你最好得有。” 我覺得主流用戶已經在門口敲門了，但跨進門的那一下還需要助力。

我們今年就想解決這個問題，讓長安的用戶從不了解、不相信、不敢用到敢用。我們開始在各地門店放大屏開屬地直播，不是老板偶爾試駕，而是播當地真實的智駕測試，有接管也照樣播，讓用戶看到智駕在哪些場景可以、哪些場景不可以，以及 OTA 之后發生的變化。在這個過程中，用戶會有參與感和掌控感，對智駕的能力邊界有更清晰的認知，不把它當全能也不當無能。

這個方法也能解決我們的銷售問題。我們的銷售前期對智駕很不自信，從來不會主動介紹，反而抱著 “你最好別問我智駕，也別讓我帶你試駕” 的態度。我們在門店直播也是想先讓銷售更有信心，再讓他們把智駕講出去。

晚點：今天智駕基本都 good enough 了，你們的產品特點是什么？

陶吉：首先是安全。作為央企，責任擔當是放在第一位的，要教用戶正確使用產品，使用過程中如果出現問題，也要及時響應負責。再往上一層是 “心理安全”：車要開得更像老司機，不能突然踩一腳急剎、讓人成天提心吊膽，要讓人放心去用。這也是當初選擇端到端的一個理由，這條路能走向真正好用的智駕，而不是過去的簡單可用。還有一層是 “情感安全”，車成為伙伴，能讓你時刻感覺到被照顧，也能掌控它，當它做得不好，可以讓它改，所以我們要做交互式智駕。

你們也試過了，我們現在的方案還需要打磨，有些場景要在體感跟安全之間做權衡、取舍，量產時還是要先解決安全問題，再盡最大努力用算法打磨體驗。

晚點：昨天我們試車，超車前我們那臺車自動閃一下遠光，有點出乎意料，這是你們的某種產品小巧思嗎？

陶吉：算是吧，這類動作今天還是靠產品經理的小巧思，但我覺得未來可以靠數據驅動來找到用戶真正的痛點場景。端到端駕駛實際上是模仿人類司機的駕駛行為，未來的整車智能也可用類似途徑實現，訓練數據變成 “整車片段”，而不只是 “駕駛片段”，把駕駛數據、交互數據——人說了什么話、跟車機做了什么互動、按了什么按鈕這些脫敏后的數據進行系統分析，發掘用戶的真需求。

晚點：現在消費者愿意用智駕了，但還不愿意為智駕付費。

陶吉：商業化是現在行業面臨的最大難題，不管主機廠、供應商都活得很苦：在主機廠的被拷問為什么要自己做、不用供應商的？在供應商的被拷問，主機廠給的收入那么少，為什么還要去 “跪舔”？工程師都很苦，歸根結底還是行業投入大、收入少，而收入的源頭是用戶。

我最近一年也在琢磨，對 L2 來說，保險可能是一條出路。智駕降低了事故率、提高了道路交通的綜合安全性，這本身跟保險相關，那保險為什么不能跟這些數據聯動起來？之前也有政府想和我們做一個示范合作，希望把數據放在區塊鏈上，來證明智駕跑出來的事故率是真的，這樣保險公司就能采信、聯動降保費。

放權基因、組織磨合與 “失意者聯盟”

晚點：這幾年一批主機廠孵化的智駕自研團隊已經退出，長安為什么執著于自研？

陶吉：一家有野心的主機廠，下半場不做智能化，還能做什么？將來汽車一定會跨域融合，統一成一個 “大腦”、一個 agent，今天的艙駕、底盤、熱管理……都還是分散在各自的小控制器里，只跑一些智能化的小程序，沒法聯動產生化學反應，這些跨域的數據將來在訓練階段就得放在一起，就像人一樣由一個大腦來綜合判斷。主機廠來做這件事很順，但前提是你得有底下那套能力。

這套能力的核心就是數據閉環：把車輛運行產生的數據拿回來，變成模型進化的燃料。它是水面之下的冰山，比水面上看到的結果更重要。一段式端到端其實是數據驅動的范式變革，infra 跟不上、這波沒趕上，就進不到這個范式，也就沒有下一個階段。

朱董一直在講 “無 AI 不長安”，這個指導方向要落地，需要長安每一層領導都真正認識到 AI 的力量。把智駕自研干成的過程，本身就是一次啟蒙，帶動整個長安的思維方式也跟著轉過來。對長安這樣的央企，還多一層責任——智能化和產業鏈安全深度綁定，必須要有一個自主可控的本土產業平臺，掌握關鍵核心技術。

自研也有現實的好處，比如 OTA 頻率能提上來。供應商不可能只為一家車企做 OTA，得等它的大版本，自研之后，我們可以做得更快，用戶看到了進化的過程，情緒價值也有了。

晚點：3 年前你離開千掛可以去新勢力或者智駕公司繼續做自動駕駛，也可以轉投具身智能創業，但你都沒有選這些看起來更主流的路。

陶吉：我之前也從未想過會去長安。23 年中，我已經拿到機器人創業的種子輪融資。當時有幾家主機廠邀請我，我想著可以去看一看、了解了解。轉了一圈之后，我被長安打動了。

他們帶我到每層樓看了他們的團隊和工位，和我之前的刻板印象不同，大家討論的氛圍跟科技公司很像，也非常開放，每到一層隨機抓個骨干來跟我聊技術細節。智駕不管做得好不好，都帶我去試駕，而且實際超出我的預期。長安在地平線 J3（5 TOPS）平臺上自研規控做了高速 NOA，規控是有積累的。

他們知道我想做機器人，也理解我的想法，因為他們也認為汽車技術未來一定會外溢到具身智能。他們沒有講 “我們的好，其他的不好”，反而說得很誠懇：今天做車、做智駕很卷，我們很需要一個 “堂主” 來帶著我們把這一關走好，幫長安上一個臺階，你先過來跟我們一起度過眼前的茍且，我們再一起奔赴詩和遠方、一起干具身智能。我聽了挺感動的，愿意相信他們。

長安也說到做到了，幾乎每次開高管會議或戰略會都會提到具身智能，能感覺到這個詞真的進了長安，不是隨口一說，我覺得他們是認真的。

晚點：你愿意相信長安，但長安為什么在一開始就那么信任你，讓你統管人工智能相關業務？

陶吉：我也是后來才知道，長安當時為了找到合適的人負責智駕，幾乎把國內這個圈子的人都聊了一遍，花了一兩年時間，從各個視角了解候選人，不只看 title，還要找到氣質和想法最吻合的人。我們在前期溝通中，就已經有共鳴和默契——干成這件事一定要有足夠的授權。

這其實也是長安的基因。早期長安從兵器制造轉型做車，先從微車開始，后來轉做乘用車，每一步都走得艱難。西南遠離發達地區，離頭部供應商也遠，沒有人支持，也沒有經驗、沒有技術，長安從那個時候就學會自力更生，危機感很強。

他們轉型做乘用車，是上一代從美國底特律回來的汽車人帶著從頭開始建設，所以他們有充分尊重、信任、授權外部專家的傳統。也只有在長安，我看到過一個叫 “專家服務辦公室” 的部門，專門負責全方位服務外部招聘的專家。早年的服務非常夸張，回國的專家帶著家人一起定居重慶，他們幫人把房子安排好，當時屋外還比較荒涼，晚上有青蛙的叫聲，專家說睡不好，他們就帶隊去抓青蛙。現在那個部門的人跟我們在北京、上海的智駕員工都很熟。

晚點：但現在和 3 年前不同，智駕行業的吸引力已經大打折扣。獵頭跟我們說，智駕 offer 在候選人心中的排位很靠后，大家都優先去大模型和具身智能公司。

陶吉：對，我們看到畢業兩三年的人跳去具身智能和大模型，一般能拿到非常不錯的薪資漲幅，對我們招人的挑戰很大，整個智駕行業都一樣。

尤其我們才剛剛做出成績，對外的宣傳不夠，“酒香也怕巷子深”，我希望大家這次可以聞到在長安這里也有一壇 “好酒”。我們團隊各個負責人的背景真的還挺好的，可以帶著大家一起做很多不一樣的事情。

晚點：比如，物理 AI？

陶吉：我想起個和物理 AI 不同的名字，叫行動 AI，更強調在物理世界的決策和執行，我們未來也要朝這個方向走。自動駕駛積累的能力，一定會外溢到整車的智能，走向移動物體、移動載具、移動工具的智能，再走向整個物理世界。

長安有央國企的勢能，還有基盤銷量帶來的量產數據優勢。今天各家都還沒有真正開始 PK 這個板塊，大多數都還處于靠測試車采集數據來啟動的階段，我們有穩定的基盤業務，可以持續提供燃料去迭代。

晚點：招人只是一方面，你要怎么留住內部的人才？

陶吉：早期從信任網絡進來的核心骨干，還是有使命愿景驅動的，大家是真的想把這件事干成。他們決定了團隊的調性。其實碰到一個能跟主機廠原有團隊融合得比較好、大家目標也比較一致、能干事的團隊，挺難得的，很多人過去在別的地方想干，但沒干成，都是有過創傷體質的，包括我自己。

晚點：所以你們是 “失意者聯盟”？

陶吉：開玩笑的說法，也算是吧（笑）。我覺得挺好的，“失意” 代表你想做成一件事，如果這個地方的土壤恰好適合，那 “失意者聯盟” 就變成了真正有戰斗力的團隊。人能不能做成事，跟土壤的契合度有一定關系。但干成之后，也得持續讓大家看到未來，所以我們要向外融資、機制靈活化，這樣才能保持團隊的長期穩定性。

晚點：你從千掛的經歷學到了什么？

陶吉：創業怎么玩、VC 是什么，還有人性的復雜、組織融合的重要性。當時千掛內部組織派系分裂，作為 CEO 就應該殺伐果斷，該強勢就強勢、該壓制噪音就壓制，不能讓下面的人拉幫結派搞斗爭、搞內耗，要找到一個共同的價值觀和目標去凝聚不同文化背景的人。所以來到長安之后，我特別強調組織的融合，不管是工程團隊還是算法團隊，從外部引進的還是長安本土的，我都一視同仁，該批評就批評，該做決策就做決策。

我在辦公桌上放了一個游戲機，有兩個手柄。我有時候會跟互相吵架的團隊開玩笑，讓他們實在不行，就來我這打一把拳皇，誰贏了聽誰的。當然沒真這么用過，但得引導大家互相理解對方的視角和可取的地方，我再及時公正地決策。

晚點：你的團隊分散在重慶、北京、上海三個地方，異地辦公給組織融合帶來的阻礙大嗎？

陶吉：所以我們不是按地域來劃分職責，比如北京只負責算法，重慶只負責工程，我們是按方向劃分，方向負責人要跨三地管理自己的團隊，用 1:4:N 的架構把能力往下傳，雖然負責人比較辛苦，要多地跑，但北京、上海先進的能力可以輻射到重慶，帶領重慶團隊一起做。這套方式目前看來比較適合長安的基因，內外部融合的效果還可以。

當然也還有提升空間，我們要多把兩邊的同學聚到重慶，只有我一個人感受到長安對人才的包容、欣賞它過去的歷史和精神，是不夠的，要讓大家都建立共同的感受。我們現在最核心的骨干至少有一半的工作時間都在重慶出差，要多在一塊討論、一起上車、形成共識。

晚點：長安給你們提供了怎樣的環境？

陶吉：長安自己培養起來的人對公司有很高的忠誠度，很多員工從祖輩開始就在長安工作了。雖然他們也會互相吵架，但一旦涉及公司的大方向，就會非常團結。比如從外部來了一批收入很高的人，他們也會有不平衡，但在大是大非面前，只有這樣才能干出來，他們是能接受的，而且執行力非常強，定了哪個方向就說一不二地干。

我們的理念相近，長安的 SDA 項目，是想做一個 “類人” 的架構——用最低的延遲、最魯棒的連接把每個末端傳感器跟中央大腦連接起來，雖然表述不同，但跟機器人說的是同一件事。

晚點：你最近學到的新知是什么？

陶吉：我最近有新的思考，今天無論是端到端、VLA 還是世界模型，都還學不會推測人的意圖。比如人在開車時有個 “社交準則”：交替通行——如果我已經連續讓了兩次路，后面的車也不好意思再擠了，會主動先讓我過。這是靈長類動物之后才開始有的能力——理解別人為什么要這樣行動，以及我行動之后別人會怎么解讀我的動作。

我覺得這種對人的意圖推測，應該有一個跟世界模型并列的模型，世界模型是對物理規律的刻畫、演化的推測，這個模型則是對智能體與智能體之間意圖的演化和推測，它倆要合到一塊，才是一個完整的真實世界。

晚點：這個智能體意圖推測模型應該怎么訓？

陶吉：這是好問題，我們內部有一個小團隊在調研，現在講還太早了，研究還沒有成型。

晚點：你是百度自動駕駛最早的成員之一，見證過這個行業最輝煌的時刻，但現在更多人在逃離這里。

陶吉：2016 年我們在百度開視頻周會，國內會議室坐了一排人，有李震宇（它石智航創始人），屏幕那邊也坐著在美研的一排人，有韓旭（文遠知行 CEO）、彭軍（小馬智行 CEO）、鮑君威（圖達通 CEO）...... 都是后來的明星公司 CEO，自動駕駛當時吸引了最頂尖的人才。

當年這群人基本都還在行業里，但是智駕太卷了，看不到上升空間，離開的人確實不少，我身邊很多小伙伴都失望了，互相開玩笑勸對方別干了，很多人跳去了具身智能行業。

我也想過去具身創業，但理性判斷之后，覺得具身目前的技術路徑和產品形態都還不清晰，商業化周期也特別漫長，需要融到足夠多的資金才能撐過泡沫之后的冷靜期。那就不如繼續在車上發力，我干這行 13 年了，這個行業還是不錯的，一直都排在各個垂直行業的前面，只不過今天大模型和機器人更火。

晚點：13 年來都在干智駕，你是一個善于堅守的人嗎？

陶吉：我可能比較慢吧，慣性比較重，自動駕駛是我最開始選擇做的一件事，肯定希望能走到終點。2013 年，我們在百度剛開始做無人車，內部就在說，為什么最聰明的人都去大廠貼廣告了？我們當時很憤青，覺得這不對，那時就埋下了做物理 AI 的種子，自動駕駛在今天依然是實現物理 AI 最快、也最有希望的領域。

李安琪對本文亦有貢獻。

題圖來源：長安科技

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.