![]()
追趕者的每一步都是取舍。
文丨郭瑞嬋
編輯丨龔方毅
“今天行業里真正量產了一段式端到端(從傳感器直接到駕駛行為的一體化模型)的車企和供應商,不到一只手的數量,” 長安汽車首席智駕官陶吉說,“我也感覺在公眾腦海里,怎么都輪不到長安。”
下半年長安會量產這套智駕,在那之前,《晚點 Auto》分別在上海和重慶見到了陶吉,跟著他在重慶從下午試車到晚上 —— 這是他日常工作之一,拉著骨干一起,順手在車上把會也開了。幾次交流下來,和技術細節討論得一樣多的,是一個追趕者在有限條件下如何做出的一連串具體選擇。
而那些取舍的背后,超越了一個純技術負責人的職責范疇。
三年前,陶吉辭掉上一家公司的 CEO,拒掉了具身智能的創業融資,跑到了長安。當時幾家主機廠發出邀請,他選長安的原因之一是:先一起做好智駕,再一起做具身智能。一年后長安將端到端列為智能化的未來戰略方向,計劃投入百億資金用于研發,“這是長安歷史上規模最大的戰略投資項目之一”。
長安早年轉做乘用車時從底特律請回一批工程師從頭建設,專門設了一個 “專家服務辦公室”,回國的專家嫌重慶屋外青蛙叫得睡不著,辦公室就派人去抓。重視人才的傳統延續到了今天。陶吉來長安第一天就有了簽審權、預算,相當于一個小特區。
追趕者的每一步都是取舍。過去幾年,由傳統主機廠孵化的智駕自研團隊大多走向收縮,長安的智駕布局雖早,但主要以規控為主,在端到端轉型里不占優。陶吉剛加入時,長安沒有可以讓車識別路況的自研感知模型,500 人的團隊里只有三十多人給模型做數據和開發工具,而自研端到端僅這個板塊就需要數百人,整體至少達到千人規模。
國企招人薪資有限,還要兼顧內部公平。同時,智駕是系統工程,大批量招人后,不同背景的人才之間容易產生摩擦。陶吉在這件事上有教訓。他加入長安前創辦了 L4 卡車公司千掛科技,那段經歷讓他知道 “該強勢就強勢,該壓制噪音就壓制”。
他在長安發起 “AI 基石計劃”,把大批校招生轉到基建方向,并設定了 “1:4:N” 的人才比例,每個方向配 1 位能定大方向的 “明白人”、4 位與其同頻并有過相關經驗的 “聰明人”,再由他們帶動 N 位 “執行人” 往前沖。3 年間,團隊從 500 人擴充到 1500 人,他形容 “邊開車邊換輪子”。
陶吉 2013 年在百度做無人車時,團隊里的人就在問,最聰明的人為什么都去大廠貼廣告了?他說那時起就想把 AI 用到物理世界里,到現在也沒變;中間放棄具身智能的創業,是因為具身智能的技術路徑和產品形態都不清晰,需要大量資金長期投入,而自動駕駛仍然是實現物理 AI 最快的領域。
他推崇特斯拉,關注最前沿的技術和智駕排名,會主動帶隊向同行請教,但他也清楚長安的稟賦,并不追求做第一。“我不是一個容易被誘惑的人,” 他說。2025 年一季度末決定全力押注一段式端到端之前,陶吉讓團隊并行測試了一季度的一段式和兩段式端到端,最后才選擇基建要求更高但上限也更高的前者。對 VLA(視覺-語言-動作模型)的態度也一樣,如果沒有一家公司證明它的表現超過了端到端,長安不會盲目大規模投入。
這也是陶吉第一次做端到端,一下狂喜、一下狂悲,頭發白了不少,但他說,只要方向沒錯,按正確的方法做事,做出一段式端到端是水到渠成,“可能早幾個月或晚幾個月,必定會往這個方向走。”
以下是《晚點 Auto》和陶吉的對話,經編輯:
一段式端到端沒有捷徑
晚點:傳統主機廠自研智駕在一段時間里曾被判了 “死刑”,很少人相信你們能做出一段式端到端。
陶吉:今天行業里真正量產了一段式端到端的車企和供應商,不到一只手的數量,我也感覺在公眾腦海里,怎么都輪不到長安。
早期傳統主機廠做智駕,容易對技術和路徑判斷不足,要么走向賽馬,要么在供應商和自研之間來回跳,都會帶來研發上的問題:方向不正確,或者積累不能持續,最后半死不活。再一個是機制和組織問題,科技公司背景的人跟傳統主機廠背景的人融合不了,團隊里做模型的和做規則的融合不了,就會產生嚴重內耗。
這需要天時、地利與人和,得找到合適的人、授權,沿著一個正確的方向走、持續積累,看到逐步起來的過程,才能不斷增強信心,不然堅持不住。
長安已經做得不錯,但一度也很緊張,我們做端到端花了一年六七個月,中間面臨很多 “效果到底行不行”“什么時候才能成” 的質疑,我們還有央國企的身份,上級單位的關注也會帶來壓力,得頂住。長安能做出來,我覺得值得在中國自動駕駛歷史上標記一下。
晚點:23 年你加入長安時,智駕技術路線的端到端轉向還不明顯,你們怎么確定技術方向?
陶吉:最早 23 年底做了一個三年規劃,當時特斯拉發布了 FSD V12,我們看到了端到端的趨勢,但不能在一窮二白的情況下一步登天,要逐步先把感知的各種小模型一統,再把感知跟規控模型一統,往端到端走。
所以第一年先用上一代感知大模型加手寫規控代碼的方法,把高速 NOA(自動輔助導航駕駛)快速做出來,同步補一些工具鏈、基建能力。24 年下半年高速 NOA 量產之后,行業同步發生了變化,理想用端到端實現了彎道超車,我們深感不能再用老的范式來做城區 NOA,一定要直接進入端到端,所以在公司內部開始論證、立項。
我的立項材料寫了兩個月,因為立項很重要,端到端需要算力和數據,花銷的大頭是資源,人的占比反而小了,這些資源投入在央國企需要經過正式的流程。我們 24 年 10 月立項通過,雖然流程長,但我觀察央國企有一個好處:一旦決定要做,momentum(動力)會非常強,決定了,就不會輕易再改,這對團隊來講是好事。
晚點:這些技術細節怎么解釋給平常主要關注傳統業務的高層聽?
陶吉:他們不會關注具體的技術細節,充分授權,我只要負責把這事做成功。討論要投多少資源比較難,那個時候行業也不明晰,有人說非常貴,特斯拉花了 1000 億,國內頭部可能每年花一、兩百億在做智駕,這里面有多少水分、多少真實,很難分辨。所以只能預估,公司覺得百億元量級能承受,那就干。
晚點:是一年一百億嗎?
陶吉:那肯定沒有這么多,相當于批了個百億規模預算給端到端。今天回過頭來看,各家花在端到端上的資源不完全一樣,有的因為過去的儲備恰好發揮了作用,就能花相對較少的資源做出效果;有的從零開始采集數據,真的是靠暴力砸錢砸出來的,人才很重要,但首先還是資源。
晚點:那長安應該屬于后者。
陶吉:我們敬畏時間差,所以更要聚焦,用更快、更準的實驗閉環,實現高效突破。我們有接近 3 萬張卡的集群,有云服務商跟我們講,在他們的車企客戶里,訓練規模最大的單一模型是長安的,用 4000 卡訓一個模型,比一些新勢力還大。不過,我們也盡量控制了訓練成本,沒有暴力砸錢。
晚點:你剛到長安看到的基建能力是怎樣的?
陶吉:實話實說,比較弱。傳統主機廠過去的積累偏控制、偏規劃層面,屬于團隊經驗驅動;真正數據驅動的感知、模型部分,儲備少,我來的時候長安連自己的 BEV(鳥瞰視角)方案都還沒有。我一加入就開始建數據閉環,包括數據采集、標注、模型訓練這一整套設施。
后來轉向一段式端到端,數據閉環的要求更高了:它的數據量是傳統感知模型的好幾個數量級,不可能人工逐幀標注,得有一套能大規模自動標注、打標簽的流水線,才能把我們叫 “片段”(clip)的數據生產出來。所以我們又從 0 搭建一套新的數據處理系統。
還有算法測試驗證的仿真工具。長安最早用的是供應商的傳統仿真工具,可以做簡單的回灌和可視化,一次最多并行幾十個仿真用例,但一次提交代碼需要跑數萬個仿真集合,遠遠不夠,必須要并行化。
而且自動駕駛方案一直在快速迭代,仿真也得跟著從上一代的 logsim(回放真實路測數據的仿真)和 worldsim(人工構建虛擬場景的仿真)迭代到今天世界模型(用 AI 生成虛擬場景的仿真模型)的方法,我們要一邊搭上一代仿真工具,也要一邊跟著行業前沿把新一代搭起來,整個過程是邊開車邊換輪子。
晚點:這個過程可以借助供應商的力量嗎?
陶吉:仿真引擎要方便自己團隊的工程師調試、可視化、檢測是否碰撞、加減速是否合理,但供應商提供的工具是固化的,不能按我們的需求來定制,基本上好的自動駕駛研發團隊都是用自己的仿真引擎。我們現在也只有最底層的云服務用到供應商。
晚點:基建從無到有,遇到的障礙可能是什么?
陶吉:障礙其實是 “要不要老老實實打地基” 這個選擇。有的企業圖快,拿供應商的白盒代碼、現成能在車端跑起來的東西,攢一攢就上了,但這種方法的可持續性要打個問號:你能不能真正吸收掌握、并且持續迭代下去?我的理念一直是基礎要打好,上面才修得高。
第二是資源和認知。我剛到長安時,團隊里做基建(infra)、工具鏈的,也就三十來人,當時整個智駕團隊大約 500 人。這樣的比例是不對的。通常一個上千人的團隊,跟數據基建相關的至少要占到三四百人。如果只靠從外部招人,時間未必等得及,所以要先把資源傾斜到基建團隊,我們啟動了內部自由轉崗招聘,但當時還有不少同學覺得基建不重要,更愿意在車上寫規控代碼。
我們 24 年在內部發起 “AI Cornerstone” 的基石計劃,明確一定要把這件事干起來,為了讓大家覺得它足夠重要,還特地起了個英文名。我們給正在工廠實習的校招生做宣講,把當年和上一年校招進來的同學大批量轉到這個方向,承諾他們干滿兩年后可以自由選擇新方向。
晚點:現在長安的基建能力到什么水平了?
陶吉:基建已經在行業第一梯隊。只有先把工具做到第一梯隊,產品才能跟上。
晚點:你們跳過了兩段式端到端,直接做一段式的考量是什么?
陶吉:端到端立項后,我們大概花了三四個月判斷技術選型,兩條路線并行嘗試,再做取舍。結果兩段式和一段式各有各的難,時間上很難確定哪個更快。
晚點:你看到的難點各是什么?
陶吉:兩段式對傳統感知能力的儲備、對標注精度和數據量都有很高的要求,我們當時只做了高速上的 BEV 大模型,如果要用兩段式做城區,感知數據一樣要重新采集、人工標注,起步速度會比較慢。一段式省去了很多中間要處理的環節,見效比較快,理論天花板也更高,但后面持續提升所需要的測試驗證、仿真能力要求很高;而且一段式沒有兩段式的結構化感知結果輸出,仿真評測無法用上一代的工具,還需要重新搭建。
我們最終選了一段式,因為這條路線攻克的是未來的方向,更值得投入。選了之后團隊士氣也上來了,他們還是想做前沿的事情。
晚點:這之前行業里已經有公司做出來端到端了,你們有所謂的后發優勢嗎?
陶吉:做到 70 分,是有大方向的理論可以參考,但要做到足夠好,真是靠實驗科學——數據怎么去噪、數據怎么配比調優、加哪些模型特征才有用,都是一天訓一二十個模型試出來的。
它有點像生物進化,是一個自然淘汰、篩選的過程,每一輪會有基因突變,適應環境的好基因被保留下來,一代代演進,好的東西越留越多、不好的越來越少。我們每一輪訓出來的模型,有很多是殘次品,但通過仿真、通過道路測試,我能選出有 “好基因” 的那幾個,讓它們再往下走、再加新的特征和數據,繼續挑出好的。
這也是為什么基建的能力這么重要。基建就像一個廚房:你得有好的爐灶、好的炒菜工具、好的鍋和勺子,才能同時快速炒出很多個菜,快速嘗出哪個配方好。再具體一點,數據處理、生產那套工具鏈就像在廚房里切菜備菜——你得有足夠多的原料、切菜備菜的速度夠快,整個炒菜周期就快;訓練的 infra、對算力的使用能力,就是有沒有猛火、有沒有好的專用廚師。
這些基建能力和快速迭代沉淀下來的數據配方,不是靠幾個人帶走幾段代碼和配方就能復制到另一家公司。
晚點:端到端之后,智駕自研的門檻到底是變高了,還是變低了?
陶吉:這要看門檻怎么定義了。如果把 “需要足夠多會寫復雜代碼和規則的人” 當成門檻,那門檻確實降低了,但端到端的門檻是剛剛說的數據基建能力,這背后是一整套體系能力,需要有好的組織和團隊融合來支撐,無法輕松復制。我們把整套數據閉環系統和底層云平臺打通,就花了至少一年時間,而這還只是基礎,還需要做大量實驗科學來迭代完善。
晚點:今天大家都在強調的仿真世界模型,它具體能起多大作用?
陶吉:今天仿真世界模型的能力還是被吹得太高了,我了解的實際作用沒那么大。一段式沒有結構化的感知作為中間結果,是原始傳感器畫面直接丟給模型。你每改一次模型、車的行為一變,車看到的視角也跟著變了,這時候你得在仿真中同步重構一個新視角下的畫面來測試驗證,這就是世界模型的一部分應用方向。
它現在的問題還是,視角變化大了,畫面重構就跟不上,只能在不變的視角下前后移動,所以只能對縱向行為做閉環——比如驗證車能不能及時、柔和地減速、剎停,可一旦涉及變道、轉彎這種橫向大角度偏移,它跟實車結果的差異還是很大。
坦白說,今天的算法測試方法還是比較原始,以開環仿真為主,再加實車測試。
晚點:有 Robotaxi 公司用積累的數據訓練一段式端到端,效果很好。你們怎么看 Robotaxi 數據的價值?
陶吉:我們最近跟做 Robotaxi 的同行交流過。他們證明了用 Robotaxi 的規則數據訓練一段式端到端非常有用。以前我會覺得這不合適,因為那是規則寫的,去學規則,不就把上限鎖死了嗎?
實際上 Robotaxi 數據質量非常高,很干凈,而且因為都裝了 360 度激光雷達,采回來的障礙物都帶真值(ground truth)標注,模型能學到對環境很好的表達。而我們不可能給那么多車都裝 360 度激光雷達去掃、去標,只能靠自動化標注。恰恰現在自動化標注的準確率還不算很高,質量參差不齊。
用 Robotaxi 數據跑出來的行為一致性很高,經過一層模型的學習后,動作也變得更柔和、平滑,因為模型做不了突變的動作,輸出一定是連續的。再加上一部分人開的數據來微調,就用了比較小的資源做到了比較好的效果。
現在,我們也在嘗試把小量特定場景數據加到模型里,看有沒有幫助,但也不必完全復刻別人,畢竟大家各有基因。重要的是要保持開放、多嘗試。
晚點:如果雇傭數百個好司機,采集他們的開車數據,是否也能接近 Robotaxi 的一致性?
陶吉:替代不了。一是沒有激光雷達的真值;二是保證不了他們開車的動作一樣、風格一樣,我們交代司機一定要遵守交通規則,他們就慢慢開,這樣采集回來的都是低速數據,沒有超速和亂變道,但效率也沒有了。后來我們跟網約車平臺合作,用幾百臺網約車來采數據,效率起來了,但亂開、壓線的比例又高了,好不容易篩了一輪數據后,又發現司機在不該休息的時候休息了、在路邊停著,模型都會把這些行為學進來,所以很難辦——Robotaxi 就不會無緣無故在路邊停著。
只要人對、方向對,做出來是早晚的事
晚點:之前業內也陸續有人才加入傳統主機廠干智駕,但很多人都沒有成功,你猶豫和擔心過嗎?
陶吉:有些朋友覺得,我膽子挺大的。他們比較擔心,我去一個陌生而且不是世俗認知里有這方面基因的傳統車企,會很難適應。過去從互聯網到汽車行業的人,有些落地都做得不是特別好,更不用說在央國企的難度了。
傳統主機廠從外部招來的人才,通常會被當做專家,是行政領導旁邊的一個顧問——解決不了問題時來問你,但責任主體還是自己的人。但長安不一樣,我來了第一天就拿到了實權,給資源、搭團隊、全程為智駕負全責。
晚點:剛剛你說了,這是個百億規模的投入,在長安屬于什么級別?
陶吉:長安歷史上規模最大的戰略投資項目之一,直到今天也是。
晚點:你怎么說服長安的管理層在一個項目上花這么多錢?
陶吉:其實沒有特別說服的過程,只是把道理和同行的情況展示清楚。當時朱董(長安汽車董事長朱華榮)甚至還在問:這夠不夠?是不是太少了?長安既然要做,就要做成。
晚點:擔不擔心立項之后,萬一做不出來被追責、被卡預算?
陶吉:我觀察,其他地方立項困難,更多是沒想清楚要不要做,外部噪音很多,內部對團隊的信任又不夠,就會反復質疑、反復讓你論證——說白了是最高決策層不夠篤定。
長安是真的想清楚要干,團隊也讓他們看到是值得托付的。朱董一直說,做不做得出來,最終責任是他來背。還有高層跟我開玩笑地說:做不出來你還想走?你就得跟我一直做。其實是變相安定團隊,讓大家別擔心,這個事我們會一直做下去。
晚點:他沒有說 “做不出來你就走”。
陶吉:對,所以沒有 “做不出來就把你怎么樣” 這回事。
晚點:他們還給你什么保證?讓你可以大體上按照你的想法去做事?
陶吉:我現在有一個總裁助理的行政職稱,長安也給智能化板塊設計了一個公司叫長安科技,作為 “特區” 做機制的市場化,智駕的簽審權、流程都在我這。
晚點:民營企業可以用高薪和股權來招人、激勵員工,但央國企這方面有客觀限制,怎么辦?
陶吉:央國企有當期經營目標實現、工資總額等壓力,還得充分考慮內外部公平性的問題。長安給了我一個總的工資池子,讓我自己看著來,要招到優秀的人才,又要充分調動原有的人才池。我定了一個 1:4:N 的比例,即每個方向都有 1 個能定大方向的人,4 個聰明的、跟他同頻并且有過相關經驗的人,他們都有一定級別、薪酬基本能跟市場匹配;N 則是這個池子里的基數,大多是原來主機廠內部招的人,有了方向和指引之后做執行。
據我所知,有些央國企希望通過引入幾名行業頭部人才來開展自研,我覺得可行性不高。智駕是一個非常龐大的系統工程,想靠幾個人把所有人都教會、帶起來不現實。到了 24 年下半年轉型做端到端,人才畫像變了,我們要找的人未必對傳統自動駕駛那套特別熟悉,但需要對模型、對數據、對天然用 scaling 的方式做事有直覺。
我們早期招人挺順利的,關鍵崗位都缺人,可以吸引一批在原來公司沒法按照自己技術理念做事、或者想負責更大范圍的人才。這些負責人絕大多數都是過去共事過,或者熟人非常信任推薦的,聚起來比較快。
晚點:你們做端到端時,智駕的變化、進展都挺快,沒多久 VLA 就量產上車了,這些對你有影響嗎?
陶吉:我不是一個容易被誘惑的人,還是喜歡正向去想:到底需不需要這個技術來做事。
VLA 和再往前的 VLM,這套理念我們很早就講了:24 年的長安科技生態大會上,我就提過 “全模態的輸入、全模態的輸出”——整車應該是一個完整的智能體(agent),能接收攝像頭、導航、語音、車內傳感器、座艙交互等各種輸入并理解,輸出也應該是多樣的,包括駕駛行為、語言交互反饋或者車內打開車窗之類的適時控制。理想情況下是用一個大一統模型來做,類似 VLA 或者今天大家所說的基模(Foundation model),從云端蒸餾到車端,只是真正的工程化落地沒那么理想。
技術還是為了解決問題,不能為了用而用,今天我還沒看到行業有哪家公司的 VLA 完整證明它的駕駛能力超過了端到端的上限。我們內部也有個小團隊在做純 VLA 駕駛,展現的潛力還可以,但我們暫時還不會大規模轉過去,得先看到有先例證明它能突破更高的天花板。
產品上,要實現類多模態輸入輸出的效果,方法有很多種,未必非叫 VLA,只要用戶覺得好用就行,我們今天也能用語音來跟智駕交互,花樣很多,但有些是真需求,有些可能是偽需求,內部也一直在辯論。
晚點:你們現在預研的 VLA,具體表現如何?
陶吉:特點是大腦比較聰明、小腦有點缺陷。它的繞障時機、跟動態障礙物交互、選道的準確性,更像人、更有思維感;但在橫向縱向的穩定性、速度合理性上還有不足,離端到端純模仿學習的水平還有差距。背后的原因我很難用理論解釋,更多是實驗科學。
晚點:聽下來,長安的策略還是在跟隨,而不是通過走一條新的路來實現彎道超車?
陶吉:以長安的人才儲備和基礎設施,不太適合第一個探索完全 “無人區”,這需要踩很多坑,資源消耗可能要達到第二、第三名的一個數量級以上。我們需要彎道超車,但實現方式是找一條能讓我們進第一梯隊,同時投入又相對可控的路徑,不是純技術邏輯驅動。我也不是一個純技術負責人,需要綜合考慮很多因素。今天大家講了很多 buzzwords(熱詞),結果跑得最好的不是講最多的那家,那這時候就需要冷靜思考一下了。
我們不到一年量產高速 NOA,一年半到今天準備城區 NOA 的量產,放到整個行業來看,還算比較快,因為這里面包含了構建團隊、重新搭基建的過程。其他公司過去在數據和基建的儲備上比較完善,做起來會更快一些,長安能做到這個進度,還是不容易的。
晚點:這是你們作為追趕者必須要做的取舍,還有別的關鍵點嗎?
陶吉:大方向不要錯,按正確的方法來做事。首先 “我” 得對,“我” 才能帶來一批對的人和對的組織文化。如果組織的目標明確、能夠很好協同,公司也愿意投入足夠的資源,這是水到渠成的事,可能早幾個月、晚幾個月,但必定會往這個方向走。
晚點:去年你們喊 “全民智駕”,量產和下放并行做,你們壓力大嗎?
陶吉:挺大的,但現在有個好處,端到端之后,模型的遷移裁剪比原來那么復雜的軟件棧容易多了,只要掌握了模型裁剪、量化、部署的這套能力,這件事就變成一個工程化的遷移動作。如果同一套模型可以同時在 500 TOPS 和 100 TOPS 算力芯片上跑通,那么中間再加 200、400 就會比較順暢。就像大語言模型,一發就是從 2B(2 億參數量) 到 7B 到幾十、幾百 B 都有。
晚點:進入數據驅動之后,每年需要的訓練費用不降反增,未來怎么保障這塊的投入?
陶吉:是,AI 研發完一代,還有下一代、下下一代,每年都是一樣的規模投入。朱董昨天也正好在會議上提到,要學會接受和了解這種新模式,AI 不像過去發動機、電池,開發完一代以后就不用持續投入更多。所以長安要聰明地解決資金來源,聰明地把每一代研發的能力外溢做好,首先內部搭載量要上來、規模化分攤,同時要外溢到其他相關領域,撬動社會資源創造更多價值。
把智駕做成生意,比做出來更難
晚點:你在百度從 0 到 1 做過無人車,之前也創業過,人的選擇、組織搭建、工具鏈和產品開發,這些是在你的舒適區之內嗎?
陶吉:這些都還在我的認知范圍內。但做完這些不代表就成了,單是技術研發的過程就非常坎坷和耗費心力,我過去也沒做過端到端,我也要跟大家一起往前,不斷學習、提升認知。你看頭發也白了不少。
團隊整個狀態有點像坐過山車,前一天某個能力突然提升了還在狂喜,第二天泛化一下,發現還有很多問題又狂悲,所以大家說不要 “狼來了”。改善要經過相對漫長的時間。
晚點:還好,白頭發看不太出來,看著還是挺年輕的。技術之外,超出你認知的是什么?
陶吉:前面講過,我不只是技術負責人。除了技術方向的選擇,資源怎么分配,用什么硬件載體來搭自研方案,智駕之后往哪走,整車智能的含義,產品定義,還有怎么做車型最愿意買單的方案,這些都是我要考慮的。
長安最開始看待高階智駕、城區 NOA 就像 “白月光”,想達到最高點。我們去做了,但做完之后發現平臺太貴了,沒有車型愿意搭,這時大家變得格外現實,又要好又要便宜。我們跟新勢力不一樣,新勢力早期只做高配的研發,中低配都交給供應商了,相對聚焦,不走商業閉環的邏輯,而是想通過自研把高階的品牌立起來,帶動股價上漲,股價可以用來補貼研發。
但長安作為央國企不能只看資本市場表現,更要看成本和效益。
長安的車型跨度大,從不到 10 萬到 30 萬都有,所以希望自研團隊可以從 5 TOPS 平臺一直做到 1000 TOPS,方便不同價位車型搭載,但這肯定不行,行業內沒有任何一家車企、供應商會做跨度這么大的方案,大家都是專攻一段。這時候我要做取舍,到底應該選什么樣的平臺貨架才能規模化搭載、分攤團隊投入,這是這兩年在技術之外一直思考的事情。
晚點:我們很少會和智駕負責人聊到貨架搭配。
陶吉:我之前做 L4 確實不太關注這些,怎么把生意做成,是我到主機廠后才逐漸關注的,因為經常被要求做證明題,訓模型太花錢了,這些投入稍微抖一抖,可能整個公司利潤都上升好多。朱董堅持我們要自己干,但同時也要想怎樣可以少花點錢。
晚點:很多人覺得,更好的智駕體驗需要一顆更對路的自研芯片,你怎么看?
陶吉:我覺得今天不需要,在走到真正跨域融合的整車 AI 之前,市面上給智駕、座艙用的芯片已經足夠成熟,今天主流的算子庫是相對明確的,底層依然是基于 Transformer 架構,已經應用了很多年,并沒有出現技術突變。芯片供應商也一直在跟進行業的技術演變,比如 4、5 年前設計的英偉達 Thor 芯片帶寬還只有 270G,隨著模型越來越大,最近的智駕芯片帶寬已經達到了 500G,并不存在 “只有主機廠自己知道、而供應商看不到” 的算法洞察。
今天所謂的艙駕一體芯片更多還是基于降本需求,兩個域控合為一個以后,節省了周邊元器件、供電、線束,但在內部還是一分為二、硬隔離在用,智駕跑智駕,座艙跑座艙。未來如果真的實現了多腦合一,需要的芯片跟現有的在定義和規格上有巨大差異,那才需要自己來做芯片。
我們內部也爭論過要不要自研芯片,理由無非是兩個:一是軟硬垂直整合做優化,特斯拉是典型案例,但在現實中,芯片供應商用自己的芯片都沒有外部方案商用得徹底,這不是技術原理問題,而是組織專注度的問題;二是不同車型的 BOM(物料清單)都能統一、集量降本,但以單一主機廠的搭載量,很難實現真正的成本分攤,降本空間有限。
我覺得,如果能把模型跨算力、跨芯片的裁剪做得成本足夠低,這才是今天最大的芯片自由,因為行業現在已經有不同供應商出不同算力的芯片,市場不再被壟斷,選項變多了,如果能做到芯片自由,就有很大的議價權,幫助降本。
這也能相對解決我們不知道怎么做貨架搭配的煩惱。用戶到底喜歡高性價比的中算力方案,還是更貴、性能也更好的高算力方案,過去很令我們糾結,因為一旦做多了就做不過來,但如果芯片自由了,貨架搭配就會很靈活,可以等市場信號相對明確之后再定平臺。所以對我們來說,今天更值得在芯片自由上發力。
晚點:智駕對消費者買車的決策影響有多大一直存疑,尤其在 15 萬以下的市場,你們看到的真實情況是怎樣的?
陶吉:我們做過門店調研,有 80% 的用戶會主動追問智駕,有些人會說 “我用不用你別管,你最好得有。” 我覺得主流用戶已經在門口敲門了,但跨進門的那一下還需要助力。
我們今年就想解決這個問題,讓長安的用戶從不了解、不相信、不敢用到敢用。我們開始在各地門店放大屏開屬地直播,不是老板偶爾試駕,而是播當地真實的智駕測試,有接管也照樣播,讓用戶看到智駕在哪些場景可以、哪些場景不可以,以及 OTA 之后發生的變化。在這個過程中,用戶會有參與感和掌控感,對智駕的能力邊界有更清晰的認知,不把它當全能也不當無能。
這個方法也能解決我們的銷售問題。我們的銷售前期對智駕很不自信,從來不會主動介紹,反而抱著 “你最好別問我智駕,也別讓我帶你試駕” 的態度。我們在門店直播也是想先讓銷售更有信心,再讓他們把智駕講出去。
晚點:今天智駕基本都 good enough 了,你們的產品特點是什么?
陶吉:首先是安全。作為央企,責任擔當是放在第一位的,要教用戶正確使用產品,使用過程中如果出現問題,也要及時響應負責。再往上一層是 “心理安全”:車要開得更像老司機,不能突然踩一腳急剎、讓人成天提心吊膽,要讓人放心去用。這也是當初選擇端到端的一個理由,這條路能走向真正好用的智駕,而不是過去的簡單可用。還有一層是 “情感安全”,車成為伙伴,能讓你時刻感覺到被照顧,也能掌控它,當它做得不好,可以讓它改,所以我們要做交互式智駕。
你們也試過了,我們現在的方案還需要打磨,有些場景要在體感跟安全之間做權衡、取舍,量產時還是要先解決安全問題,再盡最大努力用算法打磨體驗。
晚點:昨天我們試車,超車前我們那臺車自動閃一下遠光,有點出乎意料,這是你們的某種產品小巧思嗎?
陶吉:算是吧,這類動作今天還是靠產品經理的小巧思,但我覺得未來可以靠數據驅動來找到用戶真正的痛點場景。端到端駕駛實際上是模仿人類司機的駕駛行為,未來的整車智能也可用類似途徑實現,訓練數據變成 “整車片段”,而不只是 “駕駛片段”,把駕駛數據、交互數據——人說了什么話、跟車機做了什么互動、按了什么按鈕這些脫敏后的數據進行系統分析,發掘用戶的真需求。
晚點:現在消費者愿意用智駕了,但還不愿意為智駕付費。
陶吉:商業化是現在行業面臨的最大難題,不管主機廠、供應商都活得很苦:在主機廠的被拷問為什么要自己做、不用供應商的?在供應商的被拷問,主機廠給的收入那么少,為什么還要去 “跪舔”?工程師都很苦,歸根結底還是行業投入大、收入少,而收入的源頭是用戶。
我最近一年也在琢磨,對 L2 來說,保險可能是一條出路。智駕降低了事故率、提高了道路交通的綜合安全性,這本身跟保險相關,那保險為什么不能跟這些數據聯動起來?之前也有政府想和我們做一個示范合作,希望把數據放在區塊鏈上,來證明智駕跑出來的事故率是真的,這樣保險公司就能采信、聯動降保費。
放權基因、組織磨合與 “失意者聯盟”
晚點:這幾年一批主機廠孵化的智駕自研團隊已經退出,長安為什么執著于自研?
陶吉:一家有野心的主機廠,下半場不做智能化,還能做什么?將來汽車一定會跨域融合,統一成一個 “大腦”、一個 agent,今天的艙駕、底盤、熱管理……都還是分散在各自的小控制器里,只跑一些智能化的小程序,沒法聯動產生化學反應,這些跨域的數據將來在訓練階段就得放在一起,就像人一樣由一個大腦來綜合判斷。主機廠來做這件事很順,但前提是你得有底下那套能力。
這套能力的核心就是數據閉環:把車輛運行產生的數據拿回來,變成模型進化的燃料。它是水面之下的冰山,比水面上看到的結果更重要。一段式端到端其實是數據驅動的范式變革,infra 跟不上、這波沒趕上,就進不到這個范式,也就沒有下一個階段。
朱董一直在講 “無 AI 不長安”,這個指導方向要落地,需要長安每一層領導都真正認識到 AI 的力量。把智駕自研干成的過程,本身就是一次啟蒙,帶動整個長安的思維方式也跟著轉過來。對長安這樣的央企,還多一層責任——智能化和產業鏈安全深度綁定,必須要有一個自主可控的本土產業平臺,掌握關鍵核心技術。
自研也有現實的好處,比如 OTA 頻率能提上來。供應商不可能只為一家車企做 OTA,得等它的大版本,自研之后,我們可以做得更快,用戶看到了進化的過程,情緒價值也有了。
晚點:3 年前你離開千掛可以去新勢力或者智駕公司繼續做自動駕駛,也可以轉投具身智能創業,但你都沒有選這些看起來更主流的路。
陶吉:我之前也從未想過會去長安。23 年中,我已經拿到機器人創業的種子輪融資。當時有幾家主機廠邀請我,我想著可以去看一看、了解了解。轉了一圈之后,我被長安打動了。
他們帶我到每層樓看了他們的團隊和工位,和我之前的刻板印象不同,大家討論的氛圍跟科技公司很像,也非常開放,每到一層隨機抓個骨干來跟我聊技術細節。智駕不管做得好不好,都帶我去試駕,而且實際超出我的預期。長安在地平線 J3(5 TOPS)平臺上自研規控做了高速 NOA,規控是有積累的。
他們知道我想做機器人,也理解我的想法,因為他們也認為汽車技術未來一定會外溢到具身智能。他們沒有講 “我們的好,其他的不好”,反而說得很誠懇:今天做車、做智駕很卷,我們很需要一個 “堂主” 來帶著我們把這一關走好,幫長安上一個臺階,你先過來跟我們一起度過眼前的茍且,我們再一起奔赴詩和遠方、一起干具身智能。我聽了挺感動的,愿意相信他們。
長安也說到做到了,幾乎每次開高管會議或戰略會都會提到具身智能,能感覺到這個詞真的進了長安,不是隨口一說,我覺得他們是認真的。
晚點:你愿意相信長安,但長安為什么在一開始就那么信任你,讓你統管人工智能相關業務?
陶吉:我也是后來才知道,長安當時為了找到合適的人負責智駕,幾乎把國內這個圈子的人都聊了一遍,花了一兩年時間,從各個視角了解候選人,不只看 title,還要找到氣質和想法最吻合的人。我們在前期溝通中,就已經有共鳴和默契——干成這件事一定要有足夠的授權。
這其實也是長安的基因。早期長安從兵器制造轉型做車,先從微車開始,后來轉做乘用車,每一步都走得艱難。西南遠離發達地區,離頭部供應商也遠,沒有人支持,也沒有經驗、沒有技術,長安從那個時候就學會自力更生,危機感很強。
他們轉型做乘用車,是上一代從美國底特律回來的汽車人帶著從頭開始建設,所以他們有充分尊重、信任、授權外部專家的傳統。也只有在長安,我看到過一個叫 “專家服務辦公室” 的部門,專門負責全方位服務外部招聘的專家。早年的服務非常夸張,回國的專家帶著家人一起定居重慶,他們幫人把房子安排好,當時屋外還比較荒涼,晚上有青蛙的叫聲,專家說睡不好,他們就帶隊去抓青蛙。現在那個部門的人跟我們在北京、上海的智駕員工都很熟。
晚點:但現在和 3 年前不同,智駕行業的吸引力已經大打折扣。獵頭跟我們說,智駕 offer 在候選人心中的排位很靠后,大家都優先去大模型和具身智能公司。
陶吉:對,我們看到畢業兩三年的人跳去具身智能和大模型,一般能拿到非常不錯的薪資漲幅,對我們招人的挑戰很大,整個智駕行業都一樣。
尤其我們才剛剛做出成績,對外的宣傳不夠,“酒香也怕巷子深”,我希望大家這次可以聞到在長安這里也有一壇 “好酒”。我們團隊各個負責人的背景真的還挺好的,可以帶著大家一起做很多不一樣的事情。
晚點:比如,物理 AI?
陶吉:我想起個和物理 AI 不同的名字,叫行動 AI,更強調在物理世界的決策和執行,我們未來也要朝這個方向走。自動駕駛積累的能力,一定會外溢到整車的智能,走向移動物體、移動載具、移動工具的智能,再走向整個物理世界。
長安有央國企的勢能,還有基盤銷量帶來的量產數據優勢。今天各家都還沒有真正開始 PK 這個板塊,大多數都還處于靠測試車采集數據來啟動的階段,我們有穩定的基盤業務,可以持續提供燃料去迭代。
晚點:招人只是一方面,你要怎么留住內部的人才?
陶吉:早期從信任網絡進來的核心骨干,還是有使命愿景驅動的,大家是真的想把這件事干成。他們決定了團隊的調性。其實碰到一個能跟主機廠原有團隊融合得比較好、大家目標也比較一致、能干事的團隊,挺難得的,很多人過去在別的地方想干,但沒干成,都是有過創傷體質的,包括我自己。
晚點:所以你們是 “失意者聯盟”?
陶吉:開玩笑的說法,也算是吧(笑)。我覺得挺好的,“失意” 代表你想做成一件事,如果這個地方的土壤恰好適合,那 “失意者聯盟” 就變成了真正有戰斗力的團隊。人能不能做成事,跟土壤的契合度有一定關系。但干成之后,也得持續讓大家看到未來,所以我們要向外融資、機制靈活化,這樣才能保持團隊的長期穩定性。
晚點:你從千掛的經歷學到了什么?
陶吉:創業怎么玩、VC 是什么,還有人性的復雜、組織融合的重要性。當時千掛內部組織派系分裂,作為 CEO 就應該殺伐果斷,該強勢就強勢、該壓制噪音就壓制,不能讓下面的人拉幫結派搞斗爭、搞內耗,要找到一個共同的價值觀和目標去凝聚不同文化背景的人。所以來到長安之后,我特別強調組織的融合,不管是工程團隊還是算法團隊,從外部引進的還是長安本土的,我都一視同仁,該批評就批評,該做決策就做決策。
我在辦公桌上放了一個游戲機,有兩個手柄。我有時候會跟互相吵架的團隊開玩笑,讓他們實在不行,就來我這打一把拳皇,誰贏了聽誰的。當然沒真這么用過,但得引導大家互相理解對方的視角和可取的地方,我再及時公正地決策。
晚點:你的團隊分散在重慶、北京、上海三個地方,異地辦公給組織融合帶來的阻礙大嗎?
陶吉:所以我們不是按地域來劃分職責,比如北京只負責算法,重慶只負責工程,我們是按方向劃分,方向負責人要跨三地管理自己的團隊,用 1:4:N 的架構把能力往下傳,雖然負責人比較辛苦,要多地跑,但北京、上海先進的能力可以輻射到重慶,帶領重慶團隊一起做。這套方式目前看來比較適合長安的基因,內外部融合的效果還可以。
當然也還有提升空間,我們要多把兩邊的同學聚到重慶,只有我一個人感受到長安對人才的包容、欣賞它過去的歷史和精神,是不夠的,要讓大家都建立共同的感受。我們現在最核心的骨干至少有一半的工作時間都在重慶出差,要多在一塊討論、一起上車、形成共識。
晚點:長安給你們提供了怎樣的環境?
陶吉:長安自己培養起來的人對公司有很高的忠誠度,很多員工從祖輩開始就在長安工作了。雖然他們也會互相吵架,但一旦涉及公司的大方向,就會非常團結。比如從外部來了一批收入很高的人,他們也會有不平衡,但在大是大非面前,只有這樣才能干出來,他們是能接受的,而且執行力非常強,定了哪個方向就說一不二地干。
我們的理念相近,長安的 SDA 項目,是想做一個 “類人” 的架構——用最低的延遲、最魯棒的連接把每個末端傳感器跟中央大腦連接起來,雖然表述不同,但跟機器人說的是同一件事。
晚點:你最近學到的新知是什么?
陶吉:我最近有新的思考,今天無論是端到端、VLA 還是世界模型,都還學不會推測人的意圖。比如人在開車時有個 “社交準則”:交替通行——如果我已經連續讓了兩次路,后面的車也不好意思再擠了,會主動先讓我過。這是靈長類動物之后才開始有的能力——理解別人為什么要這樣行動,以及我行動之后別人會怎么解讀我的動作。
我覺得這種對人的意圖推測,應該有一個跟世界模型并列的模型,世界模型是對物理規律的刻畫、演化的推測,這個模型則是對智能體與智能體之間意圖的演化和推測,它倆要合到一塊,才是一個完整的真實世界。
晚點:這個智能體意圖推測模型應該怎么訓?
陶吉:這是好問題,我們內部有一個小團隊在調研,現在講還太早了,研究還沒有成型。
晚點:你是百度自動駕駛最早的成員之一,見證過這個行業最輝煌的時刻,但現在更多人在逃離這里。
陶吉:2016 年我們在百度開視頻周會,國內會議室坐了一排人,有李震宇(它石智航創始人),屏幕那邊也坐著在美研的一排人,有韓旭(文遠知行 CEO)、彭軍(小馬智行 CEO)、鮑君威(圖達通 CEO)...... 都是后來的明星公司 CEO,自動駕駛當時吸引了最頂尖的人才。
當年這群人基本都還在行業里,但是智駕太卷了,看不到上升空間,離開的人確實不少,我身邊很多小伙伴都失望了,互相開玩笑勸對方別干了,很多人跳去了具身智能行業。
我也想過去具身創業,但理性判斷之后,覺得具身目前的技術路徑和產品形態都還不清晰,商業化周期也特別漫長,需要融到足夠多的資金才能撐過泡沫之后的冷靜期。那就不如繼續在車上發力,我干這行 13 年了,這個行業還是不錯的,一直都排在各個垂直行業的前面,只不過今天大模型和機器人更火。
晚點:13 年來都在干智駕,你是一個善于堅守的人嗎?
陶吉:我可能比較慢吧,慣性比較重,自動駕駛是我最開始選擇做的一件事,肯定希望能走到終點。2013 年,我們在百度剛開始做無人車,內部就在說,為什么最聰明的人都去大廠貼廣告了?我們當時很憤青,覺得這不對,那時就埋下了做物理 AI 的種子,自動駕駛在今天依然是實現物理 AI 最快、也最有希望的領域。
李安琪對本文亦有貢獻。
題圖來源:長安科技
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.