網易首頁 > 網易號 > 正文申請入駐

對比特斯拉和毫末智行AIDAY后，我們發現自動駕駛進入“合流期”

2022-11-03 10:58:20　來源: 智車科技

山東舉報

分享至

/導讀/

2022年行至年終，自動駕駛波瀾再起。

先是大眾基本放棄自研，花了168億元聯姻中國初創企業地平線開發智駕系統，緊接著背靠福特、大眾的自動駕駛明星公司ArgoAI宣布破產。

新歡燕爾時，舊愛難續緣。大眾、福特這些傳統主機大廠的改弦易轍，代表了自動駕駛進入新一輪洗牌期。完全無人駕駛的商業化困境日益凸顯，L4明星選手出現掉隊退賽，而輔助駕駛的漸進式路線則高歌猛進。

無外乎行業喊出了“自動駕駛再無路線之爭”。

這一結論印證了，幾個月前一家成立僅3年的自動駕駛初創公司毫末智行喊出的“輔助駕駛是通向自動駕駛的必由之路”的觀點。

自動駕駛產業其實已經進入跨越過Gartner技術曲線中后半程的成熟增長周期。

Gartner技術成熟曲線

在L4自動駕駛路線的公司紛紛“降維”或者直接轉型輔助駕駛路線的現象背后，其實不僅僅是商業化路線的合流，背后同樣是自動駕駛技術路線的合流。

面向無人駕駛的美好藍圖或者說誘人前景，沒有一項技術如同自動駕駛一樣如此跌宕起伏，飽受質疑又被滿懷希望。

其中一個核心問題就是首先走跨越式路線率先攻克無人駕駛百分百的安全性再走向商用，還是從輔助駕駛入手，在人機共駕的情況下，讓自動駕駛逐步聰明起來，再通向無人駕駛之境。

自動駕駛演進的天平逐步落到輔助駕駛這一路線上，其本質就是在量產輔助駕駛的規模場景數據下，自動駕駛技術正在進入以數據驅動下的多模態感知和可解釋場景化認知為代表的3.0時代。

外行人看熱鬧，內行人要看門道。我們可以從毫末智行、特斯拉兩家代表性的漸進式玩家的技術干貨中，來理解自動駕駛技術的合流之處。

本文主要涉及到9月份的兩場AIDAY上的技術布道的一些技術共識：

1、自動駕駛算法進入到合流階段，那就是深度學習在自動駕駛當中的應用，從各種不同的網絡結構的探索逐步收斂到Transformer為代表的大模型形態。

2、大模型的引入使得對于算力和數據的要求進入到新的階段。那就是海量大數據的訓練和云端大算力（超算平臺）的要求。

本文盡可能會用通俗易懂的語言來解釋這些自動駕駛的底層技術，下面我們將從算法、數據和算力的角度來進行介紹，告訴你基于數據驅動和輔助駕駛路線的自動駕駛技術為什么這么能打，并最有可能走向自動駕駛的終局。

算法進化：Attention大模型如何大力出奇跡

當前自動駕駛技術的出現和成熟落地，得益于新一輪人工智能技術，代表性技術就是以深度神經網絡學習為代表的AI算法的出現以及以GPU為代表的適合AI計算的專用芯片算力的爆炸式增長。

從深度學習當中發展出的各類神經網絡，包括CNN卷積神經網絡、RNN循環神經網絡以及LSTM長短時記憶網絡等，開始廣泛應用在圖像識別、機器視覺以及NLP自然語言處理等能力上，而這些能力又稱為自動駕駛感知技術的基礎。

Transformer模型

隨著AI算力的增長，AI算法模型也出現了新的進化，那就是出現了以Transformer、GPT3為代表的上千億參數規模的大模型。近兩年，以特斯拉、毫末智行為代表的領先的自動駕駛技術公司率先將Transformer應用到自動駕駛的感知算法當中，取得一些明顯進步。

簡單來說，Transformer大模型的核心是Attention注意力機制，它可以通過簡單的注意力模塊實現規模的堆疊，并從輸入的大量數據自身之間的相關性來完成特征編碼。這一特性就特別適合融合自動駕駛感知數據的不同位置、先后時序下的時空特征。

理解這些基礎信息后，我們就可以來看下毫末和特斯拉這次發布的最新技術思路。首先是BEV感知的引入。所謂BEV感知就是鳥瞰視角下的場景感知，也就是采取多傳感器特征融合的策略，將多個傳感器所生成的特征放到統一的坐標系下，形成一個以自車為中心的俯視視角，仿佛我們在賽車游戲的上帝視角在開車一樣，可以掌控車輛周圍全局的狀況。

特斯拉解決的問題就是使用Transformer模型中的自注意力機制來實現多個相機所拍攝的視角的融合。而毫末也設計出自己的BEV Transfomer模型，采用多相機融合，并加入時序特征，來進行車道線的識別。同時，9月份的AIDAY上，毫末也提出采用對人類世界的交互信息，即判斷周圍車輛的轉向、剎車燈信息來增強感知判斷。

而在今年10月1日的Tesla AI Day上，特斯拉展示了BEV感知的升級版本：Occupancy network，也被稱為占據柵格網絡。簡單理解就是在原有BEV的二維網格上升級為三維網格，即加入了高度信息，使得FSD的感知系統看到的世界更像一個《Minecraft》里的立體空間。

這樣只要感知視野內出現障礙物就會出現在三維網格中，得到其位置和速度信息，而常見的車輛、行人、建筑物等還會被給出語義信息，而不常見的物體即便沒有語義信息，也因為占據了網格也就不會被感知系統“忽視”而出現遺漏風險。

特斯拉的厲害之處是通過深度神經網絡和注意力機制，僅靠多相機融合而成的BEV感知就升級為占據柵格網絡，達到媲美激光雷達所直接繪制出的三維信息，同時還包含了視覺提供的稠密的語義信息。

對于國內的自動駕駛團隊來說，還需要依靠激光雷達與相機的多模態感知融合，來達到類似占據柵格網絡的效果。

但無論是特斯拉的純視覺感知還是毫末所使用的多模態傳感器融合感知，都在引領“重感知、輕地圖”的路線，也就是不再依賴預制高精度地圖這種構建成本高、應用范圍小的先驗感知條件。通常來說，高精地圖是L4無人駕駛和部分車企推出城市場景輔助駕駛產品的標配。

如果不依賴高精地圖給出的清晰的車道線信息，那僅憑借基礎的導航地圖（Navigation Map）的拓撲信息做道路指引（Lane Guidance）。在這里，特斯拉也使用了Transformer的語言模型Vector Lane對車道線進行空間上的感知。毫末與特斯拉類似，采用了弱引導的方式，再用時序的transformer模型在BEV空間上做了虛擬實時建圖，通過這種方式讓感知車道線的輸出更加準確和穩定。

在認知模塊，特斯拉和毫末也給出了“大同小異”的解決方案。所謂認知，就是自動駕駛系統要對感知結果的預測、決策和規劃，也就是解決自車要怎么走，要加速還是減速，變道還是剎停，最終給車輛發出一個行動的指令。而在實際的行車過程中，這些動作都是發生在毫秒之間并且是連續的。

特斯拉當前的作法是通過對感知模塊信息的判斷得到一個可行的軌跡空間，再采用增量決策樹搜索等優化算法來確定最優的軌跡。在這一過程中還要加入對占據網絡中遮擋區域的動態物體的預測，以避免發生“鬼探頭”這類的碰撞風險。

而毫末的解決思路是讓車輛的運動模擬人駕，像人類一樣實現在安全基礎上更高效、舒適的決策和規劃。具體來說，毫末正在原有的分場景微模型方法的基礎上，引入大模型的處理方式。

為此，毫末建立了一個海量的認知場景庫，對海量的人駕數據進行深度學習，基于典型場景挖掘海量司機的實際駕駛行為，構建一個taskpromt，即訓練基于時空Attention的駕駛決策預訓練大模型，使得自動駕駛決策更像人類實際駕駛行為，以保證實現自動駕駛決策的可控、可解釋。這樣通過模擬人駕來定義目標和求解的最優行為，可以充分發揮數據優勢。

至此，我們可以看到，兩家自動駕駛公司在感知和認知算法的進化，主要得益于AI大模型的使用，而大模型的背后離不開對于海量數據以及算力的需求。

3.0時代，縱享絲滑的“數據自由”是如何煉成的？

在今年9月的毫末AIDAY上，毫末CEO顧維灝提出了自動駕駛技術正在邁入以數據驅動為標志的3.0時代。

因為這個概念過于概況，很容易被誤解。其實，對于自動駕駛來說，數據一直以來都是無比重要的，但是過去十年的技術發展，Attention大模型的應用，使得數據在今天成為更為決定性的因素。

對于特斯拉，從 2015 年轉向自動駕駛自研之時，就確定了基于“數據迭代”的算法架構，而毫末智行，從3年前成立之初，也確定了基于數據驅動自動駕駛進化的數據智能體系，并且把數據處理的效率與成本當成是技術進化的第一性原理。

對于自動駕駛的技術進化，數據的標注、系統的仿真以及數據處理是至關重要的，最終的目標就是要實現在成本和效率下的“數據自由”。

特斯拉在數據標注上，曾在2021年透露過有一個上千人的標注團隊，而在經歷了今年的裁員風波后，這次的AI Day上更進一步強調了自動化標注的優化。通過自動標注技術，特斯拉將訓練場景的標注速度大幅提升。

毫末同樣在使用人工標注的同時，采用了自動化標注和自監督學習的方式來進行數據的標注。為了在自動駕駛系統中應用Attention大模型，毫末在MANA中引入無數據標注的自監督學習。MANA采用基于BEV框架下的3D空間一致性的自監督訓練，更有效迫使模型理解道路場景的三維結構，從而更好的適應自動駕駛的各種感知任務需求。相比只用標注樣本做訓練，訓練效率可提升3倍以上，同時精度有顯著提升。

在數據系統的仿真上，特斯拉和毫末都非常的重視。其中，特斯拉這一次AI Day上放出了大招。給出了示例是通過僅僅2周的時間就將舊金山的大部分道路場景做到仿真環境里。據介紹，這是采用了游戲中的虛幻4引擎來完成的，支持隨機建筑物、隨機環境、隨機車道線、隨機天氣與路面狀態、隨機軌跡的生成。這意味著，針對特殊路況的corner case，特斯拉有能力通過低時間成本的數據驅動的方法，做到快速仿真，訓練和驗證。

而毫末的目標是如何讓仿真更真實。他們的思路是完成這樣三層的仿真系統構建。一是基礎仿真能力、仿真環境和運動的基礎能力，主要衡量精準性；一個構建場景的能力，主要看效率；最后是定義場景的能力，主要看有效性。前面兩個說的是仿真場景的真實、效率，最后則是看場景定義的有效性，即能不能真正幫助提升自動駕駛的實際通過能力。

為此，毫末與阿里以及德清政府合作，利用路段設備記錄的真實交通流實景數據進行仿真訓練，比車輛采集更豐富，對路口通過能力提升幫助很大。為避免高重復度的場景，MANA使用自己提出的“交通環境熵”模型來計算場景價值，挑選出高價值場景轉化為仿真測試用例。這樣就大大提高了整個產品的通過性。

在大規模真實場景數據的處理上，特斯拉和毫末同樣有各自的獨到方案。提到特斯拉的數據引擎，就不得不提特斯拉在量產車上的影子模式（Shadow Mode），當特斯拉車輛上的觸發器（Trigger）發現一些異常模式（corner case）時，影子模式就會記錄，一些通過清洗，生成驗證集。而一些通過離線的自動標注算法，生成對應的標簽。當這些真實數據+標簽準備就緒，再混合仿真數據，以及經過手動校準的數據，共同構成的訓練數據集，用于訓練車端模型。

毫末是如何處理海量新增的采集數據呢？如果采用原有的訓練方案，即把新數據加入到舊數據當中，把神經網絡重新再訓練一遍，不僅費時費力，還成本巨大。對于自動駕駛企業來說是不可承受之重。因此，毫末提出采用增量學習的方式來更加有效的利用新數據。

在訓練過程中，抽取部分存量數據加上新數據組合成一個混合數據集，在限定數據規模的前提下，盡可能多的保持其中所包含的信息量。在模型上，要求新模型和舊模型的輸出保持盡量一致，同時盡可能地擬合新數據，這樣就在規模巨大的存量數據中讓模型保持對新場景的敏感。按照毫末這種增量學習的方式，整體算力可以節省 80%。

最終數據驅動的技術路線使得自動駕駛正在進入超算時代。特斯拉顯然是開風氣者。

眾所周知，特斯拉不僅自研了車端的專屬自動駕駛FSD芯片，還在去年宣布自研出了專門用于自動駕駛訓練的云端AI芯片D1以及計算中心Dojo。而在這一年時間里，特斯拉已經經歷了14個版本的迭代，將這個超算中心做了出來。

根據特斯拉的計劃，2023年第一季度將部署第一臺ExaPOD超級計算機，算力高達1.1EFLOP，其中的一個DOJO POD就可以提供 108PFLOPS 算力的深度學習性能。特斯拉的目標就是讓Dojo不斷突破限制，成為AI訓練方面最強的超算系統。

與此同時，像小鵬、毫末等國內的自動駕駛公司也在迎頭追趕，紛紛建立自己的超算中心。

據毫末發布的計劃來看，其超算中心的目標是滿足千億參數大模型，處理數據規模百萬clips。

此外，毫末將基于海量數據建立增量學習引擎，結合稀疏激活、算子深度優化等技術持續優化訓練成本�？梢灶A見，自動駕駛將投入更大量資源在云端的訓練上面，而訓練效率提升和成本優化始終是建設超算中心的主要目標。

結合以上的詳盡介紹，我們可以看到特斯拉和毫末在技術路線上存在很多的共識。

首先最重要的就是根本技術路線的合流，也就是對于Attention機制的大模型的使用，比如在感知策略中都采用的BEV感知融合，從而形成了以視覺融合為主的“重感知、輕地圖”路線。特斯拉和毫末都提出在感知模型建模后再加入導航地圖中的拓撲關系，以此降低對高精度地圖的依賴。這一策略正在得到來自華為、小鵬等高精地圖路線玩家的積極響應，表示在未來的城市拓展中會考慮無高精地圖下的開放。這無疑對自車感知能力有了更高的要求，反過來看也對于單車自動駕駛能力的提升形成了鞭策的效應。

其次是對于數據處理和高效模型訓練的重視。出于對覆蓋海量真實道路場景的大模型訓練，就需要大量仿真訓練。特斯拉和毫末在這一點上都非常重視通過對真實世界的仿真來快速的測試模型，收集失效場景，從而提高模型迭代的效率。而出于數據閉環下的模型迭代，兩家都在超算中心和云端訓練上投入了大量的資源。

技術合流下，自動駕駛柳暗花明

講了這么多的技術干貨，我們其實是可以回應開頭看到的行業狀況：為什么當前自動駕駛產業會面臨多次的挫折，為什么又有大量玩家可以信心滿滿加快發展？

在數據驅動成為自動駕駛產業趨勢的當下，AI大模型、自動標注、仿真、超算中心，正在成為各個玩家都在擁抱的技術共識。

在這種技術合流的新階段，車隊規模帶來的數據規模，以及充足的超算基礎設施資源、高效的超算訓練，將成為決定自動駕駛系統進化速度的核心因素。

自動駕駛技術一直存在著L4無人駕駛路線和從L2進發的輔助駕駛路線。

L4無人駕駛路線的目標是要在確保解決百分百安全問題下實現無人駕駛，因此會對自動駕駛的測試范圍、測試場景、感知冗余、先驗知識提出更高要求。這一特點帶來的弊端就像是在溫室中培養的花朵，雖然看起來艷麗奪目，但是缺乏移栽到室外的適應能力。因此難以打破限定區域，也難以形成規模商業化。遙遙無期的商業化，使得大量L4自動駕駛公司陷入燒錢黑洞，無法形成正向循環。

數據能力和商業化規模，成為制約L4路線玩家的根本瓶頸。越來越多的L4玩家已經或轉移、或擴展到了L2領域，開始為量產車打造輔助駕駛系統。之前的Cruise、現在的ArgoAI都是這一趨勢下的代表。一些玩家的退賽正是行業進入常態化增長發展的必然結果。

而從L2+輔助駕駛場景而來的自動駕駛技術則走出了一條自我進化的通路。那就是用戶的真實行駛提供海量場景數據，量產輔助駕駛實現商業閉環，數據驅動下的自動駕駛AI算法得到不斷升級，這樣自動駕駛的閉環形成正向循環。

最后我們想說。所謂撥云見日，就是只有讀懂了自動駕駛技術合流的這一根本趨勢，我們才能在籠罩在當下自動駕駛行業的層層迷霧中，看到柳暗花明的新局面。

- End -

會議相關

請聯系：張進Samuel

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.