[首發(fā)于智駕最前沿微信公眾號]當(dāng)我們看一張照片時,可以通過肉眼自然地判斷照片中的物體遠近,這種對于空間和距離的感知,對于人類來說是本能,是從幼兒時期開始就形成的一種能力。
對于自動駕駛汽車來說,為了能更好地辨別路況,也需要類似的能力。
什么是深度估計?
自動駕駛汽車必須理解環(huán)境中物體距離它有多遠,需要能快速辨別前面是行人還是車?那個車到底是在十米開外還是一兩百米遠?
深度估計就是讓機器從感知到的圖像或傳感器數(shù)據(jù)中估計出物體到自身的距離,給計算機一個可以理解的“空間感”。
這種能力在計算機視覺領(lǐng)域里被稱為深度估計(Depth Estimation),是自動駕駛感知系統(tǒng)的基礎(chǔ)一環(huán)。
![]()
圖片源自:網(wǎng)絡(luò)
深度估計的結(jié)果表現(xiàn)為“深度圖”,這張深度圖和普通照片不一樣,照片上的每個像素表示顏色,而深度圖上的每個像素代表的是這個像素點對應(yīng)的真實世界深度值,簡單理解就是圖片中的物體離我有多遠。
有了深度圖,車載系統(tǒng)就能把二維畫面轉(zhuǎn)化為三維空間的感覺,這對路徑規(guī)劃、避障、速度控制等任務(wù)來說非常重要。
為什么自動駕駛要進行深度估計
如果只給自動駕駛系統(tǒng)提供一張照片,是無法讓它直接判斷距離的。這跟人類看照片的本能不同,機器只看到數(shù)字和像素點。
沒有深度信息的話,計算機只能判斷物體的大致形狀、顏色和類別,但不知道它在空間中的實際位置。
舉個例子,一輛車可能看起來很大很清晰,但它到底在十米還是一百米之外,是深度信息才能回答的問題。
傳統(tǒng)的深度感知方式是用激光雷達(LiDAR)這樣的感知硬件,利用激光直接測量距離,成像效果會非常好,也正因如此,現(xiàn)在很多自動駕駛系統(tǒng)都依托激光雷達來獲取深度信息。
但是激光雷達成本高、算力要求高,也有安裝和維護等各種后續(xù)問題。
深度估計作為計算機視覺的一種技術(shù),就是希望用廉價的攝像頭和算法來補充或者替代一些昂貴的傳感硬件。
![]()
圖片源自:網(wǎng)絡(luò)
也就是說,深度估計技術(shù)是讓自動駕駛車輛能從攝像頭拍攝的普通圖像中預(yù)測出每一處的距離。
比方說前方有個行人,機器不僅要知道這是個人,還要知道這個人距離車有多少米,這就是深度估計提供的數(shù)據(jù)。
沒有這樣的三維感知,即便能識別物體類別,也無法安全地制定行駛策略。
如何實現(xiàn)深度估計?
深度估計本質(zhì)上是從圖像推斷空間距離的過程,由于單張圖像本身并不包含真實的深度信息,這一過程需要復(fù)雜的處理流程。
僅憑平面像素及色彩去推測三維空間中的距離,是一個典型的“欠定問題”,機器無法僅從一張圖片確定真實距離,而必須結(jié)合幾何原理、先驗知識以及大量數(shù)據(jù)來輔助推斷。
目前,主流的深度估計方法可分為兩類。
一種是多視圖方法,通過兩個或多個不同視角的攝像頭同時觀察同一個場景,然后用傳統(tǒng)的立體視覺算法去匹配、計算視差(就是確定同一個物體在不同視角中像素的偏移量),再根據(jù)視差轉(zhuǎn)換成深度信息。
這其實跟我們雙眼看到立體圖像類似,左右眼看到的是有輕微偏差的畫面,通過這種視差差異,我們的大腦能判斷深度。
類似的原理也可以在自動駕駛系統(tǒng)里用兩個攝像頭實現(xiàn)簡單的深度估計。
![]()
圖片源自:網(wǎng)絡(luò)
還有一種更常見的方法是單目深度估計,也就是只用一臺攝像頭實現(xiàn)深度估計。
由于單張圖像本身沒有視差信息,但是通過大量的數(shù)據(jù)和深度學(xué)習(xí)模型的訓(xùn)練,計算機還是可以學(xué)到一些圖像里固有的深度線索。
像是路面變得模糊、物體變小、遮擋關(guān)系等都是跟深度有關(guān)的視覺信號。
深度學(xué)習(xí)模型通過卷積神經(jīng)網(wǎng)絡(luò)、特征提取等手段,把這些線索編碼起來,然后預(yù)測每個像素的深度。
單目深度估計在技術(shù)層面有一些難點,真實世界物體的尺度有很大變化,而且同樣的像素在不同場景下可能對應(yīng)完全不同的距離,因此算法需要在大規(guī)模標(biāo)注數(shù)據(jù)上訓(xùn)練,讓模型學(xué)習(xí)到一般性的深度規(guī)律。
這個過程就像讓模型讀書一樣,通過成千上萬張有深度標(biāo)注的圖像讓它明白每種視覺特征對應(yīng)什么樣的深度分布。
訓(xùn)練出的模型在看到新圖像時,就能給出合理的深度預(yù)測。
深度估計在自動駕駛中的具體作用
對于自動駕駛汽車而言,深度估計不僅意味著通過圖像識別距離,更重要的是能以較低成本實現(xiàn)更高階的自動駕駛功能。
沒有深度信息,車輛雖能“看見”周圍環(huán)境,卻無法準(zhǔn)確判斷物體遠近;而有了深度信息,自動駕駛系統(tǒng)的“思考”才能真正從二維提升到三維空間,深度估計的直接作用包括。
- 碰撞預(yù)警:知道前方物體到底有多遠,從而判斷是否需要剎車或避讓。
- 路徑規(guī)劃:基于三維空間關(guān)系計算最佳行駛路線,而不僅僅是圖像中的像素路徑。
- 跟車距離控制:估計前車距離,決定加速或減速。
- 動態(tài)障礙物預(yù)測:結(jié)合機器學(xué)習(xí)追蹤其他車輛、行人的運動,并預(yù)測它們的未來位置。
![]()
圖片源自:網(wǎng)絡(luò)
所有這些功能都離不開準(zhǔn)確的深度預(yù)測。若缺少可靠的深度信息,后續(xù)的路徑規(guī)劃與控制決策便失去了空間依據(jù)。
在自動駕駛系統(tǒng)中,深度估計的結(jié)果并非依賴單一來源,而是與激光雷達、毫米波雷達等其他傳感器數(shù)據(jù)進行融合(即“傳感器融合”)。
這種方式既能充分利用視覺數(shù)據(jù)所蘊含的豐富信息,也能彌補單一傳感器的局限性。
最后的話
把深度估計看成自動駕駛系統(tǒng)中的一個模塊,其實有點低估它的價值。它不是簡單的圖像變換,而是把二維視覺轉(zhuǎn)化成三維空間認知的橋梁。
它讓機器不僅看到世界,還能理解世界的結(jié)構(gòu)和遠近關(guān)系。沒有準(zhǔn)確的深度估計,自動駕駛車輛就缺乏最基本的空間感覺。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.