網易首頁 > 網易號 > 正文申請入駐

信息工程大學聯合中山大學發布RTPSeg數據集：首次引入熱紅外圖像用于3D語義分割

2026-06-02 16:41:56　來源: AI科技評論

廣東舉報

分享至

RTPSeg充分驗證了熱紅外圖像在夜間和復雜光照條件下對3D語義分割的顯著提升作用。

論文地址：https://doi.org/10.1016/j.isprsjprs.2026.01.008

項目開源地址：https://github.com/sssssyf/RTPSeg

在地面各類移動平臺感知系統中，LiDAR點云語義分割是理解復雜道路環境的關鍵任務。然而，點云本身稀疏、缺乏紋理信息，使得單模態點云語義分割方法在復雜場景中表現受限。

過去，業界普遍采用可見光圖像輔助3D語義分割，利用圖像中的顏色和紋理信息來提升系統感知能力。但當強光、眩光、逆光、微光、無光等光照惡劣條件出現時，可見光圖像的優勢將迅速消失，多模態3D感知模型的穩定性難以保證。

比如在夜間城市道路上，車輛大燈直射下，可見光圖像中行人或車輛輪廓模糊，色彩信息幾乎丟失；又比如在黃昏或隧道出入口，光線劇烈變化，可見光傳感器容易出現曝光過度或不足，導致關鍵目標難以識別。

在這種背景下，熱紅外圖像因其對溫度敏感、不受光照變化影響、穩定提供熱輻射信息的特性，成為當前3D感知研究中極具潛力的補充模態。然而，行業內始終缺乏一個同時提供可見光、熱紅外圖像和點云數據并用于3D語義分割的專用數據集，相關研究難以開展。

針對這一研究空白，信息工程大學聯合中山大學在ISPRS J. P&RS上發表的工作《RTPSeg: A Multi-Modality Dataset for LiDAR Point Cloud Semantic Segmentation Assisted with 可見光-Thermal Images in Autonomous Driving》，首次構建了同時包含可見光圖像、熱紅外圖像和激光點云的3D語義分割數據集，并在此基礎上提出了多模態融合基線模型RTPSegNet，在晝夜混合的測試場景中取得了70.07%的mIoU，顯著超越了現有先進的LiDAR-only和可見光-LiDAR融合方法。

更重要的是，實驗充分驗證了熱紅外圖像在夜間和復雜光照條件下對3D語義分割的顯著提升作用，為如何提高地面移動系統全天候多模態3D感知的可靠性提供了重要借鑒。

行業痛點：當可見光圖像失效時，多模態融合3D感知如何“睜眼”？

盡管熱紅外圖像在捕捉顏色和紋理信息方面效果較差，但其可以提供場景中的熱輻射信息，并突出表面溫度高于周圍環境的目標，在不同的光照條件下保持穩定的性能，因此對于道路環境感知具有重要意義。

近年來，熱紅外圖像越來越多地被用作補充數據來處理復雜的城市駕駛場景，許多研究推動可見光-熱紅外圖像融合的2D語義分割快速發展。盡管KAIST數據集同時提供可見光-熱紅外圖像和點云以應對復雜場景，但其設計僅針對2D目標檢測任務。

因此，KAIST只包含圖像中運動目標的2D標注，沒有納入點云分析所需的3D標簽。因此，集成熱紅外圖像對于3D感知任務的有效性仍未得到驗證。

早期的基于車載移動激光掃描系統的3D語義分割數據集通常是單模態數據集，僅包含點云，且不區分白天和夜晚場景。由于單模態傳感器的固有局限性，研究人員從2019年開始關注構建多模態數據集，且通常包含由多個傳感器采集的數據，如激光雷達、可見光相機、毫米波雷達和IMU等。KITTI是自動駕駛領域的開創性多模態數據集。

2019年，KITTI團隊為KITTI提供了點級語義標注，并發布了SemanticKITTI數據集，標志著多模態3D語義分割研究的開端。

SemanticKITTI以39.2公里的采集數據和45億個點的標注極大擴展了多模態3D語義分割數據集規模，但它只包含白天場景。nuScenes是另一個代表性的大規模多模態數據集，也是第一個攜帶自動駕駛車輛完整傳感器套件的數據集，包括6個可見光相機、5個毫米波雷達和1個激光雷達。

此外，nuScenes還提供了具有挑戰性的場景，具有復雜的光照條件，如夜間和雨天場景。隨后的Waymo Open數據集在采集規模上與nuScenes相當，但標注頻率高出五倍，從而進一步擴展了訓練集的規模。近年來，這些國外知名廠商發布的具有顯著影響力的自動駕駛多模態數據集通過利用額外的模態（主要是可見光圖像）極大地推動了多模態3D語義分割的進展。

然而，由于可見光相機在惡劣光照條件下的固有缺陷，當前的多模態3D語義分割方法在復雜場景中仍然存在一定的局限性。因此，盡管熱紅外圖像能夠在惡劣光照條件下有效彌補可見光圖像質量退化挑戰，但行業內始終缺乏一個同時提供可見光、熱紅外圖像和點云數據并用于3D語義分割的專用數據集，導致相關研究難以開展。

綜上，RTPSeg是首個同時包含可見光圖像、熱紅外圖像與激光點云的3D語義分割數據集。雖然RTPSeg在規模上無法與SemanticKITTI、nuScenes和Waymo等國際知名數據集相媲美，但它填補了專用數據集的空白，并確立了一個新穎的多模態3D語義分割基準。

RTPSeg：首個用于自動駕駛感知研究的可見光圖像-熱紅外圖像-激光點云3D語義分割分據集

2.1 數據采集平臺與傳感器

研究團隊搭建了一套專用的多傳感器車載數據獲取平臺，同時集成了多個傳感器：

所有傳感器經過精確的時空同步，對可見光相機與熱紅外相機進行聯合標定，利用IMU對LiDAR點云進行運動畸變校正，并以10Hz的LiDAR幀率為基準，匹配最近的圖像幀，最終實現每個LiDAR點在可見光圖像和熱紅外圖像上的亞像素級投影對齊。

2.2 采集路線與場景分布

數據采集于中國廣東省深圳市光明區，涵蓋兩種典型環境：

城區：約5.3公里，商業區與居民區混合，行人和車輛密度高，道路情況復雜。

村鎮：約6.0公里，工業區和鄉村住宅為主，道路較規整，車流稀疏。

每條路線均分別在白天（10:00–18:00）和夜晚（20:00–22:00）采集，總采集里程約22公里，形成103個數據序列，每個序列包括30連續幀，共計超過3000個同步多模態數據幀。

2.3 標注類別與統計

團隊利用半自動標注工具對每一幀點云進行逐點語義標注，標注后再人工檢查，涵蓋城市環境中常見的18個語義類別目標：

移動目標：行人、騎行者、摩托車騎手、自行車、摩托車、汽車、卡車、公交車；

道路設施：行車道、人行道、路沿、圍欄、交通護欄；

靜態目標：建筑、高植被、低植被、桿狀物、交通標志、交通燈。

其他：未標注目標（忽略）

總標注點數超過2.4億，類別分布存在顯著長尾效應。例如，“自行車”和“騎行者”點數占比均低于0.1%，而“行車道”和“高植被”占比分別達到30.32%和25.15%。這種天然的類別分布不平衡性為算法魯棒性提出嚴峻挑戰。

RTPSegNet：可見光圖像-熱紅外圖像-激光點云三模態融合，

推理時無圖像模態輸入負擔

為了驗證RTPSeg數據集的有效性，團隊提出一個基線模型RTPSegNet。

訓練：充分利用LiDAR點云、可見光圖像、熱紅外圖像三種模態互補信息。

推理：僅保留LiDAR點云分支，不再需要任何圖像模態輸入，避免了傳感器視角差異挑戰，同時提高推理效率。

3.1 獨立模態分支

LiDAR點云分支：采用SPVCNN架構，利用稀疏點-體素卷積操作在精度和效率之間取得平衡，提取多尺度點云特征。
可見光圖像分支：使用在ImageNet上預訓練的ResNet34，提取原始分辨率逐像素特征。
熱紅外圖像分支：采用獨立且相同的ResNet34結構，將單通道熱紅外圖像復制三通道后得到的偽三通道圖像作為輸入。

3.2 可見光圖像-熱紅外圖像-激光點云融合分支

由于可見光相機與熱紅外相機的視場角、空間分辨率不同，難以直接進行像素級融合，RTPSegNet巧妙利用投影點作為三模態融合的中間橋梁：

1. 通過標定參數，將每個三維點分別投影到可見光圖像和熱紅外圖像上，得到對應的2D像素坐標。

2. 利用三個傳感器FoV重疊覆蓋區域的三維點，提取對應的點特征、可見光像素特征、熱紅外像素特征。

3. 對三個特征分別經過MLP投影到同一特征空間后拼接，得到融合特征。

4. 設計自適應門控融合模塊，能夠根據變化場景動態調整不同模態特征的貢獻：，

3.3 輔助預測分支

多模態融合過程只能發生在重疊點，融合后的特征經過多模態增強后更具判別力。為了讓所有點云都能獲得這種能力，RTPSegNet引入了知識蒸餾損失:

即讓LiDAR分支的預測分布去模仿和逼近多模態融合分支的預測分布，實現多模態融合知識的遷移，迫使LiDAR分支即使在沒有圖像輸入時也能擁有接近多模態融合分支的預測能力。因此，結合蒸餾損失函數，最終的總損失函數為：

實驗驗證：RTPSegNet刷新性能SOTA

4.1 實驗設置

RTPSeg劃分為白天訓練集（50個序列）、白天測試集（5個序列）、夜晚訓練集（44個序列）、夜晚測試集（4個序列），以及混合場景訓練集（94個序列）、混合場景測試集（9個序列）。

4.2 RTPSegNet的不同版本在不同場景上的表現對比

關鍵結論：

1. 熱紅外圖像增益的效果不止體現在夜晚，在白天仍然能作為3D感知的關鍵補充模態。

2. 三模態融合使夜間mIoU從61.60提升至63.05，提升幅度1.45%，是所有場景中絕對提升最高的，這表明熱紅外圖像對弱光環境的補強作用具有重要價值。

4.3 RTPSegNet與SOTA方法的在RTPSeg混合場景上的表現對比

PTv3使用TTA測試增強技術可以在RTPSeg混合場景上達到70.45%的mIoU，但推理延遲高達478ms，無法滿足延遲敏感需求。而RTPSegNet在53ms的延遲下達到70.07%，首次在實時性約束內實現了超越先進LiDAR-only和RGB-LiDAR融合方法，證明了熱紅外模態加入的特別優勢以及多模態訓練+輕量化推理路線的重要潛力。

為分析學習到特征的有效性，團隊利用訓練好的RTPSegNet對應分支從可見光圖像和熱紅外圖像中提取高維特征，并通過PCA對其進行可視化。可見光圖像和熱紅外圖像特征在特征空間中表現出特定于光照條件的顯著差異。

夜間時，熱紅外圖像特征在保持目標結構完整性方面優于可見光圖像特征。在白天有利的光照條件下，可見光圖像特征表現出的同質性保持和邊緣細節保真度方面都更優。相比之下，熱紅外圖像特征在白天更容易受到目標表面溫度的熱干擾，導致特定目標的表示模糊。

研究意義與展望：熱紅外傳感器補齊全天候多模態3D感知關鍵短板

這項研究的意義在于：

1. 首次將熱紅外圖像系統性地引入3D點云語義分割，為全天候自動駕駛感知提供了全新數據基礎，RTPSeg填補的數據空白將催生一個極具潛力的研究方向。

2. 驗證了熱紅外圖像在各類場景上對于3D感知的重要作用，其貢獻甚至超過可見光圖像，打破了“圖像輔助就是可見光圖像輔助”的固有認知。

3.提出了一個高效、可部署的多模態融合框架RTPSegNet，訓練時利用多模態，推理時回歸單模態，兼顧精度與實時性。

未來，團隊計劃在多個待拓展方向繼續做出努力：

更多標注任務：目前僅有3D語義分割標注，未來將增加3D檢測框、實例分割、軌跡預測等標注，使數據集支持更廣泛的自動駕駛相關任務。

惡劣天氣場景：目前僅采集了晴天和陰天的晝夜數據，未來會加入雨、雪、霧、霾等極端天氣，進一步挑戰多模態感知系統的魯棒性。

更多傳感器融合：計劃加裝毫米波雷達，探索毫米波雷達+熱紅外相機+可見光相機+LiDAR的超多模態融合方案。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.