无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

300萬對樣本、200萬對實拍:深度估計的數據荒,終于被打破

0
分享至



機器之心編輯部

做深度估計、深度補全的人,大概都有過這樣一個瞬間。

模型在 NYU Depth V2 這樣的經典 benchmark 上跑出了漂亮的分數,指標也足夠好看。可一旦把同一個模型部署到真實機器人上,問題立刻暴露出來:深度圖邊緣發糊、遠處漂移,遇到反光材質幾乎直接失效。

你第一反應往往是實現出了 bug,于是從代碼到訓練流程排查一遍。可最終你會發現,代碼沒問題。

問題出在數據。

其實,這不是個例,而是這個方向長期存在的困境之一。

深度估計和深度補全的學術進展,在某種程度上是被數據集的天花板壓著走的。過去十幾年,社區高度依賴幾個經典數據集:NYU Depth V2 以公寓和辦公室場景為主,室內覆蓋有限;KITTI 面向自動駕駛,室外道路場景扎實,但對具身智能幾乎沒有直接用處;ScanNet 在室內重建方向貢獻巨大,但它的幀序列格式并非為配對深度訓練設計;ETH3D、DIML 各有側重,規模都不足以支撐當下大模型時代的訓練需求。

雖然現在有合成數據集可以填補數據短缺問題,但合成數據在渲染材質和真實場景之間有一道肉眼可辨的鴻溝。模型在合成數據上學到的深度先驗,遇到真實世界的反光金屬、透明玻璃、復雜紋理,往往直接崩壞。

這道鴻溝,沒有大規模真實數據,系統性的解法很難實現。直到 3 月底,這個局面終于出現了松動。

螞蟻靈波完成了一件在這個領域久違的動作:一次性開源約 300 萬對高質量 RGB - 深度數據 ——LingBot-Depth-Dataset。每條樣本同時包含 RGB 圖像、傳感器原始深度以及對應的真值深度,為訓練提供了完整的對照信號。

整個數據集規模達到2.71TB,其中包括約200 萬對真實采集的 RGB-D 數據和 100 萬對高質量渲染數據;在真實數據部分,覆蓋了 Orbbec 335、335L,RealSense D405、D415、D435、D455 共6 款市場主流深度相機,以盡可能還原不同硬件條件下的真實感知分布。

該數據集以 CC BY-NC-SA 4.0 協議開源,允許學術與非商業場景下的自由使用與再創作。



  • 魔搭社區 ModelScope:https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset
  • HuggingFace:https://huggingface.co/datasets/robbyant/mdm_depth

事實上,該數據集的有效性早已在模型層面得到驗證。螞蟻靈波在今年 1 月開源的具身智能感知模型 LingBot-Depth,正是基于這套數據訓練而成的。

從實際效果來看,LingBot-Depth 可在不更換硬件的前提下顯著提升透明、反光等復雜材質場景的深度輸出質量,并且在深度精度和像素覆蓋率這兩項核心指標上,已經全面優于目前市面上頂尖的工業級 RGB-D 相機。

正是在這樣的前提下,螞蟻靈波選擇將這套數據完整開源,將內部驗證過的數據,向整個社區開放。



基于 LingBot-Depth-Dataset 數據集構建的 LingBot-Depth,在傳統深度傳感器易失效的復雜場景中,仍可輸出具備真實尺度的高精度深度結果

LingBot-Depth 相關鏈接:

  • Hugging Face:https://huggingface.co/robbyant/lingbot-depth
  • ModelScope:https://modelscope.cn/models/robbyant/lingbot-depth
  • Tech Report:https://arxiv.org/abs/2601.17895

為什么真實數據規模如此關鍵?

要理解 LingBot-Depth-Dataset 的價值,需要先理解真實采集的深度數據為什么難以獲得。

采集成本是第一道門檻。高質量的 RGB-D 數據采集需要將 RGB 相機與深度傳感器進行時間同步和空間標定,標定精度直接影響深度圖與彩色圖的像素對齊質量。大規模部署多臺設備、在多個場景下系統性采集,工程復雜度遠高于普通視頻采集。此外,不同場景(強光、弱光、反射表面、透明材質)對傳感器性能的影響差異顯著,需要針對性處理。

傳感器原始深度圖存在固有缺陷。結構光和 ToF 傳感器采集到的原始深度圖通常包含大量無效像素(空洞),邊緣處存在飛點(flying pixels),在反射或透明表面上深度值失效。這意味著原始傳感器深度圖不能直接作為訓練真值,需要額外的處理步驟來生成稠密、精確的真值深度圖,而這個處理本身就是一個有技術門檻的問題。

標注真值的獲取難度高。不同于圖像分類可以用人工標注、或者利用網絡弱監督,深度真值必須依賴物理測量或精密的多傳感器融合。激光雷達可以提供高精度稀疏點云,但需要與相機精確標定和時間同步;結構光系統精度有限且對光照敏感;立體匹配可以提供稠密深度但在紋理平坦區域容易失效。沒有哪種單一方案是完美的,大規模采集必須在精度、成本和覆蓋度之間做權衡。

版權與開放意愿是另一道隱性門檻。工業界在大規模數據采集上投入了大量資源,但數據往往被視為競爭護城河而非公共資源。許多團隊擁有規模可觀的內部數據集,卻從未考慮開放。這造成了一種奇特的局面:學術界對數據的渴望與工業界對數據的占有之間存在巨大落差,而學術研究所依賴的數據集,往往是多年前某個團隊順手做的副產品。

正因為以上這些原因,大規模真實場景 RGB-D 數據集在開源社區中至今仍屬稀缺資源。

300 萬對 RGB-D:一次量級躍遷

螞蟻靈波一口氣開源 300 萬對 RGB-D 樣本,在當前開源社區中,這已是規模最大的真實場景 RGB-D 數據集之一。

整個數據集并不是簡單的數據堆疊,而是圍繞真實世界深度感知任務,做了一次結構化設計,由四個子集構成:

RobbyReal:1,400,000 對多設備采集的真實室內場景數據,構成了數據集的核心主體。

這部分數據覆蓋了 Orbbec 335、335L,RealSense D405、D415、D435、D455 共 6 款市場主流深度相機。這些設備在測距范圍、噪聲模式、邊緣表現以及對不同材質的響應上存在顯著差異。這一設計的意義在于:將跨設備差異提前引入訓練分布。

傳統數據集往往綁定單一設備,模型在該設備上表現良好,但一旦遷移到其他硬件環境,性能會明顯下降。而 LingBot-Depth-Dataset 通過多設備數據,讓模型在訓練階段就接觸到不同傳感器特性,從而提升跨設備泛化能力。

對于需要實際部署在機器人、AR 設備或工業系統中的模型來說,這一點直接決定了其工程可用性。



RobbyReal數據集示例

RobbyVla:580,960 對數據,來自機器人在視覺 - 語言 - 動作(VLA)操作任務執行過程中的實際采集。

傳統深度數據集的采集邏輯是人拿著相機掃場景,視角自然、連續,物體在中遠距離。而機器人操作任務的視角截然不同:拍攝目標物體時距離往往只有 20-50cm,物體邊緣的深度精度決定抓取成敗;桌面操作場景的光照復雜,金屬、玻璃、透明塑料等材質的深度測量本身就是難點。

這些特性讓 RobbyVla 數據具備了現有數據集無法替代的價值:它是在真實具身任務約束下采集的深度數據,場景分布與機器人學習任務高度對齊。對于想要訓練空間感知能力服務于操作任務的研究者而言,這批數據可以直接減少分布外泛化的損耗。



RobbyVla數據集示例

RobbySim: 999,264 對仿真渲染數據,基于雙相機視角生成。

單相機渲染容易引入系統性的視角偏差,雙相機設置在生成過程中引入了視差約束,生成的深度圖在幾何一致性上更可靠。



RobbySim數據集示例

RobbySimVal驗證集(38,976 對)則提供了標準化的仿真場景評估基準,便于研究者在不消耗真實數據的前提下快速評估模型在仿真域的表現。



RobbySimVal 驗證集示例

除了數量龐大,螞蟻靈波在數據集質量上同樣設定了極高標準。從原始采集到真值構建,LingBot-Depth-Dataset 并未簡單依賴傳感器輸出,而是對深度數據進行了系統化處理與校正。

每條樣本包含一張 RGB 圖像、傳感器原始深度圖以及真值深度圖

通過提供原始觀測 + 真值的完整對照信號,模型不僅可以學習深度預測,還可以學習如何從噪聲數據中恢復真實結構。

同時,數據在標注過程中遵循統一規范,對精度和一致性進行了嚴格控制,避免了由于標簽噪聲帶來的訓練偏差。這一點在深度學習中尤為關鍵,錯誤的深度標簽,往往比沒有標簽更具破壞性。

也正是在這樣的數量和質量保障下,LingBot-Depth-Dataset 的價值不再只是可用的數據集,而開始具備更基礎性的意義。

過去幾年,行業的關注點更多集中在模型上,更大的參數規模、更復雜的架構、更強的推理能力。但一個越來越清晰的共識是,模型能力的上限,正在越來越多地由數據所決定。尤其是在 AI 從語言走向物理世界的過程中,數據的重要性被放大:世界模型需要可交互的環境數據,機器人依賴長尾且真實的場景分布,多模態系統則必須對齊來自不同感知通道的信號。在這樣的背景下,大規模、高質量、結構化的數據集,正在成為新的競爭核心。

而 LingBot-Depth-Dataset 的出現,本質上推動的是一件更底層的轉變,讓深度感知,從一個依賴理想條件的實驗室問題,逐步走向可落地、可復用的工程問題。

深度估計、補全這個方向,長期處于一種尷尬的狀態:下游需求(機器人、AR、自動駕駛)增長快,但基礎數據資源的開放程度遠不及視覺識別、NLP 等方向。NYUv2 在十多年后仍是標準評測集,某種程度上是因為沒有更好的替代品出現,而非它本身足夠好。

就像 ImageNet 重塑了視覺,模擬環境推動了自動駕駛。對于具身智能而言,高質量的空間感知數據,可能正是那個尚未被充分填補的缺口,而 LingBot-Depth-Dataset 很有可能成為深度估計 / 深度補全領域的新一代 benchmark 基礎。

開源或許不會立刻帶來性能爆炸。但它正在改變一件更底層的事情:我們終于開始擁有,足夠接近真實世界的深度數據。

螞蟻靈波在這層基礎設施上的開源投入,對整個領域而言,每一個不需要從頭采集數據的研究團隊,可以把精力放在更高層的問題上。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
炸裂!比爾·蓋茨自爆出軌20多次,一度被愛潑斯坦勒索

炸裂!比爾·蓋茨自爆出軌20多次,一度被愛潑斯坦勒索

新民周刊
2026-06-14 13:05:15
伊朗11名世界杯成員被美拒簽

伊朗11名世界杯成員被美拒簽

體壇周報
2026-06-14 02:43:18
鄢姣,金融監管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

鄢姣,金融監管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

李昕言溫度空間
2026-06-14 08:27:32
好恐怖的天倫之樂!女子曬家庭聚會,面和心不和被演繹得淋漓盡致

好恐怖的天倫之樂!女子曬家庭聚會,面和心不和被演繹得淋漓盡致

林林先生
2026-06-13 10:25:06
警鐘長鳴!國務院安委辦通報典型案例 商洛高速橋梁垮塌等事故細節公布

警鐘長鳴!國務院安委辦通報典型案例 商洛高速橋梁垮塌等事故細節公布

極目新聞
2026-06-14 09:38:49
自我葬送的冠軍!三重致命崩盤,揭秘馬刺總決賽潰敗真正真相

自我葬送的冠軍!三重致命崩盤,揭秘馬刺總決賽潰敗真正真相

君馬體育
2026-06-14 13:55:54
搶在王毅專機起飛前,烏蘭巴托那邊的小動作已經擺上桌

搶在王毅專機起飛前,烏蘭巴托那邊的小動作已經擺上桌

混沌錄
2026-06-14 00:30:26
多國嘉賓:在中國,人權不是抽象概念,而是扎根現實的民生福祉

多國嘉賓:在中國,人權不是抽象概念,而是扎根現實的民生福祉

中國日報網
2026-06-13 17:07:04
移民英國真相大白后,劉鑾雄近況曝光,難怪甘比要拋頭露面當網紅

移民英國真相大白后,劉鑾雄近況曝光,難怪甘比要拋頭露面當網紅

以茶帶書
2026-06-13 14:27:01
詹俊也犯了巨大巨大失誤!將美國歌手誤認為是小羅:實在是太像了

詹俊也犯了巨大巨大失誤!將美國歌手誤認為是小羅:實在是太像了

風過鄉
2026-06-14 07:49:53
原諒林丹10年,謝杏芳定居西班牙夫妻分居,10歲兒子才是未來依靠

原諒林丹10年,謝杏芳定居西班牙夫妻分居,10歲兒子才是未來依靠

攬星河的筆記
2026-06-13 16:35:03
SpaceX上市馬斯克成首位萬億富豪,中國卻用長征五號每次只打10顆衛星:太空競賽的真正差距

SpaceX上市馬斯克成首位萬億富豪,中國卻用長征五號每次只打10顆衛星:太空競賽的真正差距

商道童言
2026-06-13 20:05:25
市占率跌破10%!日系三巨頭在華遇挫:豪擲110億赴印度建廠

市占率跌破10%!日系三巨頭在華遇挫:豪擲110億赴印度建廠

快科技
2026-06-10 10:15:12
總決賽命中率34.3%!福克斯擁抱祝賀唐斯布朗奪冠

總決賽命中率34.3%!福克斯擁抱祝賀唐斯布朗奪冠

體壇周報
2026-06-14 13:58:15
白鹿的中專學歷實錘了!?

白鹿的中專學歷實錘了!?

八卦瘋叔
2026-06-14 10:56:48
網友曬出清北鵝腿群聊天記錄,一群學生刷:姨姨,腿腿,餓餓

網友曬出清北鵝腿群聊天記錄,一群學生刷:姨姨,腿腿,餓餓

映射生活的身影
2026-06-13 18:24:17
“寶媽”回鄉考編排名第一,沒等來入職通知卻被別人遞補,多次維權后崗位直接取消;相關部門立案調查

“寶媽”回鄉考編排名第一,沒等來入職通知卻被別人遞補,多次維權后崗位直接取消;相關部門立案調查

大風新聞
2026-06-13 18:34:21
好消息,克里米亞孤島基本成型

好消息,克里米亞孤島基本成型

李未熟擒話2
2026-06-14 08:00:26
中國14億人挑不出11個會踢球的?董路:印度挑不出1個會跳水的

中國14億人挑不出11個會踢球的?董路:印度挑不出1個會跳水的

念洲
2026-06-14 10:35:26
文班:這是我人生最深刻一課,總決賽大部分時間是我們統治著比賽

文班:這是我人生最深刻一課,總決賽大部分時間是我們統治著比賽

懂球帝
2026-06-14 13:01:11
2026-06-14 14:23:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13246文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

男友花94500元買"全國僅兩只"LV鴕鳥皮包 女友發現問題

頭條要聞

男友花94500元買"全國僅兩只"LV鴕鳥皮包 女友發現問題

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

房產
手機
本地
公開課
軍事航空

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

手機要聞

iPhone Ultra取消Face ID:改用側邊指紋 博主感嘆像是在做夢

本地新聞

AK劉彰邂逅河北南大港濕地

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版