亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,機(jī)器人練成了「白眼」:∞幀畫面邊看邊3D重建我們的世界!

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

剛剛,機(jī)器人的視覺(jué),又達(dá)到了一個(gè)新的Level。

因?yàn)楝F(xiàn)在,一個(gè)新模型已經(jīng)實(shí)現(xiàn)了無(wú)盡流:看∞幀視頻可以穩(wěn)定實(shí)時(shí)3D重建!

來(lái),感受一下這個(gè)feel:



視頻地址:
https://mp.weixin.qq.com/s/h3UIMZn46LA2m570p9pKkw

或許有小伙伴要問(wèn)了,這有啥用啊?

簡(jiǎn)單來(lái)說(shuō)啊,若是這個(gè)模型放到掃地機(jī)器人身上,那它就能邊打掃邊認(rèn)清家里的3D結(jié)構(gòu);若是放到自動(dòng)駕駛身上,那就是邊開(kāi)車邊算清路面情況。

有一種火影里寧次白眼的那種味道了。

(注:白眼的能力是360°無(wú)死角透視+極遠(yuǎn)的洞察力+看穿查克拉流動(dòng);對(duì)應(yīng)這個(gè)模型的全方位空間感知、長(zhǎng)序列不丟失細(xì)節(jié)的特點(diǎn)。)



△圖源由AI生成

這,就是螞蟻靈波最新開(kāi)源的LingBot-Map,一個(gè)專為純自回歸的流式3D重建而打造的基礎(chǔ)模型。



不同于此前具身智能視覺(jué)的3D重建,這一次,LingBot-Map做到了快、準(zhǔn)、狠——

打破了“既要實(shí)時(shí)、又要記路、還要省顯存”的不可能三角。

這種Level的流式3D重建,并不簡(jiǎn)單

在聊“流式3D重建為什么難”這個(gè)話題之前,咱們且需要先分清兩個(gè)概念:普通3D重建和流式3D重建。

因?yàn)樗鼈z可以說(shuō)是完全兩個(gè)維度的技術(shù)。

先來(lái)看傳統(tǒng)離線3D重建(離線)。

它的本質(zhì)用一種微妙的形容,大概就是“事后諸葛亮”,因?yàn)楸仨毾扰耐晖暾曨l、存儲(chǔ)所有幀畫面,再集中算力全局建模。

這樣做的缺點(diǎn)很明顯就是速度慢、耗顯存、無(wú)法實(shí)時(shí)交互,應(yīng)用方面也能用在影視建模、數(shù)字孿生等靜態(tài)場(chǎng)景,根本沒(méi)法給需要實(shí)時(shí)決策的機(jī)器人、自動(dòng)駕駛用。

流式3D重建(在線)就不一樣了,它是真能滿足具身智能的核心剛需:

來(lái)一幀算一幀,邊拍邊建模、邊感知邊決策,和人類邊走邊認(rèn)路的視覺(jué)邏輯高度一致。

不過(guò)看似簡(jiǎn)單,但在實(shí)現(xiàn)的過(guò)程中,業(yè)內(nèi)公認(rèn)的有三座大山擋在面前。



△圖源由AI生成

第一,記太多就爆顯存。

如果模型硬存所有歷史幀,幾千幀過(guò)后顯存直接拉滿,消費(fèi)級(jí)顯卡根本跑不動(dòng),工業(yè)設(shè)備也扛不住長(zhǎng)時(shí)運(yùn)行。

第二,記太少就忘光光。

若是只緩存最近幾幀,模型會(huì)出現(xiàn)災(zāi)難性遺忘,長(zhǎng)時(shí)間運(yùn)行后軌跡瘋狂漂移、重建場(chǎng)景扭曲變形,相當(dāng)于人走久了忘了自己在哪。

第三,精度速度不可兼得。

要么建模精準(zhǔn)但推理慢到卡頓,要么實(shí)時(shí)性夠了但畫面糊成馬賽克,始終找不到平衡點(diǎn)。

更關(guān)鍵的是,之前絕大多數(shù)的流式方案,不是依賴測(cè)試時(shí)優(yōu)化,就是用未來(lái)幀信息做全局校準(zhǔn),亦或者加入人工設(shè)計(jì)的關(guān)鍵幀規(guī)則,并非端到端的純推理。

而LingBot-Map走的是純自回歸這條更難的路:嚴(yán)格遵循因果律,僅依賴歷史幀信息推理當(dāng)前幀,無(wú)任何后處理、無(wú)未來(lái)幀依賴、無(wú)人工優(yōu)化規(guī)則,所有能力全靠模型端到端學(xué)習(xí)。

也正因?yàn)橛辛思冏曰貧w的約束,相當(dāng)于讓蒙眼的人僅憑過(guò)往記憶走迷宮,既要求走得快、又要求記準(zhǔn)路、還不能多耗腦力……

難,是真的難。

但螞蟻靈波這一次,還真就把這個(gè)硬骨頭給啃下來(lái)了。

像人一樣選擇性記憶

LingBot-Map背后技術(shù)的靈感,來(lái)源于

就好比咱們?cè)诖蟪鞘欣锕浣郑瑓s能做到不迷路,不是因?yàn)槲覀兊拇竽X像錄像機(jī)一樣全程“錄制”,關(guān)鍵在于大腦執(zhí)行的是選擇性記憶這個(gè)操作。

說(shuō)白了,就是只記住有效、關(guān)鍵的幀。

LingBot-Map的核心,正是完美復(fù)刻了這種機(jī)制,名曰幾何上下文注意力(Geometric Context Attention,GCA)。

更具體而言,LingBot-Map通過(guò)GCA,對(duì)記憶進(jìn)行了非常精妙的分層結(jié)構(gòu)化管理

首先是錨點(diǎn)(Anchor),它的作用讓機(jī)器人記住“我從哪來(lái)”

任何3D重建都需要一個(gè)絕對(duì)的坐標(biāo)系和尺度基準(zhǔn),就好比人類進(jìn)入陌生房間,會(huì)下意識(shí)記住門口位置當(dāng)參照系,防止迷路。

LingBot-Map的錨點(diǎn)模塊,就是起到這樣的一個(gè)作用。

它會(huì)鎖定初始幾幀畫面作為基準(zhǔn),固定全局坐標(biāo)和尺度,如此一來(lái),就解決了純自回歸模型容易出現(xiàn)的尺度模糊、坐標(biāo)漂移等問(wèn)題,給整個(gè)重建過(guò)程定好原點(diǎn)。

其次是位姿參考窗口(Pose-reference Window),用來(lái)記住“我身邊有什么”

因?yàn)楣庥衅瘘c(diǎn)是不夠的,要想走得穩(wěn),還得看清腳下的路。

于是團(tuán)隊(duì)便在LingBot-Map里設(shè)置了位姿參考窗口,它只保留最近的k幀的完整高維特征。

這部分記憶雖然是短期的,但信息極其豐富密集,這樣就可以確保模型能夠精準(zhǔn)地捕捉局部的幾何細(xì)節(jié),讓當(dāng)前幀能夠絲滑地與前幾幀拼接在一起,讓每一步都踩得極準(zhǔn)。

最后就是軌跡記憶(Trajectory Memory),起到記住“我走過(guò)的路”的作用。

這也是LingBot-Map中非常關(guān)鍵的一個(gè)步驟。

對(duì)于那些既不是起點(diǎn)、也不在眼前,屬于很久以前的中間歷史畫面,模型不再存儲(chǔ)它們龐大具體的圖像像素細(xì)節(jié)。

取而代之的是,它將這些歷史幀的宏大信息,極致壓縮成了區(qū)區(qū)6個(gè)極簡(jiǎn)的Token(包含相機(jī)、錨點(diǎn)和寄存器 Token),并打上時(shí)間戳(位置編碼)。

對(duì)比傳統(tǒng)因果注意力,LingBot-Map的單幀信息增長(zhǎng)量直接降低80倍,哪怕處理萬(wàn)幀長(zhǎng)視頻,顯存消耗也幾乎恒定。



三大模塊協(xié)同發(fā)力,便是LingBot-Map打破不可能三角的關(guān)鍵原因了。

那么這套打法效果又如何呢?

實(shí)測(cè)拿下新SOTA

從論文中呈現(xiàn)的實(shí)驗(yàn)結(jié)果來(lái)看,LingBot-Map已經(jīng)在多項(xiàng)權(quán)威基準(zhǔn)測(cè)試中,全面碾壓其它流式模型,穩(wěn)坐SOTA之位。

首先是長(zhǎng)序列穩(wěn)定性

在10000+幀的超長(zhǎng)視頻序列測(cè)試中,模型全程保持穩(wěn)定重建質(zhì)量,沒(méi)有出現(xiàn)任何明顯的軌跡漂移。要知道,同類純自回歸模型往往幾百幀就開(kāi)始扭曲,萬(wàn)幀穩(wěn)定的表現(xiàn),直接刷新了行業(yè)紀(jì)錄。



其次是速度與精度雙突破。

在518×378的主流分辨率下,推理速度達(dá)到20FPS,比同類流式方法基線快了近一倍,完全滿足機(jī)器人、自動(dòng)駕駛的實(shí)時(shí)性需求。

在Oxford Spires、ETH3D、Tanks & Temples等權(quán)威數(shù)據(jù)集測(cè)試中,軌跡誤差降低約77%,3D點(diǎn)云建模精度、全局一致性遠(yuǎn)超所有流式競(jìng)品,甚至比部分離線優(yōu)化模型表現(xiàn)更優(yōu)。



除此之外,模型運(yùn)行顯存僅需13.28GB,普通消費(fèi)級(jí)顯卡即可流暢部署,徹底告別對(duì)高端專業(yè)顯卡的依賴。

對(duì)比同類方案動(dòng)輒30GB+的顯存需求,LingBot-Map實(shí)現(xiàn)了“技術(shù)頂尖、落地親民”,讓流式3D重建具備了規(guī)模化商用的基礎(chǔ)。

而且效率測(cè)試的數(shù)據(jù)更加直觀。

對(duì)比全歷史幀緩存方案,LingBot-Map用64幀窗口設(shè)計(jì),將推理速度從3.12FPS提升至19.95FPS,顯存從36.06GB壓縮至13.28GB,速度提升6倍、顯存降低63%,同時(shí)精度反而更高,印證了GCA記憶機(jī)制的優(yōu)越性。



在看完LingBot-Map背后的技術(shù)和展現(xiàn)的效果之后,還有一個(gè)話題值得聊一聊:

LingBot-Map的開(kāi)源絕不是為了單點(diǎn)刷榜、秀肌肉。

補(bǔ)齊另一塊具身智能關(guān)鍵拼圖

若是大家長(zhǎng)期關(guān)注螞蟻靈波,就不難發(fā)現(xiàn)它在下一盤大棋。

僅僅在今年1月,螞蟻靈波便已經(jīng)陸續(xù)開(kāi)源了多款模型:

從感知世界的LingBot-Depth,到理解物理規(guī)律的LingBot-World,再到控制身體的LingBot-VLA和全球首個(gè)具身世界模型LingBot-VA

而今天LingBot-Map的開(kāi)源,則補(bǔ)齊了“邊走邊記、理解并重建連續(xù)真實(shí)三維空間”的關(guān)鍵拼圖。

這就意味著螞蟻靈波正式構(gòu)建了“感知-建模-模擬-控制”全鏈路具身智能技術(shù)棧,從看懂世界、建模世界,到理解世界、操控身體,形成了完整的技術(shù)閉環(huán)。

此舉對(duì)全產(chǎn)業(yè)落地來(lái)說(shuō),亦是有著重要的價(jià)值。舉三個(gè)例便一目了然了:

  • 機(jī)器人:倉(cāng)庫(kù)巡檢、家庭服務(wù),機(jī)器人不再需要昂貴的激光雷達(dá),單靠攝像頭就能邊走邊建圖,真正實(shí)現(xiàn)低成本、大規(guī)模部署。
  • AR/VR:戴上眼鏡,虛擬物體可以零延遲、不漂移地疊加在真實(shí)桌面上,虛實(shí)融合的體驗(yàn)將被拉滿。
  • 自動(dòng)駕駛/無(wú)人機(jī):城市級(jí)大場(chǎng)景的實(shí)時(shí)建模成為可能,為純視覺(jué)的自動(dòng)駕駛方案提供了更強(qiáng)大的時(shí)空理解能力。

因此,綜上所述,LingBot-Map的出現(xiàn),可以說(shuō)是機(jī)器理解真實(shí)物理世界邁出的關(guān)鍵一步。

與此同時(shí),螞蟻靈波的持續(xù)開(kāi)源,也讓我們清晰地看到,具身智能的規(guī)模化落地,正在以前所未有的速度向我們駛來(lái)。

Hugging Face:
https://huggingface.co/robbyant/lingbot-map

ModelScope:
https://www.modelscope.cn/models/Robbyant/lingbot-map

GitHub:
https://github.com/Robbyant/lingbot-map

Paper:
https://arxiv.org/abs/2604.14141

Homepage:
https://technology.robbyant.com/lingbot-map

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
香港再無(wú)董建華

香港再無(wú)董建華

華人星光
2025-11-25 12:01:27
淺聊幾句許家印

淺聊幾句許家印

王繼續(xù)專欄
2026-04-15 23:01:29
扎心了,3月電車銷量回升,未改一季度跌幅遠(yuǎn)超油車的結(jié)果!

扎心了,3月電車銷量回升,未改一季度跌幅遠(yuǎn)超油車的結(jié)果!

柏銘銳談
2026-04-16 23:53:18
搶劫殺害網(wǎng)紅“羅大美”主犯余金生被執(zhí)行死刑

搶劫殺害網(wǎng)紅“羅大美”主犯余金生被執(zhí)行死刑

新京報(bào)
2026-04-16 14:19:06
20年前袁茵拋棄侯耀文,轉(zhuǎn)身投入戴志誠(chéng)懷抱,如今才發(fā)現(xiàn)背后真相

20年前袁茵拋棄侯耀文,轉(zhuǎn)身投入戴志誠(chéng)懷抱,如今才發(fā)現(xiàn)背后真相

可樂(lè)談情感
2026-04-16 09:19:01
內(nèi)蒙古銀行股份有限公司黨委辦公室副主任張國(guó)慶接受紀(jì)律審查和監(jiān)察調(diào)查

內(nèi)蒙古銀行股份有限公司黨委辦公室副主任張國(guó)慶接受紀(jì)律審查和監(jiān)察調(diào)查

每日經(jīng)濟(jì)新聞
2026-04-16 10:31:26
伊朗總統(tǒng)送中國(guó)1句忠告!特朗普的目標(biāo)是中國(guó),伊朗不過(guò)是前菜?

伊朗總統(tǒng)送中國(guó)1句忠告!特朗普的目標(biāo)是中國(guó),伊朗不過(guò)是前菜?

伴史緣
2026-04-16 23:02:21
華為把智能手表做成了"全面屏":83%屏占比藏著什么野心

華為把智能手表做成了"全面屏":83%屏占比藏著什么野心

我是一個(gè)粉刷匠2
2026-04-16 09:14:33
小米鈦杯眾籌109元起:保溫杯市場(chǎng)的材料戰(zhàn)爭(zhēng)

小米鈦杯眾籌109元起:保溫杯市場(chǎng)的材料戰(zhàn)爭(zhēng)

硅嶼手記
2026-04-15 18:54:50
471米!紐約第三高樓計(jì)劃獲批,外形霸氣!

471米!紐約第三高樓計(jì)劃獲批,外形霸氣!

GA環(huán)球建筑
2026-04-16 12:18:37
出發(fā)英國(guó),劉國(guó)梁哥哥發(fā)聲,正式上任,亮相新崗位,和國(guó)乒競(jìng)爭(zhēng)

出發(fā)英國(guó),劉國(guó)梁哥哥發(fā)聲,正式上任,亮相新崗位,和國(guó)乒競(jìng)爭(zhēng)

懂球社
2026-04-14 15:13:46
王志文安排好后事僅4月,擔(dān)心事發(fā)生,私生活被扒,王寶強(qiáng)拒和解

王志文安排好后事僅4月,擔(dān)心事發(fā)生,私生活被扒,王寶強(qiáng)拒和解

白面書(shū)誏
2026-04-16 18:04:33
曝廣東男籃裁掉麥考爾,兩大兩小備戰(zhàn)季后賽,薩姆納傷病有些嚴(yán)重

曝廣東男籃裁掉麥考爾,兩大兩小備戰(zhàn)季后賽,薩姆納傷病有些嚴(yán)重

中國(guó)籃壇快訊
2026-04-16 17:08:02
嫁大自己18歲的凌峰,八十年代號(hào)稱青島美女賀順順,如今過(guò)得咋樣

嫁大自己18歲的凌峰,八十年代號(hào)稱青島美女賀順順,如今過(guò)得咋樣

攬星河的筆記
2026-04-10 18:42:07
強(qiáng)制“一夫多妻”的南美小國(guó),老婆不能少于兩個(gè),少了就要坐牢?

強(qiáng)制“一夫多妻”的南美小國(guó),老婆不能少于兩個(gè),少了就要坐牢?

北緯的咖啡豆
2026-04-14 17:02:17
美雙航母包夾,伊朗再入打擊范圍,特朗普矛頭調(diào)轉(zhuǎn):中國(guó)船不許過(guò)

美雙航母包夾,伊朗再入打擊范圍,特朗普矛頭調(diào)轉(zhuǎn):中國(guó)船不許過(guò)

凡知
2026-04-16 22:52:56
法國(guó)要“將不義之財(cái)歸還中國(guó)”?先冷靜......文物回家沒(méi)你想得那么容易

法國(guó)要“將不義之財(cái)歸還中國(guó)”?先冷靜......文物回家沒(méi)你想得那么容易

新民周刊
2026-04-16 15:02:54
肺癌來(lái)臨前,身體往往會(huì)有3個(gè)異常,很多人拖到晚期才發(fā)現(xiàn)

肺癌來(lái)臨前,身體往往會(huì)有3個(gè)異常,很多人拖到晚期才發(fā)現(xiàn)

今日養(yǎng)生之道
2026-04-16 20:38:26
山姆上新無(wú)限繁殖的羽衣甘藍(lán)盆栽被瘋搶?打工人想800個(gè)方法馴服“史上最難吃蔬菜”

山姆上新無(wú)限繁殖的羽衣甘藍(lán)盆栽被瘋搶?打工人想800個(gè)方法馴服“史上最難吃蔬菜”

Vista氫商業(yè)
2026-04-15 15:10:06
伊朗一天連出兩招,撕開(kāi)美國(guó)封鎖線,放行油輪,上萬(wàn)美軍淪為擺設(shè)

伊朗一天連出兩招,撕開(kāi)美國(guó)封鎖線,放行油輪,上萬(wàn)美軍淪為擺設(shè)

人類文明之光
2026-04-16 23:18:39
2026-04-17 01:27:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12483文章數(shù) 176452關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰(shuí)在大模型上更高效

頭條要聞

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

頭條要聞

東北男子投訴公交提前發(fā)車丟工作 單位被施壓將其解雇

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂(lè)要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰(shuí)的生意?

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
教育
房產(chǎn)
軍事航空

藝術(shù)要聞

你絕對(duì)想不到!這幅油畫背后的美麗故事!

爆火的前額葉梗,讓多少年輕人主動(dòng)確診「腦殘」?

教育要聞

985學(xué)院官宣!學(xué)碩,停招

房產(chǎn)要聞

人人人人!封關(guān)后首屆消博會(huì),擠爆了!

軍事要聞

封鎖霍爾木茲海峽后 美釋放雙重信號(hào)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版