網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，機(jī)器人練成了「白眼」：∞幀畫面邊看邊3D重建我們的世界！

2026-04-16 20:30:30　來(lái)源: 量子位

北京舉報(bào)

分享至

金磊發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

剛剛，機(jī)器人的視覺(jué)，又達(dá)到了一個(gè)新的Level。

因?yàn)楝F(xiàn)在，一個(gè)新模型已經(jīng)實(shí)現(xiàn)了無(wú)盡流：看∞幀視頻可以穩(wěn)定實(shí)時(shí)3D重建！

來(lái)，感受一下這個(gè)feel：

視頻地址：
https://mp.weixin.qq.com/s/h3UIMZn46LA2m570p9pKkw

或許有小伙伴要問(wèn)了，這有啥用啊？

簡(jiǎn)單來(lái)說(shuō)啊，若是這個(gè)模型放到掃地機(jī)器人身上，那它就能邊打掃邊認(rèn)清家里的3D結(jié)構(gòu)；若是放到自動(dòng)駕駛身上，那就是邊開(kāi)車邊算清路面情況。

有一種火影里寧次白眼的那種味道了。

（注：白眼的能力是360°無(wú)死角透視+極遠(yuǎn)的洞察力+看穿查克拉流動(dòng)；對(duì)應(yīng)這個(gè)模型的全方位空間感知、長(zhǎng)序列不丟失細(xì)節(jié)的特點(diǎn)。）

△圖源由AI生成

這，就是螞蟻靈波最新開(kāi)源的LingBot-Map，一個(gè)專為純自回歸的流式3D重建而打造的基礎(chǔ)模型。

不同于此前具身智能視覺(jué)的3D重建，這一次，LingBot-Map做到了快、準(zhǔn)、狠——

打破了“既要實(shí)時(shí)、又要記路、還要省顯存”的不可能三角。

這種Level的流式3D重建，并不簡(jiǎn)單

在聊“流式3D重建為什么難”這個(gè)話題之前，咱們且需要先分清兩個(gè)概念：普通3D重建和流式3D重建。

因?yàn)樗鼈z可以說(shuō)是完全兩個(gè)維度的技術(shù)。

先來(lái)看傳統(tǒng)離線3D重建（離線）。

它的本質(zhì)用一種微妙的形容，大概就是“事后諸葛亮”，因?yàn)楸仨毾扰耐晖暾曨l、存儲(chǔ)所有幀畫面，再集中算力全局建模。

這樣做的缺點(diǎn)很明顯就是速度慢、耗顯存、無(wú)法實(shí)時(shí)交互，應(yīng)用方面也能用在影視建模、數(shù)字孿生等靜態(tài)場(chǎng)景，根本沒(méi)法給需要實(shí)時(shí)決策的機(jī)器人、自動(dòng)駕駛用。

但流式3D重建（在線）就不一樣了，它是真能滿足具身智能的核心剛需：

來(lái)一幀算一幀，邊拍邊建模、邊感知邊決策，和人類邊走邊認(rèn)路的視覺(jué)邏輯高度一致。

不過(guò)看似簡(jiǎn)單，但在實(shí)現(xiàn)的過(guò)程中，業(yè)內(nèi)公認(rèn)的有三座大山擋在面前。

△圖源由AI生成

第一，記太多就爆顯存。

如果模型硬存所有歷史幀，幾千幀過(guò)后顯存直接拉滿，消費(fèi)級(jí)顯卡根本跑不動(dòng)，工業(yè)設(shè)備也扛不住長(zhǎng)時(shí)運(yùn)行。

第二，記太少就忘光光。

若是只緩存最近幾幀，模型會(huì)出現(xiàn)災(zāi)難性遺忘，長(zhǎng)時(shí)間運(yùn)行后軌跡瘋狂漂移、重建場(chǎng)景扭曲變形，相當(dāng)于人走久了忘了自己在哪。

第三，精度速度不可兼得。

要么建模精準(zhǔn)但推理慢到卡頓，要么實(shí)時(shí)性夠了但畫面糊成馬賽克，始終找不到平衡點(diǎn)。

更關(guān)鍵的是，之前絕大多數(shù)的流式方案，不是依賴測(cè)試時(shí)優(yōu)化，就是用未來(lái)幀信息做全局校準(zhǔn)，亦或者加入人工設(shè)計(jì)的關(guān)鍵幀規(guī)則，并非端到端的純推理。

而LingBot-Map走的是純自回歸這條更難的路：嚴(yán)格遵循因果律，僅依賴歷史幀信息推理當(dāng)前幀，無(wú)任何后處理、無(wú)未來(lái)幀依賴、無(wú)人工優(yōu)化規(guī)則，所有能力全靠模型端到端學(xué)習(xí)。

也正因?yàn)橛辛思冏曰貧w的約束，相當(dāng)于讓蒙眼的人僅憑過(guò)往記憶走迷宮，既要求走得快、又要求記準(zhǔn)路、還不能多耗腦力……

難，是真的難。

但螞蟻靈波這一次，還真就把這個(gè)硬骨頭給啃下來(lái)了。

像人一樣選擇性記憶

LingBot-Map背后技術(shù)的靈感，來(lái)源于人。

就好比咱們?cè)诖蟪鞘欣锕浣郑瑓s能做到不迷路，不是因?yàn)槲覀兊拇竽X像錄像機(jī)一樣全程“錄制”，關(guān)鍵在于大腦執(zhí)行的是選擇性記憶這個(gè)操作。

說(shuō)白了，就是只記住有效、關(guān)鍵的幀。

LingBot-Map的核心，正是完美復(fù)刻了這種機(jī)制，名曰幾何上下文注意力（Geometric Context Attention，GCA）。

更具體而言，LingBot-Map通過(guò)GCA，對(duì)記憶進(jìn)行了非常精妙的分層結(jié)構(gòu)化管理。

首先是錨點(diǎn)（Anchor），它的作用讓機(jī)器人記住“我從哪來(lái)”。

任何3D重建都需要一個(gè)絕對(duì)的坐標(biāo)系和尺度基準(zhǔn)，就好比人類進(jìn)入陌生房間，會(huì)下意識(shí)記住門口位置當(dāng)參照系，防止迷路。

LingBot-Map的錨點(diǎn)模塊，就是起到這樣的一個(gè)作用。

它會(huì)鎖定初始幾幀畫面作為基準(zhǔn)，固定全局坐標(biāo)和尺度，如此一來(lái)，就解決了純自回歸模型容易出現(xiàn)的尺度模糊、坐標(biāo)漂移等問(wèn)題，給整個(gè)重建過(guò)程定好原點(diǎn)。

其次是位姿參考窗口（Pose-reference Window），用來(lái)記住“我身邊有什么”。

因?yàn)楣庥衅瘘c(diǎn)是不夠的，要想走得穩(wěn)，還得看清腳下的路。

于是團(tuán)隊(duì)便在LingBot-Map里設(shè)置了位姿參考窗口，它只保留最近的k幀的完整高維特征。

這部分記憶雖然是短期的，但信息極其豐富密集，這樣就可以確保模型能夠精準(zhǔn)地捕捉局部的幾何細(xì)節(jié)，讓當(dāng)前幀能夠絲滑地與前幾幀拼接在一起，讓每一步都踩得極準(zhǔn)。

最后就是軌跡記憶（Trajectory Memory），起到記住“我走過(guò)的路”的作用。

這也是LingBot-Map中非常關(guān)鍵的一個(gè)步驟。

對(duì)于那些既不是起點(diǎn)、也不在眼前，屬于很久以前的中間歷史畫面，模型不再存儲(chǔ)它們龐大具體的圖像像素細(xì)節(jié)。

取而代之的是，它將這些歷史幀的宏大信息，極致壓縮成了區(qū)區(qū)6個(gè)極簡(jiǎn)的Token（包含相機(jī)、錨點(diǎn)和寄存器 Token），并打上時(shí)間戳（位置編碼）。

對(duì)比傳統(tǒng)因果注意力，LingBot-Map的單幀信息增長(zhǎng)量直接降低80倍，哪怕處理萬(wàn)幀長(zhǎng)視頻，顯存消耗也幾乎恒定。

三大模塊協(xié)同發(fā)力，便是LingBot-Map打破不可能三角的關(guān)鍵原因了。

那么這套打法效果又如何呢？

實(shí)測(cè)拿下新SOTA

從論文中呈現(xiàn)的實(shí)驗(yàn)結(jié)果來(lái)看，LingBot-Map已經(jīng)在多項(xiàng)權(quán)威基準(zhǔn)測(cè)試中，全面碾壓其它流式模型，穩(wěn)坐SOTA之位。

首先是長(zhǎng)序列穩(wěn)定性。

在10000+幀的超長(zhǎng)視頻序列測(cè)試中，模型全程保持穩(wěn)定重建質(zhì)量，沒(méi)有出現(xiàn)任何明顯的軌跡漂移。要知道，同類純自回歸模型往往幾百幀就開(kāi)始扭曲，萬(wàn)幀穩(wěn)定的表現(xiàn)，直接刷新了行業(yè)紀(jì)錄。

其次是速度與精度雙突破。

在518×378的主流分辨率下，推理速度達(dá)到20FPS，比同類流式方法基線快了近一倍，完全滿足機(jī)器人、自動(dòng)駕駛的實(shí)時(shí)性需求。

在Oxford Spires、ETH3D、Tanks & Temples等權(quán)威數(shù)據(jù)集測(cè)試中，軌跡誤差降低約77%，3D點(diǎn)云建模精度、全局一致性遠(yuǎn)超所有流式競(jìng)品，甚至比部分離線優(yōu)化模型表現(xiàn)更優(yōu)。

除此之外，模型運(yùn)行顯存僅需13.28GB，普通消費(fèi)級(jí)顯卡即可流暢部署，徹底告別對(duì)高端專業(yè)顯卡的依賴。

對(duì)比同類方案動(dòng)輒30GB+的顯存需求，LingBot-Map實(shí)現(xiàn)了“技術(shù)頂尖、落地親民”，讓流式3D重建具備了規(guī)模化商用的基礎(chǔ)。

而且效率測(cè)試的數(shù)據(jù)更加直觀。

對(duì)比全歷史幀緩存方案，LingBot-Map用64幀窗口設(shè)計(jì)，將推理速度從3.12FPS提升至19.95FPS，顯存從36.06GB壓縮至13.28GB，速度提升6倍、顯存降低63%，同時(shí)精度反而更高，印證了GCA記憶機(jī)制的優(yōu)越性。

在看完LingBot-Map背后的技術(shù)和展現(xiàn)的效果之后，還有一個(gè)話題值得聊一聊：

LingBot-Map的開(kāi)源絕不是為了單點(diǎn)刷榜、秀肌肉。

補(bǔ)齊另一塊具身智能關(guān)鍵拼圖

若是大家長(zhǎng)期關(guān)注螞蟻靈波，就不難發(fā)現(xiàn)它在下一盤大棋。

僅僅在今年1月，螞蟻靈波便已經(jīng)陸續(xù)開(kāi)源了多款模型：

從感知世界的LingBot-Depth，到理解物理規(guī)律的LingBot-World，再到控制身體的LingBot-VLA和全球首個(gè)具身世界模型LingBot-VA。

而今天LingBot-Map的開(kāi)源，則補(bǔ)齊了“邊走邊記、理解并重建連續(xù)真實(shí)三維空間”的關(guān)鍵拼圖。

這就意味著螞蟻靈波正式構(gòu)建了“感知-建模-模擬-控制”全鏈路具身智能技術(shù)棧，從看懂世界、建模世界，到理解世界、操控身體，形成了完整的技術(shù)閉環(huán)。

此舉對(duì)全產(chǎn)業(yè)落地來(lái)說(shuō)，亦是有著重要的價(jià)值。舉三個(gè)例便一目了然了：

機(jī)器人：倉(cāng)庫(kù)巡檢、家庭服務(wù)，機(jī)器人不再需要昂貴的激光雷達(dá)，單靠攝像頭就能邊走邊建圖，真正實(shí)現(xiàn)低成本、大規(guī)模部署。
AR/VR：戴上眼鏡，虛擬物體可以零延遲、不漂移地疊加在真實(shí)桌面上，虛實(shí)融合的體驗(yàn)將被拉滿。
自動(dòng)駕駛/無(wú)人機(jī)：城市級(jí)大場(chǎng)景的實(shí)時(shí)建模成為可能，為純視覺(jué)的自動(dòng)駕駛方案提供了更強(qiáng)大的時(shí)空理解能力。

因此，綜上所述，LingBot-Map的出現(xiàn)，可以說(shuō)是機(jī)器理解真實(shí)物理世界邁出的關(guān)鍵一步。

與此同時(shí)，螞蟻靈波的持續(xù)開(kāi)源，也讓我們清晰地看到，具身智能的規(guī)模化落地，正在以前所未有的速度向我們駛來(lái)。

Hugging Face：
https://huggingface.co/robbyant/lingbot-map

ModelScope：
https://www.modelscope.cn/models/Robbyant/lingbot-map

GitHub：
https://github.com/Robbyant/lingbot-map

Paper：
https://arxiv.org/abs/2604.14141

Homepage：
https://technology.robbyant.com/lingbot-map

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.