網易首頁 > 網易號 > 正文申請入駐

高德發布全球首個面向AGI的全棧具身技術體系“ABot”：15項SOTA，構建持續進化的具身智能閉環

2026-04-19 12:21:50　來源: 獵云網

北京舉報

分享至

來源：獵云網

4月19日，在2026北京亦莊機器人半程馬拉松上，阿里巴巴旗下高德正式公開全球首款開放環境全自主具身機器人"高德途途"，這款四足機器人成功協助視障人士完成復雜避障、人群穿行等實戰挑戰，突破了"實驗室"到"開放環境"之間的技術鴻溝。

途途能夠應對導盲等嚴苛場景的底層依托，正是高德全新發布的ABot全棧具身技術體系。該體系基于上萬種真實場景與千萬級多模態Clip數據，將高德沉淀的空間智能資產高效轉化為具身核心訓練資源，打造出全球首個面向AGI的全棧具身技術體系。

ABot體系，從架構上突破了傳統具身智能“單點拼湊、封閉驗證”的碎片化路徑，以AGI為核心目標，首次將數據引擎、基座模型與執行中樞耦合為統一系統。目前，高德ABot系列模型已經在全球15項權威基準測試中拿到SOTA。

ABot體系：三層飛輪式設計，構建持續進化的具身智能閉環

ABot體系采用閉環飛輪式設計，涵蓋數據、模型、應用三層，架構并非簡單堆疊，而是深度咬合、互為引擎，實現“數據驅動模型、模型服務應用、應用反哺數據“，精準擊穿數據稀缺、仿真鴻溝與技能泛化三大行業瓶頸，形成持續自我進化的完整閉環。

數據是具身智能的核心“燃料”，直接決定其泛化能力的天花板。不同于大語言模型，傳統真機采集難以規模化，成本呈指數級攀升。

作為數據層的核心， ABot-World通過批量合成 Video、Depth、Point Cloud、Trajectory 四類訓練數據，配合RL Training Engine在虛擬環境里定義獎懲、反復試錯。模型以高保真仿真替代高昂的真機采集，從根本上彌合Sim-to-Real鴻溝，將數據成本壓縮數個數量級。

模型層重點解決具身操作的通用性和導航的長程性，其核心是感知與決策。其中ABot-M負責操作，ABot-N負責導航，兩個模型分工訓練、通過 Model Skill機制組合調用，完成長程復雜任務。

應用層的核心是具身版“龍蝦”ABot-Claw，通過將異構機器人統一于共享認知框架之下，打造具備調度、記憶、分層控制與社會對齊能力的“執行中樞”，以應對長程任務閉環難、知識不共享等問題。

ABot體系的設計邏輯，直接沿襲自高德的空間智能飛輪：依托近10億月活場景產生的海量時空數據與實時反饋，算法在閉環中持續迭代，推動模型對物理世界的認知不斷加深，飛輪每日在真實世界中自動演進，從根本上界定了高德的體系化優勢：不依賴單點技術突破，而是依靠飛輪在真實場景中持續運轉的“轉速”。

ABot-World：物理合規性、動作可控性、零樣本泛化三大維度均達全球第一

當主流世界模型仍受困于“視覺幻覺”與動力學脫節時，ABot-World率先突破，成為全球首個將物理定律深度嵌入生成全流程的可微分、可進化動力學引擎。作為ABot體系的底層仿真基座，它直接決定了上層模型的物理一致性與泛化上限。正是以該引擎為核心，ABot體系徹底打通“虛擬訓練-真實部署”閉環。

架構上，ABot-World專為具身智能設計了14B DiT架構，以觀測與動作為輸入，在潛空間直接生成符合時空動力學的未來狀態序列，并基于千萬級真實數據與多層級采樣治理，突破單一任務的泛化制約。

場景構建上，3DGS冷啟動空間基座面向手機拍攝、航測圖等稀疏輸入，通過"粗建模、高保真修復再到蒸餾回環"的自動化流程，將低質量視頻轉化為高質量3D場景，大幅拉低數據成本。

訓練方面，模型首創 Diffusion-DPO 物理偏好對齊框架，由 VLM 生成物理規則清單并獨立判別，構建優劣樣本對，驅動模型主動抑制違反物理規律的行為。同時，拉格朗日動力學與 3DGS 重建的融合使得每一幀畫面都成為包含質量、摩擦、接觸力等屬性的可微分物理快照。

除此之外，ABot-World還構建了"訓練+數據"雙引擎并行架構，實現模型自進化。依托自有地圖與脫敏數據，結合3DGS技術實現厘米級重建與光照一致性，系統已累計生產萬級3D真實場景、百萬級推理數據與千萬級訓練軌跡，覆蓋99%的典型生活場景。通過接入VLA閉環，模型實現"預測即訓練，演練即學習"的持續進化，并經由跨形態動作映射，統一支持多種機械形態的精確控制。

在PBench、EZSbench、WorldArena、Agibot World Challenge等主流評測中ABot-World持續領先，并成為唯一在物理合規性、動作可控性、零樣本泛化三大維度均達SOTA的模型。

ABot-N& ABot-M：ABot體系的“運動雙核”，跨本體導航與操作基座斬獲11項SOTA

若將ABot全棧體系視為具身智能的“運行大腦”，ABot-N與ABot-M便是其“運動雙核”，分別掌管機器人的“雙腿”與“雙手”，直接響應物理世界中“去哪里”與“做什么”的基礎指令。依托統一架構設計，高德打造出可解耦和協同的專用基座模型，一舉突破跨形態適配與跨任務泛化的技術瓶頸。

作為全球首個實現五大核心導航任務"大一統"的VLA基座模型，ABot-N具備意圖理解、自主決策與持續進化能力，是途途走向開放世界的核心導航引擎。其采用層級式“大腦-動作”架構，通過多模塊協同實現單一模型導航任務全覆蓋，徹底打破傳統專用架構的泛化天花板。

ABot-N推出后，迅速在VLN-CE（R2R/RxR）、HM3D-OVON、EVT-Bench等7大權威基準上全面刷新SOTA，并在導航精度、社會合規性、zero-shot泛化實現斷層式領先。

ABot-M是全球首個統一架構的具身操作基座模型，其可實現一個“通用大腦”適配多種形態的機器人，大幅提升操作模型在異構機器人形態和任務場景下的泛化能力。

ABot-M提出了全球首個動作流形學習，將學習目標由去噪重構轉為流形投影，顯著提升動作生成的穩定性與解碼效率，在高自由度全身控制等復雜場景中展現出更強的可擴展性。并且在感知端，采用語義流和動作流雙流并行的架構，提升精細操作的執行精度。

在LIBERO、LIBERO-Plus、RoboCasa GR1、RoboTwin 2.0等主流評測中，ABot-M全面超越π0.5、UniVLA、OpenVLA-OFT等強基線，在泛化能力、魯棒性與跨形態遷移三個維度實現系統性領先。

不僅如此，ABot-N、ABot-M的多項子成果入選 ICLR、CVPR等頂會，成為精確、高效、安全的機器人導航、操作的范式參考。

記憶是機器人跨越認知與執行鴻溝的底層基石。傳統機器視覺受限于“視野之外即荒原”，記憶呈場景碎片化，嚴重制約泛化能力。

為突破這一瓶頸，ABot-Claw首創“Map as Memory”理念，重構具身智能的記憶機制。作為ABot體系的“執行中樞”，ABot-Claw采用集中式Harness架構，將高德地圖與用戶私有地圖設為全局認知錨點，把多模態感知數據統一映射至共享語義空間，形成可動態刷新、持久沉淀的“世界記憶”。新終端接入后，僅需讀取全局上下文即可零成本繼承環境認知，徹底粉碎場景孤島。

另外，ABot-Claw 采用"云端大腦—邊緣響應"兩級設計，兼顧智能深度與執行可靠性。在調度層面，該架構還支持多種異構機器人的并行協作與任務接力，故障時自動接續，實現任務上下文無縫移交與跨形態協作，這標志著機器人系統從“單體智能”向“體系智能”的演進，機器人不再是孤立個體，而是共享記憶、統一調度、協同進化的智能網絡節點。

ABot-Claw還首創閉環反饋與糾錯機制，在模糊指令理解、跨機導引等復雜場景中充分驗證其魯棒性與泛化性。

伴隨高德途途的全球首秀，高德同步宣布將開源ABot全體系，此舉不僅是對“AMAPAI Inside”核心理念的深度踐行，更將重塑具身智能的研發范式，加速AGI時代的全面到來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.