網易首頁 > 網易號 > 正文 申請入駐

銀河通用LDA定義全域數據利用范式,跨本體世界動作大模型

0
分享至

衡宇 Jay 發自 凹非寺
量子位 | 公眾號 QbitAI

當下的具身智能賽道,已經卷成兩大技術流派的拉鋸戰。

純VLA模型Physical Intelligence π0.7擅長舉一反三,能適配陌生場景;世界模型派英偉達DreamZero主打「預判未來」,可零樣本適配新機器人。

但這兩種路線各有短板,行業遲遲沒有出現能跑通能落地、可規;慕y一方案。

面對行業僵局,具身智能頭部企業銀河通用創新推出1.6B參數的跨本體「隱式世界-動作基礎模型」LDA-1B。

LDA-1B走的是自研的WAM世界-動作融合路線。

目前,該工作成果成功登頂今年僅有210篇錄用的機器人頂會RSS,項目成果代碼已全面開源。




論文地址:https://arxiv.org/abs/2602.12215
項目鏈接:https://pku-epic.github.io/LDA/
代碼地址:https://github.com/jiangranlv/LDA-1B

LDA-1B模型首次在數據層面實現虛實共融、人機混合、質量參差、有無動作標簽的數據統一有效利用。

用不那么學術的話來說,這個模型在業界首次做到了「吃數據的時候不挑食」。

無論是虛擬仿真還是真實拍攝、人類視頻還是機器人記錄、高清畫面還是模糊影像、帶標注的教案還是沒標注的原始素材,統統可以混在一起訓練,并且都能被有效利用。



只需短短1個小時的后訓練,它就能實現跨具身本體的自適應。

換句話說,它可以快速 “學會” 操控各種不同形態的機器人身體。

過去這些數據源互相水土不服,只能分開處理;現在壁壘被LDA-1B打破,數據獲取與標注成本大幅降低,AI能從更廣泛、更便宜的來源中學習。

回顧GPT-2之于大語言模型的最重要意義,就是打破了高質量標注數據的依賴枷鎖,依靠海量異構數據實現持續Scaling。

反觀具身智能,一直受困于數據割裂難題,難以進階。

現在,LDA-1B打破該桎梏,解鎖了具身智能的「GPT-2時刻」。

全數據高效利用,告別數據浪費

結合官方實測視頻,足以直觀展現LDA-1B全方位領先的核心實力。

視頻開場,它就亮出三大典型場景落地潛力:

零售場景,它能利索地在貨架間穿梭,分揀物品;家庭場景,它能整齊疊好衣物;工業場景,它能輕松搬運碼放沉重的貨物。



多樣生活化、工業化場景的流暢實操,充分體現了LDA-1B模型的落地適配性。

表象之外,想要真正看懂差異化優勢,還要從主流模型的現有缺陷講起。

行業普遍認為,只要積累足夠豐富的專家操作樣本,模型就能自主習得完整的行動邏輯與操作能力。

但這套技術路線本身存在明顯局限,整體十分依賴高水準訓練數據

高質量數據的獲取門檻一直居高不下,遠程操控采集和精細內容標注,再加上復雜的動作空間統一工作,都會持續拉高整體成本,也讓數據體量很難實現大范圍擴充。

就算借助仿真數據來補充訓練數據,虛擬環境和現實場景的天然差距,也會帶來明顯的落地適配問題。

除此之外,行業還長期浪費著海量閑置資源,純視覺的人類第一視角素材,含有大量干擾信息的粗糙運動記錄,以及不同機器人設備產出的差異化內容,都難以被傳統框架吸收學習。

這個LDA-1B做了一件行業沒人敢做的事——把別人眼里的「無用數據」全拿來訓練了。

LDA-1B出來之前,全行業其實都沒真正吃透所有具身數據。

為了打破這個桎梏,銀河通用構建了完整的數據基礎設施「銀河星數(AstraData)」,并在LDA-1B中實現對全類數據的統一完整運用。



圍繞這一體系,銀河通用構建了一個金字塔式自下而上的五層數據結構:

  • 互聯網圖像/視頻/文本數據(底層):規模最大、成本最低,用于構建基礎感知與語義理解能力,但與具體動作執行相關性較弱;
  • 人類行為數據(次底層):提供動作先驗與任務理解,將“視覺認知”連接到“行為語義”;
  • 多本體合成仿真數據(中間層,銀河自研合成數據管線產出):以物理一致性為約束,大規模生成可控、多樣的機器人交互數據,實現從認知到執行的關鍵過渡;
  • 真實遙操作數據(高層):提供高質量動作示范,但規模與采集效率受限;
  • 真實機器人自主運行數據(頂層):來自真實部署環境的閉環數據,直接反映系統在現實世界中的運行表現,并持續驅動強化學習與系統優化。

此外,不同質量的數據也被分配不同的訓練角色,各司其職,物盡其用。

  • 高質量專家軌跡:同時學習策略和動力學,定義什么是好的動作。
  • 低質量/噪聲數據:只用于前向和逆向動力學。動作可能是錯的,但世界對動作的響應是真實的。一個人把杯子碰倒了,杯子倒下去的物理過程,不會因為「這個操作水平不行」就變得不真實。
  • 無動作標注的人類視頻:用于視覺預測。沒有動作信號,但人類操作的時序結構和交互模式全都在畫面里。

在這一框架下,數據不再被簡單劃分為「有用或無用」,而是被系統性重組進統一的世界-動作模型之中。

這就是LDA-1B所說的「通用數據攝入范式」。

沒有垃圾數據,只有因訓練框架被「錯付」的數據。把對的數據放到對的訓練目標里,每一幀都有價值。

這一范式在LDA-1B中首次展現出清晰的規;卣鳌

隨著訓練數據從5000小時擴展至30000小時,LDA?1B的動作預測誤差持續下降,呈現穩定的單調改善趨勢。

相比之下,僅采用策略學習的基線模型在引入低質量數據后性能明顯退化。

規模化實驗結果,給出了最有力的證明。

當所有有動作標注的數據耗盡后,繼續加入超過10000小時無動作標注的人類視頻,LDA?1B的性能依然能夠持續提升。

這一點,是傳統行為克。˙C)及既有世界模型方法難以實現的。



具身智能的規;l展,第一次不再被高質量專家數據的稀缺性所限制,海量高低質量、有無標簽的異構數據,都能成為模型能力持續增長的動力。

它標志著具身智能開始真正進入以數據驅動的規;l展階段。

跳出二元局限,鑄就跨本體通用能力

LDA-1B走出了區別于純VLA、純世界模型的第三條技術路線。

純世界模型難落地成實際動作,純VLA模型不理解行為后果。

LDA-1B選擇在單一擴散模型框架內把兩者完美融合,同時在一個模型里學習四大核心能力:



  • 策略學習:根據當前觀測直接生成動作,這是VLA的能力。
  • 前向動力學:根據當前狀態和動作,預測下一時刻的視覺狀態,這是世界模型的能力。
  • 逆向動力學:根據前后兩個狀態,反推中間執行了什么動作。
  • 視覺預測:不需要動作輸入,直接預測未來的視覺軌跡。

四類能力協同優化,構建起「感知—決策—交互—反饋」的完整閉環。

模型不僅知道「該怎么做」,更能理解「這么做會改變什么」。

通過一個MM-DiT(多模態擴散Transformer)構建,將動作策略學習與世界建模統一建模。



不同于傳統的世界模型容易在燈光、紋理等像素級的細節上消耗過多算力,LDA-1B選擇在緊湊的DINO的潛空間(Latent Space)中建模動力學,將注意力完全放在物體的結構和動作的本質上。

這種抓大放小的策略,讓它在處理具體操控、靈巧操控以及長程操作等復雜任務時,表現遠超其它模型,性能提升高達48%。

為了探尋LDA-1B的有效性和實際效果,研究團隊進行了一系列實驗。

研究團隊申明,所有測試使用的機器人本體——包括搭載雙指夾爪或22自由度靈巧手的Galbot G1、搭載10自由度靈巧手的Unitree G1——都沒有在預訓練數據集中出現過,屬于嚴格的少樣本跨本體泛化。

實測里LDA-1B的表現一騎絕塵。

夾爪取放、物體交接,超高難度長程任務,秒殺GR00T-N1.6和π0.5。

面對未知位置、新物體、變化背景等分布外擾動,以及各類靈巧手操作,LDA-1B同樣全方位領先現有頂尖模型,執行與泛化能力拉滿。



從鍋里翻撿牛排盛到盤子里,再撒點黑胡椒粉這種事,對搭載LDA-1B模型的機器人來說,真·小菜一碟。

比如精準預判「推動掃帚會帶動紙團位移」的物理邏輯,這也是其攻克長程任務、靈巧操作難題的核心關鍵。

團隊在實驗過程中,驗證了一個行業反直覺結論:

在下游任務微調中加入包含大量失敗和不穩定操作的遙操作數據,π0.5性能下降,LDA-1B性能反而提升10%。

不管是曾經被定義為「低質量」的數據,還是那些「不可用」的數據,現在統統都可以被LDA吃干榨盡。

整體而言,LDA-1B完成了模型能力與硬件適配的全域歸一,突破單一技術路線、單一機器人本體的能力局限,實現多場景、多硬件、多任務的通用化作業能力。

全鏈路閉環,開啟具身規模化時代

復盤行業兩大主流路線的底層缺陷,不難發現,兩者的天花板很明顯。

純VLA路線無法脫離專家數據掣肘,難以規;;傳統世界模型受像素空間制約,參數擴容無法帶來有效增益。

LDA-1B依托WAM統一框架,憑借DINO結構化表征、四任務協同訓練、全量數據分工復用三大核心革新,補齊了具身智能規;M化的全部條件,構建起可持續自我迭代的底層范式。

不同于行業傳統的「數據篩選」模式,LDA-1B建立的「數據組織」范式,讓海量異構數據持續為模型進化賦能,成功復刻大模型的Scaling增長邏輯,讓機器人真正擁有自主學習、持續進化的通用智能能力。

在產業落地層面,LDA-1B是銀河通用銀河星腦全人形通用基礎模型體系的關鍵閉環,它嵌入在「銀河星腦(AstraBrain)」的完整技術體系之中:

從「銀河星數」所構建的數據基礎設施,到跨本體的世界-動作基礎模型,再到面向真實場景的持續部署與反饋學習閉環,為實體場景規;涞刂渭夹g根基。

依托成熟完備的技術管線,銀河通用將工廠工業、家庭起居作為核心落地主戰場,針對性打磨適配兩類高頻剛需場景的通用具身能力。

在工廠場景,模型可適配復雜工業產線環境,完成柔性搬運、精密操作、巡檢運維、流程輔助等多元化作業,適配多品類工廠非標化需求,降低產線智能化改造成本,助力工業自動化提質增效。

在家庭場景,可深度適配居家復雜動態環境,覆蓋全屋家務打理、老人兒童陪護、居家安全巡檢、生活化便民操作等日常需求,打破家庭服務機器人功能單一、環境適配差的行業痛點,真正落地普惠型家庭智能服務。

在此兩大核心場景之外,同步延伸至零售等細分領域,形成主次分明、重點突出的落地布局,推動具身智能從實驗室演示技術,升級為可落地、可復用、可創造價值的生產力基礎設施。

生態層面,銀河通用秉持開放共建理念,已開源基于公開數據訓練的LDA-1B模型版本。

打破行業封閉迭代壁壘,為全球具身智能研究提供通用、高效的技術底座,加速全行業技術躍遷。

從技術模型、數據資源到產業生態,LDA-1B完成了全維度的全域歸一,構建起技術可迭代、數據可循環、產業可落地的完整閉環,牢牢坐穩國內具身智能賽道的技術與估值龍頭地位。

技術與產業的雙重突破,讓這家公司獲得了資本市場的高度認可。

截至2026年4月,銀河通用已是國內估值最高的未上市具身智能企業,估值超200億元。

而LDA-1B的問世,再度夯實了企業的核心技術壁壘與行業領先的產業價值。

歸根結底,LDA-1B的價值早已超越榜單跑分的淺層競爭。

它解答了具身智能領域最本質的命題:

依托WAM世界-動作統一框架,機器人是否可以復刻LLM的規;壿,從海量異構數據中持續認知世界、迭代進化?

就這個問題,LDA-1B用自身給出了肯定的答案。

從GPT大模型的文本智能,到LDA-1B的機器人具身智能,統一建模、全量數據驅動的規;壿嬕幻}相承。

銀河通用將這套成熟的AI進化范式落地機器人領域,正式拉開了具身智能規模化、通用化、產業化的全新序幕

One More Thing

去年3月,銀河通用就率先提出并實踐了將World Model(世界模型)與Action Model(動作模型)統一的框架WAM(World-Action Model)。

感興趣的小伙伴可以跳轉論文《DyWA: Dynamics-adaptive World Action Model》。

該論文在全球范圍內首次對WAM的概念進行結構化定義,并在接觸動力學復雜的任務實現了成功的驗證。

DyWA創新性引入動態自適應機制,突破了傳統操控模型泛化弱、動態適配不足的痛點,為具身智能與非抓取操控研究提供全新思路,學術價值突出。

在產業端,該模型顯著提升機器人復雜場景作業能力,降低落地適配成本,有效賦能服務機器人、柔性工業操作等場景,加速通用具身智能技術落地與產業化進程。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
達蒙-瓊斯正式達成認罪協議!最高刑期63個月 將于27年1月宣判

達蒙-瓊斯正式達成認罪協議!最高刑期63個月 將于27年1月宣判

羅說NBA
2026-04-29 05:43:29
安徽17歲帥哥張子旭離世!臉上長痘確診,父親“賣命”掙錢也難救

安徽17歲帥哥張子旭離世!臉上長痘確診,父親“賣命”掙錢也難救

嫹筆牂牂
2026-04-29 07:37:48
季后賽最新局勢:馬刺時隔9年進次輪兩隊出局 湖人魔術差1勝晉級

季后賽最新局勢:馬刺時隔9年進次輪兩隊出局 湖人魔術差1勝晉級

醉臥浮生
2026-04-29 12:45:48
89歲謝賢近況曝光,坐輪椅在山頂喝咖啡,扎馬尾戴墨鏡仍有型有款

89歲謝賢近況曝光,坐輪椅在山頂喝咖啡,扎馬尾戴墨鏡仍有型有款

八斗小先生
2026-04-29 10:46:24
黃一鳴前男友再發視頻,曾每月10萬滿足她的愛好,透露60歲大爺姓

黃一鳴前男友再發視頻,曾每月10萬滿足她的愛好,透露60歲大爺姓

小蘭聊歷史
2026-04-28 09:37:04
G5開拓者95-114馬刺被淘汰 球員評價:3人及格,8人低迷

G5開拓者95-114馬刺被淘汰 球員評價:3人及格,8人低迷

籃球資訊達人
2026-04-29 12:46:43
胡錫進否認自己有老干部病房vip待遇,但消炎藥卻用124元一盒的

胡錫進否認自己有老干部病房vip待遇,但消炎藥卻用124元一盒的

映射生活的身影
2026-04-26 20:57:40
央視紅人洛桑的死:時隔25年后,搭檔博林坦白:他根本沒喝多少酒

央視紅人洛桑的死:時隔25年后,搭檔博林坦白:他根本沒喝多少酒

草莓解說體育
2026-04-28 17:02:13
拼命演戲還清一億四千萬巨債,豪門夢醒,現回浙江農家過踏實日子

拼命演戲還清一億四千萬巨債,豪門夢醒,現回浙江農家過踏實日子

觀察者海風
2026-04-04 12:59:45
塔:最終比分僅僅是1-0,回主場我們有能力以兩球優勢取勝

塔:最終比分僅僅是1-0,回主場我們有能力以兩球優勢取勝

懂球帝
2026-04-29 05:37:08
回顧遼寧一廠長邀15名歌廳舞女做客,喝完酒后,將15人沖進下水道

回顧遼寧一廠長邀15名歌廳舞女做客,喝完酒后,將15人沖進下水道

談史論天地
2026-04-27 15:00:03
毛主席看不清老布什的臉,把他拉到眼前說:這個年輕人能當總統

毛主席看不清老布什的臉,把他拉到眼前說:這個年輕人能當總統

大江
2026-04-28 11:02:26
扎哈羅娃:我們不像烏克蘭,不拿士兵的生命去打沒意義的仗

扎哈羅娃:我們不像烏克蘭,不拿士兵的生命去打沒意義的仗

Ck的蜜糖
2026-04-29 09:09:07
Manus,徹底涼涼了

Manus,徹底涼涼了

技術領導力
2026-04-27 20:37:27
“低血糖”只是幌子?張凌赫片場暈厥視頻流出,真實體重引眾怒

“低血糖”只是幌子?張凌赫片場暈厥視頻流出,真實體重引眾怒

陳意小可愛
2026-04-29 09:33:40
女神也老了,都已經63歲了,看起來像40歲出頭,真是越活越年輕

女神也老了,都已經63歲了,看起來像40歲出頭,真是越活越年輕

東方不敗然多多
2026-04-29 01:08:26
隨著利雅得新月1-0,沙特聯最新積分榜出爐:C羅率隊5分優勢領跑

隨著利雅得新月1-0,沙特聯最新積分榜出爐:C羅率隊5分優勢領跑

側身凌空斬
2026-04-29 04:03:30
4-1!馬刺全隊6人上雙,晉級半決賽,文班亞馬高效拿17分14板6帽

4-1!馬刺全隊6人上雙,晉級半決賽,文班亞馬高效拿17分14板6帽

老梁體育漫談
2026-04-29 12:27:55
美國參議院否決限制特朗普對古巴動武的決議

美國參議院否決限制特朗普對古巴動武的決議

界面新聞
2026-04-29 07:13:33
中國遭警告:拒收將面臨供應中斷!

中國遭警告:拒收將面臨供應中斷!

共工之錨
2026-04-28 23:20:50
2026-04-29 12:55:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12557文章數 176458關注度
往期回顧 全部

科技要聞

夭折的造富神話,逼著中國AI回去賺"慢錢"

頭條要聞

男子強奸大嫂又殺人被執行死刑 大哥:談不上高興難過

頭條要聞

男子強奸大嫂又殺人被執行死刑 大哥:談不上高興難過

體育要聞

巴黎5-4拜仁夜:身價1.55億的“足壇笑話”,成了最硬的底牌

娛樂要聞

單依純演唱會再唱“區區三萬天”宣戰

財經要聞

多地藥店違規串換商品套刷醫保揭秘

汽車要聞

配32寸升降屏 新款別克世紀CENTURY上市53.99萬起

態度原創

藝術
旅游
游戲
教育
公開課

藝術要聞

這些女神,竟然都是攝影師切爾尼亞季耶夫的復古作品!

旅游要聞

鄭州能待一整天的40個免費室內場館

《黑旗RE》完整地圖已出:原版DLC區域盡收其中!

教育要聞

最新!房山區義務教育入學政策出爐

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版