網易首頁 > 網易號 > 正文 申請入駐

具身智能獨角獸「星海圖」新論文引熱議,謝賽寧轉評:最好和Yann LeCun的新作一起看

0
分享至

大數據文摘受權轉載自頭部科技

文丨丁靈波

今天,國內具身智能明星公司 星海圖發表了一篇新論文, 星海圖聯合創始人兼首席科學家趙行發帖表示:最近對世界行動模型(WAM)的研究發現,WAM的核心優勢不在于測試時對未來的“想象”,而在于訓練時來自未來視頻預測的監督。

該團隊提出了Fast-WAM,它使推理變得簡單、快速且以策略為中心。

趙行除了在公司任職,目前也擔任清華大學交叉信息學院的助理教授、Mars lab主任;2026年2月,星海圖完成10億元B輪融資,截至本輪,該公司累計融資額近30億元,估值達百億級別。


這篇新論文引起了不少業內研究員關注和評論,AI圈知名青年學者、現任AMI聯合創始人兼首席科學官的謝賽寧轉發稱:“ 最好與LeWorldModel論文一起閱讀,別問我為什么。 ”

謝賽寧提到的“ LeWorldModel”是圖靈獎得主、AMI創立者Yann LeCun最新發表的另一篇論文成果。

一起來看看,這兩項最新研究都講了什么。

比現有WAM快4倍以上

在目前的具身控制領域中,世界動作模型(WAMs)被視為替代視覺-語言-動作(VLA)模型的一種極具前景的方案。

現有大多數WAM均采用先想象后執行范式,迭代式視頻去噪會產生顯著的測試時延,然而,顯式預測未來畫面對實現優異動作性能是否必不可少,目前尚不明確。

星海圖(Galaxea AI)團隊在新論文中展開探討:WAM在測試階段是否需要顯式的未來想象,其性能增益是否主要來自訓練階段的視頻建模?


該團隊提出了Fast-WAM架構,將訓練階段的視頻建模與推理階段的顯式未來生成解耦——該架構在訓練時保留視頻聯合訓練,測試時則跳過未來預測環節,此外,還進一步設計了多種Fast-WAM變體,以實現對這兩種因素的對照研究。


簡單來說,Fast-WAM基于預訓練的視頻擴散變換器骨干網絡和動作專家DiT構建。

在訓練過程中,它聯合學習動作預測和視頻建模,從而使共享的視覺骨干網絡獲得更強的與世界相關的表征。

在推理階段,Fast-WAM僅保留當前觀測中干凈的潛在標記,并利用視頻主干網對其進行一次處理,然后直接生成動作,無需顯式地對后續視頻進行去噪,這消除了先想象后執行的WAM的主要運行時瓶頸。

實驗結果表明:Fast-WAM的性能與“先想象后執行”類模型性能相當,而移除視頻聯合訓練會導致性能大幅下降。



在無需具身預訓練的條件下,Fast-WAM在仿真基準(LIBERO、RoboTwin)和真實世界任務上均取得了與當前最優方法可比的效果,該模型可實時運行,時延僅190毫秒,速度比現有先想象后執行的WAM4倍以上

而“先想象后執行”類變體則明顯更慢,尤其是Fast-WAM-IDM時延高達810毫秒,這使得Fast-WAM成為更適合實際部署的優選方案,在保持出色任務性能的同時,大幅降低了推理開銷。


通過在仿真與真實機器人基準上的對照實驗(含有無視頻聯合訓練的變體),該團隊證明WAM中視頻預測的主要價值,更多體現在訓練階段學習更優質的世界表征,而非測試階段生成未來觀測。

單GPU可跑的世界模型

而謝賽寧建議和Fast-WAM一起看的“LeWorldModel”是Yann LeCun近期署名的一篇新作,也是對他此前提出的聯合嵌入預測架構(JEPA)的一種優化延展。


人工智能的核心目標之一,是研發能夠在多樣化任務與環境中習得技能的智能體,世界模型(WMs)被視為是一種頗具潛力的方法,一旦訓練成功,世界模型能讓智能體僅依靠自身構建的世界模型進行規劃與自我提升,即在想象空間中完成學習。

這在離線學習場景下尤為重要:智能體只能從固定數據集中學習,無法與環境交互,可借助世界模型生成仿真經驗,并評估反事實動作序列。

一種主流的世界模型學習方法便是聯合嵌入預測架構(JEPA),JEPA并不試圖建模環境的全部細節,而是專注于捕捉預測未來狀態所需的最關鍵特征,盡管理念簡潔,但現有JEPA方法極易發生表征坍縮,避免坍縮是訓練JEPA模型的核心挑戰之一

為突破這項挑戰,該團隊提出了LeWorldModel(LeWM),該方法首次實現了從原始像素端到端學習穩定的JEPA模型


值得關注的是,LeWM僅是一個1500萬參數的緊湊模型,可在單張GPU上完成訓練,大幅降低了相關研究的入門門檻。



研究人員在2D與3D環境中的各類操作、導航與運動任務上對LeWM進行了全面評估,并檢驗了模型對物理規律的直觀理解能力,LeWM與基于基礎模型的世界模型相比性能相當,但成本大幅更低,規劃速度最高提升48倍


整體而言,LeWM為現有隱式世界模型方法提供了一種可擴展的替代方案,具備原理清晰的訓練動態,以及可解釋、可涌現的表征特性,論文最后也指明了幾個重要研究方向:

1、目前基于隱式世界模型的規劃仍局限于較短時域,層次化世界建模是解決長時域推理與規劃的一個重要方向。

2、本方法仍依賴覆蓋度足夠的離線交互數據集,這類數據采集成本高、難度大,在大規模、多樣化的自然視頻數據集上進行預訓練,有望提供更強的表征先驗,并降低對領域專屬數據的依賴。

3、當前端到端隱式世界模型依賴動作標簽來預測未來狀態,而動作標注同樣獲取成本高昂,一個可行方向是通過逆動力學建模學習未來動作表征,從而減少對顯式動作標注的依賴。

結語:具身智能的技術拐點

業內人士分析認為,站在具身智能與人形機器人產業化的視角看,Fast-WAM和LeWM并不是兩篇孤立的學術進展,而是世界模型從“概念驗證”走向“真機落地”的關鍵拐點,世界模型驅動具身智能即將邁向新階段。

前者解決了世界動作模型跑不起來、時延太高的致命問題,后者解決了JEPA世界模型訓不出來、成本太高的工程死穴,一方面讓WAM級別能力滿足了真機實時控制的要求,另一方面,未來機器人可能不必再走“大模型暴力堆砌”的路線,輕量化世界模型同樣可以具備出色的物理推理能力。

這些技術進展貼合機器人規模化落地需求,未來1–2年,更好用的新一代機器人大腦正在呼之欲出 。

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗駐俄大使說美國沒有認真對待伊美談判

伊朗駐俄大使說美國沒有認真對待伊美談判

新華社
2026-04-24 09:45:02
世體:亞馬爾傷缺約一個半月,若保守估算只能趕上出戰烏拉圭

世體:亞馬爾傷缺約一個半月,若保守估算只能趕上出戰烏拉圭

懂球帝
2026-04-24 01:17:28
“烏龍法規”引發關注,央媒:“空氣法”荒唐劇映照形式主義積弊

“烏龍法規”引發關注,央媒:“空氣法”荒唐劇映照形式主義積弊

澎湃新聞
2026-04-23 19:07:04
1998年我吹牛說要娶女老師為妻,最后她真的成了我的妻子

1998年我吹牛說要娶女老師為妻,最后她真的成了我的妻子

千秋文化
2026-04-17 20:06:49
G3騎士104-126慘敗猛龍 球員評價:2人優秀,1人及格,7人低迷

G3騎士104-126慘敗猛龍 球員評價:2人優秀,1人及格,7人低迷

籃球資訊達人
2026-04-24 11:06:09
張雪自曝供應鏈出現危機,正遭遇業內圍剿

張雪自曝供應鏈出現危機,正遭遇業內圍剿

童叔不飆車
2026-04-21 21:50:42
《老頭環》電影“強行塞黑人”遭怒噴!玩家吵瘋了

《老頭環》電影“強行塞黑人”遭怒噴!玩家吵瘋了

游民星空
2026-04-23 19:10:16
賣不出去了!巴薩婉拒3000萬購買價格,曼聯要怎么推銷拉什福德

賣不出去了!巴薩婉拒3000萬購買價格,曼聯要怎么推銷拉什福德

里芃芃體育
2026-04-24 10:50:10
考公考到最后,連份普通工作都找不到了!

考公考到最后,連份普通工作都找不到了!

燈錦年
2026-04-24 06:50:08
伊蓮娜攜女紐約出街,酷颯媽咪與軟萌女兒的反差感穿搭

伊蓮娜攜女紐約出街,酷颯媽咪與軟萌女兒的反差感穿搭

述家娛記
2026-04-24 11:34:13
研究表明:性生活越頻繁,射精和勃起問題越少!

研究表明:性生活越頻繁,射精和勃起問題越少!

黯泉
2026-04-05 20:40:12
開戰即封門!幾十萬在日華人被盯上,開戰后日本將露出最殘酷底色

開戰即封門!幾十萬在日華人被盯上,開戰后日本將露出最殘酷底色

趣味萌寵的日常
2026-04-23 20:45:18
張雪峰:小學6年最重要的不是成績,是這3個習慣!初中見分曉

張雪峰:小學6年最重要的不是成績,是這3個習慣!初中見分曉

戶外阿毽
2026-04-17 05:48:14
氣血不足!不妨多吃“天然造血庫”,倒頭就睡,臉色紅潤

氣血不足!不妨多吃“天然造血庫”,倒頭就睡,臉色紅潤

江江食研社
2026-04-23 03:30:03
AI光通信兩大核心:磷化銦+薄膜鈮酸鋰,10家龍頭全梳理

AI光通信兩大核心:磷化銦+薄膜鈮酸鋰,10家龍頭全梳理

Thurman在昆明
2026-04-24 08:08:57
勸退!“去客廳化”火了5年,為什么70%家庭最后都偷偷把沙發搬了回來?

勸退!“去客廳化”火了5年,為什么70%家庭最后都偷偷把沙發搬了回來?

繪本家居
2026-04-10 11:13:39
CBA最新消息!曝浙江廣廈裁掉威廉姆斯,廣東宏遠換掉爭議外援

CBA最新消息!曝浙江廣廈裁掉威廉姆斯,廣東宏遠換掉爭議外援

體壇瞎白話
2026-04-23 18:19:13
同學聚會,班長讓我給遲到的鎮長讓座,下一秒,縣長向我道歉

同學聚會,班長讓我給遲到的鎮長讓座,下一秒,縣長向我道歉

農村情感故事
2026-03-23 07:31:39
德轉官宣!申花有可能提前跟這兩位王牌強援續約,都曾是國足主力

德轉官宣!申花有可能提前跟這兩位王牌強援續約,都曾是國足主力

張麗說足球
2026-04-24 11:36:00
“養肥了再收”,公共充電樁集體漲價,每度電上漲0.2元

“養肥了再收”,公共充電樁集體漲價,每度電上漲0.2元

生活魔術專家
2026-04-24 07:35:58
2026-04-24 12:16:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6853文章數 94541關注度
往期回顧 全部

科技要聞

剛剛,DeepSeek-V4 預覽版發布 百萬上下文

頭條要聞

美特種兵下重注賭"馬杜羅將下臺" 狂賺40萬美元后被捕

頭條要聞

美特種兵下重注賭"馬杜羅將下臺" 狂賺40萬美元后被捕

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

王思聰被綠!戀愛期間女友被金主包養

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

全景iDrive 續航近800km 新款寶馬7系/i7亮相

態度原創

數碼
家居
手機
公開課
軍事航空

數碼要聞

技術制勝!追覓吸塵器25萬轉磁懸浮馬達將全球首發 重構行業動力標準

家居要聞

自然肌理 溫潤美學

手機要聞

國產上一代Ultra銷量比比看,華為還是最強,小米第二

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進入關懷版