无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

UT Austin朱玉可:人形機器人的數據困局怎么破?答案藏在「數據海綿」里 |ICRA 2026

0
分享至


用世界模型生成的虛擬軌跡,其訓練價值幾乎等效于一條真實物理數據。

作者丨陳淑瑜

編輯丨岑峰、周蕾

2026年6月3日,在ICRA 2026大會的主題演講環節,德克薩斯大學奧斯汀分校副教授、NVIDIA GEAR團隊負責人朱玉可(Yuke Zhu)發表了關于人形機器人基礎模型的最新演講。他在演講中系統性地拆解了當前人形機器人面臨的最大瓶頸——數據,并提出了以“數據金字塔”為框架、以“世界模型”為引擎的規模化路徑。


朱玉可指出,人形機器人正在進入一個全新的加速階段:硬件日益成熟,學習算法和基礎模型的規模化也在快速推進。但真正制約這一領域從Demo走向大規模部署的,仍然是數據。真實機器人數據質量最高但極其稀缺,仿真數據可以無限生成但存在仿真到真實的鴻溝。

為此,他提出了一個三層數據金字塔策略:底層是海量但被動的互聯網人類視頻數據,中層是可無限生成的合成數據,頂層是真實機器人數據。

他的核心觀點是:不應押注單一數據源,而應以異質方式匯集三種數據,同時讓世界模型扮演“數據海綿”的角色,吸收并整合所有類型的數據。

在具體實踐中,朱玉可展示了兩個典型案例:一是SONIC——利用大規模人類動作捕捉數據訓練人形機器人全身控制器,通過運動跟蹤目標大幅簡化了強化學習的獎勵函數設計,實現萬小時級別的規模化訓練;二是EgoScale——從第一人稱視角的人類視頻中學習,通過“預訓練獲取人類知識→對齊訓練壓縮知識→后訓練表達知識”的三階段方案,使得機器人僅需不到1%的真實機器人數據就能完成復雜操作任務。

整場演講最令人振奮的結論,來自DreamZero世界動作(World Action Model,WAM)模型:通過將視頻生成模型轉化為動作生成器,純AI生成的虛擬軌跡在訓練價值上幾乎100%等效于真實物理數據。

朱玉可最后強調,要推動整個領域前進,開源和開放是不可或缺的。NVIDIA已開源GR00T基礎模型、Isaac仿真框架及相關數據集,并剛剛發布了首個H2 Plus參考平臺。

以下是朱玉可在ICRA 2026大會發表的演講精編稿,AI科技評論基于原英文演講內容進行了不改原意的翻譯編輯:

01


人形機器人正在進入新時代

我今天要講的是人形機器人和基礎模型。先給一個總結:我認為我們正在進入人形機器人技術的一個全新時代。硬件越來越強大,學習算法、基礎模型的規模化也越來越可行。

但我必須說,最大的挑戰、或許同時也是最大的機遇,仍然擺在我們面前。

“打造自主的、類人的機器人”這個夢想,已經讓人類著迷了數百年。機器人這個詞最早出自1920年卡雷爾·恰佩克的戲劇,名字就叫《羅素姆的萬能機器人》。從一開始,人們就把機器人想象成類人的通用工作者,而不是為特定用途定制的機器。

回顧人形機器人的發展歷程,我們看到一波又一波的炒作周期:從七八十年代論證技術可行性的概念驗證系統,到那些最終沒有實現大規模商業成功的愿景原型,再到社交伴侶機器人。大約十年前,DARPA機器人挑戰賽給我們潑了一盆冷水,清楚揭示了即使在人類監督下,讓機器人進入實際使用有多么困難。直到現在,沒有任何一款人形機器人實現了大規模、快速的部署。


但在2022年左右,我們開始看到一場“人形機器人爆炸”。各大公司、初創企業、研究機構都在制造越來越強大的機器人。我認為這在很大程度上是由AI和基礎模型、大語言模型的進步所驅動的。今天,我會展示我們最新的研究成果,我的目標是讓你們看到:我們有理由保持樂觀,因為進步是扎實的。

但同時我也要非常坦誠:還沒有人找到終極配方。這正是投入這個領域的最佳時機。

02


GR00T架構:雙系統 + 全身控制

大約兩年前,我有幸在英偉達領導一支人形機器人研究團隊。2024年3月GTC大會上,黃仁勛走上臺宣布了GR00T項目。這是一個為構建人形機器人全棧解決方案的計劃。GR00T-1是我們推出的第一個開源人形基礎模型。


整體架構采用了一種雙層設計。系統二是一個視覺語言模型,接收圖像和語言指令作為輸入,生成動作token;這些token傳遞給系統一,即擴散Transformer,生成閉環動作供機器人執行。整個模型可以端到端訓練。

但在實踐中,當你需要控制一個超過四五十個自由度的系統時,通常還需要一個用強化學習訓練的全身控制器,將基礎模型產生的高級指令轉化為每個關節的最終執行動作。預訓練模型賦予機器人泛化能力,使其能夠遵循不同的語言指令,對不同物體和任務目標執行任務。模型還可以進一步進行后訓練,執行更復雜的操作。

在我們最新的GR00T迭代版本N1.7中,我們嘗試解鎖機器人的整個運動學范圍,通過全身運動操作完成任務。這個模型僅用幾十個演示進行后訓練,就能完成復雜的工業流程任務。

你們可能已經在這幾天的海報展示中多次聽到:數據,仍然是規模化提升機器人能力的核心瓶頸。

03


數據金字塔:異質數據的規模化策略

大約幾年前,我提出了一個“數據金字塔”的概念,它清楚說明了我們的數據策略:我們不會只依賴單一數據源來擴展,而是要大規模地匯集異質數據源。


我把數據源組織成三層:

? 底層是人類視頻和互聯網數據,它們數據量巨大,但是被動的、多模態的,結構非常松散。

? 中間層是合成數據和仿真數據,來自物理引擎和圖形渲染。理論上,只要有足夠算力,我們可以生成無限量的合成數據,但內容創建和虛實鴻溝 (Sim-to-Real Gap)仍是挑戰。

? 頂層是真實機器人數據:來自真實世界傳感器和硬件,可以說這是最好的數據形式,因為沒有現實差距。但每臺機器人和每個人一樣,一天只有24小時,可用時間可能遠小于24小時。

與其只依賴一種數據源,我們的大量研究都致力于如何有效利用整個數據金字塔。今天我想把重點放在金字塔的最底層,人類數據。


我認為人類數據是目前最具可擴展性的數據來源。互聯網以人為中心,捕捉了我們世界的樣子、人類的行為方式、日常任務和日常生活。而人形機器人可能是消費這類數據最自然的形態,因為形態差距更小。

具體來說,我們探索了兩種人類數據形式:人類動作捕捉數據和第一人稱視角的人類視頻。

04


SONIC:用人類動捕訓練全身控制器

對于人類動作捕捉數據,我們在一個叫SONIC的工作中探索用它訓練通用的人形全身控制器。核心思路是:首先將人類運動重定向到特定人形機器人的形態上,生成對應的動捕數據庫,然后將運動跟蹤作為強化學習的訓練目標。


這種組合極大簡化了獎勵函數的設計,從而使規模化強化學習訓練成為可能。做大規模的事情時,簡潔往往帶來更好的可擴展性。

我們在三個維度上擴展了模型訓練:參數量從120萬提升到4200萬,這個規模足夠強大,但依然小到可以部署在機器人本體的NVIDIA Jetson上;數據量達到1億幀,總計超過10700小時的人類動捕數據;訓練使用了9000個GPU小時,每個GPU運行自己的物理仿真副本,合計相當于數千年的真實機器人經驗。

SONIC的關鍵在于動作的自然流暢度,這主要來自運動跟蹤目標,讓模型更好地模仿人類運動。這個模型可以接受遙操作、基礎模型輸出、甚至人類視頻作為高級指令。我們已將其部署在宇樹G1機器人上,訓練代碼、部署框架和數據集完全開源。

05


EgoScale:第一人稱視角視頻的三階段訓練

我們感興趣的第二種數據形式,是第一人稱視角的人類視頻。

這類視頻提供了一個窗口,讓我們觀察人類日常活動中豐富的多樣性和復雜性。在最近的工作EgoScale中,我們跟蹤人類手腕和手指在三維空間中的運動,也就是說把人想象成一個機器人,頭部運動就是動作空間,如此將第一人稱視角視頻轉化為訓練數據。


EgoScale的訓練方案由三個階段組成:第一階段僅在人類視頻上預訓練,從第一人稱視角視角預測手部運動;第二階段在配對的人機數據上對齊表征,使知識從人類領域遷移到機器人領域;第三階段用少量真實機器人數據精調模型。

用概念框架來理解:預訓練階段是“獲取人類知識”,從視頻中收獲常識和物理知識;對齊訓練階段是“壓縮知識”,從人類領域壓縮到機器人領域;后訓練階段是“表達知識”,利用積累的知識解決具體任務。

這項工作最讓我興奮的是,模型對更多人類視頻數據有著巨大的胃口。當我們將視頻數據從1000小時擴展到20000小時,模型性能穩步提升,呈現出近乎完美的對數線性關系,意味著繼續投入數據,性能還會持續提升。

真正的“魔法”來自預訓練,預訓練得越好,后訓練所需數據就越少。這就是我們的規模化方案:絕大部分數據來自人類數據,不到1%來自真實機器人。

06


世界模型即“數據海綿”

在演講剩余的時間里,我要講講“海綿”的故事。我所說的海綿,是世界模型。世界模型像海綿,因為它有一種神奇的能力,可以吸收數據金字塔中各種類型的數據。

它可以從互聯網視頻中學習,獲取常識和物理知識、語義知識和程序性知識;可以從合成數據中學習,受益于控制多樣性;可以從真實機器人軌跡中學習,精化特定任務的表征;可以從多模態數據、音頻數據中學習。也許最重要的是,可以從失敗數據中學習,這類數據對策略改進非常有用。


07


DreamZero:世界動作模型

我們在DreamZero工作中探索了這個想法,用世界模型構建下一代NVIDIA基礎模型。核心是“世界動作模型”,想象視頻生成模型如何工作:從初始幀開始,從一個帶噪聲的視頻出發,逐步去噪,生成清晰視頻。在大規模互聯網數據上訓練這樣的模型,它能捕捉相當多的物理理解。然后在機器人數據上微調,告訴模型機器人應該長什么樣、應該如何運動。


關鍵創新在于,我們不僅讓模型生成未來畫面,還增加一個擴散通道同步生成動作。測試時我們丟棄未來幀預測,只提取動作執行。僅通過視頻生成模型或世界模型,就能顯著增強視角泛化能力和行為克隆的樣本效率。

這是我第一次在公開場合展示這些結果。訓練GR00T基礎模型執行復雜任務,展示了閉環策略學習和反應式恢復行為。如果你從事機器人研究足夠久,會認出這個YCB數據集中的物體。十年前我看到它時,覺得絕不可能用機器人完成這樣的裝配任務。但現在,有了基礎模型,這已經變成可能了。而且是在一天之內完成的,無需任何人工干預。

我對過去兩年取得的進展感到興奮,社區中的加速非常驚人。但也很容易看到,還有大量工作需要做,我們需要更廣泛的研究社區參與。這也是為什么我個人非常堅定地看好開源。

無論是在UT Austin的實驗室,還是我在英偉達的團隊,我們都盡可能開放開源基礎模型、開源仿真框架,比如Isaac、開源數據集和基準。

就在這個星期一,我們剛剛宣布了首個H2 Plus參考平臺。打造人形機器人的夢想已經讓我們著迷了超過一百年。但最終,我看到各種技術要素正在匯聚,讓我們真正有可能實現這個夢想。我邀請在座各位一起加入,共同將這個夢想變為現實。


08


Q&A 問答環節

聽眾:請問您如何讓這些基礎模型在特定領域內達到90%的成功率,實現更高的可復現性和可靠性?

朱玉可:這是一個非常好的問題。如果你看過大語言模型是如何訓練的,就會知道預訓練只是訓練的第一階段。在機器人領域,后訓練和對齊同樣關鍵。你需要針對特定任務場景,用高質量的領域數據進行精調。同時,可復現性需要嚴格的評估基準和標準化的測試協議,這一點我們在YCB等基準工作的基礎上還需要持續推進。總的來說,預訓練給你泛化的底座,后訓練給你領域的深度,兩者缺一不可。

去哪看 ICRA 核心【演講/論文】詳解?

為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨,雷峰網已全面上線【ICRA 2026 深度專區】

專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。

與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李中華任鄭州市委副書記

李中華任鄭州市委副書記

汲古知新
2026-06-13 00:08:56
60歲男子與女子在車內發生親密行為猝死,家屬起訴女方索賠32萬余元被駁回

60歲男子與女子在車內發生親密行為猝死,家屬起訴女方索賠32萬余元被駁回

紅星新聞
2026-06-13 11:34:09
巴基斯坦總理:伊朗和美國已就協議文本達成一致

巴基斯坦總理:伊朗和美國已就協議文本達成一致

財聯社
2026-06-13 00:32:03
具俊曄首曝與大S20年前舊居,蹭熱度令人不恥

具俊曄首曝與大S20年前舊居,蹭熱度令人不恥

仙味少女心
2026-06-13 23:14:06
美國隊追平隊史世界杯最大比分勝利!阿湯哥、小李子、貝克漢姆……一眾名流現場觀賽

美國隊追平隊史世界杯最大比分勝利!阿湯哥、小李子、貝克漢姆……一眾名流現場觀賽

紅星新聞
2026-06-13 12:05:58
成都蛋烘糕婆婆:配合拍視頻1000一條,否則追究相關法律責任

成都蛋烘糕婆婆:配合拍視頻1000一條,否則追究相關法律責任

映射生活的身影
2026-06-13 19:55:10
癌癥的源頭被查出,燒烤沒上榜,第1名大家可能每天都在吃!

癌癥的源頭被查出,燒烤沒上榜,第1名大家可能每天都在吃!

路醫生健康科普
2026-06-12 16:23:10
水果姐為美國男足揭幕戰表演,與提烏斯-盧卡一同獻唱

水果姐為美國男足揭幕戰表演,與提烏斯-盧卡一同獻唱

懂球帝
2026-06-13 09:17:14
“去上海住哥哥家被警告”引群嘲,揭開了當下社會最殘酷的真相

“去上海住哥哥家被警告”引群嘲,揭開了當下社會最殘酷的真相

卷史
2026-06-13 06:29:19
釘釘員工自曝作息大改,內部爭議曝光

釘釘員工自曝作息大改,內部爭議曝光

影視情報室
2026-06-14 00:39:31
中紀委怒批:公務員也是人,正常生活不應問責處理!

中紀委怒批:公務員也是人,正常生活不應問責處理!

細說職場
2026-06-13 12:51:02
震撼,波黑球迷開始在多倫多街頭集結,并高喊口號支持巴勒斯坦

震撼,波黑球迷開始在多倫多街頭集結,并高喊口號支持巴勒斯坦

懂球帝
2026-06-13 01:18:15
先定罪,再調查,保證沒有冤假錯案

先定罪,再調查,保證沒有冤假錯案

我是歷史其實挺有趣
2026-06-13 12:14:28
口交、肛交等進入式性服務是賣淫行為嗎?最高院定調了!

口交、肛交等進入式性服務是賣淫行為嗎?最高院定調了!

黯泉
2026-06-02 11:54:54
她29歲中央委員、37歲省委書記,41歲主動到縣里任職

她29歲中央委員、37歲省委書記,41歲主動到縣里任職

數字化看世界
2026-05-31 17:37:58
中日要開戰?日專家曾預測:與中國發生沖突,最長只能堅持兩周

中日要開戰?日專家曾預測:與中國發生沖突,最長只能堅持兩周

別吵吵
2026-06-09 08:56:42
王毅收到蒙古國外長的邀請,稀土外運日本一事,想聽聽中方想法?

王毅收到蒙古國外長的邀請,稀土外運日本一事,想聽聽中方想法?

共工之錨
2026-06-13 00:25:29
斯坦福顛覆認知!對腸道好的不是粗糧,發酵食物反而護腸、強免疫

斯坦福顛覆認知!對腸道好的不是粗糧,發酵食物反而護腸、強免疫

思思夜話
2026-06-12 13:24:03
什么是知識的詛咒?網友:但凡被知識污染一點也想不出淡硫酸這詞

什么是知識的詛咒?網友:但凡被知識污染一點也想不出淡硫酸這詞

另子維愛讀史
2026-06-13 23:39:37
蘋果首款折疊屏“iPhone Ultra”細節全曝光 無折痕、取消Face ID

蘋果首款折疊屏“iPhone Ultra”細節全曝光 無折痕、取消Face ID

CNMO科技
2026-06-11 09:30:19
2026-06-14 06:16:49
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7372文章數 20757關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

本地
時尚
房產
藝術
家居

本地新聞

AK劉彰邂逅河北南大港濕地

夏天穿衣要杜絕土氣感!試試精致的小香風,優雅與俏皮并存

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

家居要聞

空間微調 移形換境

無障礙瀏覽 進入關懷版