无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

具身智能Skill時刻!英偉達(dá)開源機(jī)器人技能庫,Jim Fan:范式變了

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

6!機(jī)器人也能學(xué)Skill了。

剛剛,英偉達(dá)放出了一套能讓機(jī)器人持續(xù)成長的技能庫

ASPIRE



簡單理解,ASPIRE有點像一個機(jī)器人版Coding Agent。

就跟GPT能把你的prompt、工作記錄煉成可復(fù)用的skill一樣,它也會把機(jī)器人的一次次失敗和修復(fù),沉淀成之后能繼續(xù)調(diào)用的經(jīng)驗。

只不過,它review的不是代碼,而是機(jī)器人的操作過程

每當(dāng)機(jī)器人執(zhí)行任務(wù)時,ASPIRE就會把感知、導(dǎo)航、抓取、碰撞、運(yùn)動規(guī)劃這些過程都記下來。

它背后調(diào)用的GPT / Claude則會像研究員一樣,判斷任務(wù)中哪里出了問題,迭代程序。如果跑通,就把沉淀出來的經(jīng)驗寫進(jìn)Skill。

由此,機(jī)器人就可以通過寫代碼、看執(zhí)行軌跡、修程序、沉淀技能來持續(xù)學(xué)習(xí)。

而這,可不光是在機(jī)器人經(jīng)驗中煉化Skill這么簡單。

英偉達(dá)機(jī)器人主管Jim Fan還表示ASPIRE代表了一種全新的持續(xù)學(xué)習(xí)范式



其中:

  • 訓(xùn)練,從梯度下降變成了不斷打磨技能(Skill Refinement);
  • 訓(xùn)練好的模型,對應(yīng)的也不再只是一堆浮點權(quán)重,而是一個持續(xù)擴(kuò)展的機(jī)器人技能庫(Sensorimotor Skills);
  • 分布式訓(xùn)練,則變成了一群 Agent 各自練習(xí)不同技能,再把經(jīng)驗匯總進(jìn)同一個技能庫。

訓(xùn)練出來的,不一定是權(quán)重

雖然開頭已經(jīng)介紹的七七八八,但在講怎么革新機(jī)器人訓(xùn)練范式前,咱先啰嗦幾句背景。

ASPIRE的全名叫Agentic Skill Programming through Iterative Robot Exploration



它能讓機(jī)器人用代碼執(zhí)行任務(wù),失敗后看多模態(tài)執(zhí)行軌跡,再修程序,把修好的經(jīng)驗存進(jìn)一個不斷變厚的skills library。

這里的Skill,雖然本質(zhì)上還是一段喂給大模型的上下文,卻沉淀著一套經(jīng)過驗證的代碼修復(fù)經(jīng)驗(Code Repair Pattern),讓機(jī)器人知道遇到某類問題時,該如何修改控制程序。



比如,當(dāng)機(jī)器人準(zhǔn)備拿起一個收音機(jī)時,已經(jīng)識別到了目標(biāo),卻始終無法靠近時。

Agent能分析出來原因并非識別錯了,而是規(guī)劃器(Planner)給出的目標(biāo)點都落在障礙物的碰撞緩沖區(qū)內(nèi)。

由此,ASPIRE就會在這次經(jīng)驗的基礎(chǔ)上,總結(jié)出一條新的Skill:

如果遇到這種規(guī)劃失敗,就嘗試從45°、90°、180° 等不同角度重新接近目標(biāo),直到找到一條無碰撞路徑。

以后再遇到類似場景,無論目標(biāo)變成收音機(jī)、微波爐還是其他家具,這條經(jīng)驗都可以直接復(fù)用,不必重新試錯。

說到這,你可能會好奇。 機(jī)器人訓(xùn)練,不應(yīng)該都是搞數(shù)據(jù)、梯度下降、模型權(quán)重、真機(jī)采集、仿真到現(xiàn)實遷移嗎?

怎么就突然成攢skill了?

這里要先講一個最近很火的范式,Code as Policy

跟VLA等端到端的策略模型不同,Code as Policy不讓模型直接輸出機(jī)器人動作,而是讓大模型寫一段可執(zhí)行的機(jī)器人控制程序。

程序里可以調(diào)用感知模塊、規(guī)劃API和控制原語,比如識別物體、規(guī)劃路徑、移動機(jī)械臂、執(zhí)行抓取。

這樣一來,機(jī)器人行為就不再完全藏在神經(jīng)網(wǎng)絡(luò)權(quán)重里,而是變成了可執(zhí)行的操作代碼。

有了代碼,就可以被現(xiàn)在強(qiáng)的離譜的Agent模型檢查、修改、調(diào)試、繼續(xù)優(yōu)化。

但過去,Code as Policy一直有兩個問題。

第一,機(jī)器人失敗了,系統(tǒng)通常只知道“任務(wù)沒完成”,卻不知道到底是感知錯了、抓取沒抓穩(wěn)、路徑規(guī)劃撞了,還是恢復(fù)動作出了問題。

第二,也是更關(guān)鍵的一點,它不會長記性

一個任務(wù)做完,調(diào)試過程中發(fā)現(xiàn)的修復(fù)方案、恢復(fù)策略、prompt寫法就被丟掉了,下次遇到類似問題,還得重來一遍。

這也是為啥Jim Fan說:

(有了ASPIRE)當(dāng)機(jī)器人完成第100個任務(wù)時,它終于不再像完成第1個任務(wù)時那樣一無所知。



說白了,這整個過程就跟人類機(jī)器人工程師一樣:

當(dāng)一個機(jī)器人程序失敗后,工程師會回放執(zhí)行過程,看感知結(jié)果,分析運(yùn)動軌跡,判斷到底是抓取錯了、規(guī)劃錯了,還是某個恢復(fù)動作沒接上。

修好之后,工程師會記下這次的經(jīng)驗。下次再遇到桌邊物體、抽屜把手、窄空間導(dǎo)航,就不會再從零開始。

而ASPIRE做的,就是把這套經(jīng)驗積累機(jī)制交給agent。它不只是讓大模型寫機(jī)器人代碼,更讓大模型在執(zhí)行環(huán)境里反復(fù)試、反復(fù)看、反復(fù)修,最后把驗證過的修復(fù)經(jīng)驗沉淀成Skill。

所以,在ASPIRE里,訓(xùn)練已經(jīng)不只是梯度下降。

訓(xùn)練過程變成了Skill Refinement;訓(xùn)練產(chǎn)物,也不只是模型權(quán)重,而是一個機(jī)器人不斷積累、不斷成長的Skills Library。

三階段pipeline

在論文中,這套思想被實現(xiàn)為三階段的pipeline。



首先是robot execution engine,也就是機(jī)器人執(zhí)行引擎。

傳統(tǒng)機(jī)器人程序失敗后,系統(tǒng)可能只告訴你任務(wù)沒完成。

ASPIRE會把失敗拆開,每一次感知、規(guī)劃、抓取、控制調(diào)用,都留下輸入、輸出、視覺證據(jù)和錯誤日志。

就像人類工程師調(diào)機(jī)器人時會回放視頻、看軌跡、查到底是感知錯了還是抓取崩了,而ASPIRE把這套動作交給coding agent。

接下來是skill library。agent修好程序后,不會把這次經(jīng)驗丟掉,而會煉成可復(fù)用的知識。



官網(wǎng)技能庫里能看到很具體的條目,比如SAM3文本提示怎么寫、桌邊物體要多角度接近、抽屜把手怎么過濾假檢測、平面物體推動時該用哪種motion primitive。

這些不像傳統(tǒng)模型權(quán)重,它們更像機(jī)器人程序員的踩坑筆記。

最后是evolutionary search

一個agent不只沿著單條修復(fù)路徑往下試,系統(tǒng)會生成多條候選控制程序,讓它們進(jìn)執(zhí)行環(huán)境里跑,再根據(jù)幸存程序和失敗軌跡繼續(xù)迭代。

軟件工程里,coding agent已經(jīng)習(xí)慣了寫代碼、跑測試、看trace、改bug。ASPIRE做的事,就是把這套循環(huán)搬進(jìn)物理世界。

實驗驗證

為了驗證這套方法,論文在三個經(jīng)典機(jī)器人基準(zhǔn)上進(jìn)行了測試,包括LIBERO-ProRobosuiteBEHAVIOR-1K,分別覆蓋泛化操作、接觸密集型操作以及長時家庭任務(wù)。

整體結(jié)果都比此前的Code as Policy方法明顯更好。

例如,在Robosuite的雙臂物體交接(Bimanual Handover)任務(wù)中,ASPIRE 將成功率從20%提升到了92%



二在泛化能力方面。

研究先在LIBERO-90上不斷積累Skill Library,再直接遷移到從未見過的 LIBERO-Pro Long長任務(wù),中間沒有針對新任務(wù)繼續(xù)訓(xùn)練,也沒有更新技能庫。



結(jié)果顯示,隨著技能庫越來越豐富,機(jī)器人在新任務(wù)上的成功率也一路提升,從幾乎不會做,到最終達(dá)到31%。換句話說,Skill Library越厚,機(jī)器人越不像一個新手。

作者介紹

在技術(shù)博客的最后,英偉達(dá)也公布了完整的作者名單。



依舊是GEAR團(tuán)隊的老面孔:Jim Fan、朱玉可、Guanzhi Wang、石冠亞等人。

排在最前面的三位作者為共同貢獻(xiàn)。

其中,Runyu Lu目前是密歇根大學(xué)博士二年級學(xué)生,正在GEAR實習(xí);Yuubo Wu來自伊利諾伊大學(xué)厄巴納-香檳分校(UIUC),Ethan Kou則來自加州大學(xué)伯克利分校,目前還是一名本科生。

值得一提的是,就在昨天,英偉達(dá)也宣布擴(kuò)大國內(nèi)機(jī)器人團(tuán)隊招聘,在北京、上海、深圳三地開放了不少崗位,覆蓋具身智能、仿真、機(jī)器人部署和解決方案架構(gòu)等方向。



感興趣的同學(xué)們,準(zhǔn)備簡歷吧!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
我國人均GDP已超1.3萬美元,將跨入高收入國家陣營!

我國人均GDP已超1.3萬美元,將跨入高收入國家陣營!

番外行
2026-05-25 15:17:18
馬國明湯洛雯現(xiàn)身金鐘,身形變化引猜測,家人舉動透露端倪

馬國明湯洛雯現(xiàn)身金鐘,身形變化引猜測,家人舉動透露端倪

不太愛笑的小羊
2026-06-30 13:37:12
楚阿梅尼:我們看了巴拉圭踢德國的比賽,我們將迎來一場硬仗

楚阿梅尼:我們看了巴拉圭踢德國的比賽,我們將迎來一場硬仗

懂球帝
2026-07-01 08:05:27
3年4500萬美金!1年800萬美金!兩筆簽約達(dá)成,馬刺要武裝到牙齒

3年4500萬美金!1年800萬美金!兩筆簽約達(dá)成,馬刺要武裝到牙齒

梅亭談
2026-06-30 14:54:31
為親人喊冤14年的河南農(nóng)婦,終于把自己也喊進(jìn)了監(jiān)獄

為親人喊冤14年的河南農(nóng)婦,終于把自己也喊進(jìn)了監(jiān)獄

塔子山評說
2026-06-29 16:49:51
“潑天的富貴落到我頭上?”重慶29歲工人世界杯預(yù)測32中31

“潑天的富貴落到我頭上?”重慶29歲工人世界杯預(yù)測32中31

新浪財經(jīng)
2026-07-01 12:34:49
馬伊琍稱陳龍眼睛凸出、脾氣暴躁,疑患甲亢......陳龍當(dāng)場反駁!

馬伊琍稱陳龍眼睛凸出、脾氣暴躁,疑患甲亢......陳龍當(dāng)場反駁!

新民周刊
2026-06-27 19:10:21
國務(wù)院:探索延長義務(wù)教育年限

國務(wù)院:探索延長義務(wù)教育年限

第一財經(jīng)資訊
2026-07-01 00:30:02
A股:金融股爆發(fā),科技股沖高回落,釋放什么信號?牛要加速了?

A股:金融股爆發(fā),科技股沖高回落,釋放什么信號?牛要加速了?

虎哥閑聊
2026-07-01 11:32:42
伊朗:超30國官員擬出席已故最高領(lǐng)袖哈梅內(nèi)伊悼念活動,為保障活動舉行,將在部分地區(qū)實施臨時公共假期安排

伊朗:超30國官員擬出席已故最高領(lǐng)袖哈梅內(nèi)伊悼念活動,為保障活動舉行,將在部分地區(qū)實施臨時公共假期安排

極目新聞
2026-06-30 22:01:14
國產(chǎn)便攜式分體空調(diào)歐洲賣爆了?重慶女子在倫敦?zé)岬奖罎ⅲ屠枰毁u場搶購驚動警察

國產(chǎn)便攜式分體空調(diào)歐洲賣爆了?重慶女子在倫敦?zé)岬奖罎?,巴黎一賣場搶購驚動警察

上游新聞
2026-06-30 08:19:06
十多家酒企原酒被拍賣,價格拍出“可樂價”!白酒分化淘汰仍未觸底

十多家酒企原酒被拍賣,價格拍出“可樂價”!白酒分化淘汰仍未觸底

第一財經(jīng)資訊
2026-07-01 14:49:24
零跑殺瘋了!9月交付新車93376臺 斷檔式領(lǐng)先蔚小理

零跑殺瘋了!9月交付新車93376臺 斷檔式領(lǐng)先蔚小理

快科技
2026-07-01 11:57:11
世界杯超保真死亡之組!4隊全死完了:3隊進(jìn)32強(qiáng) 短短2天都被淘汰

世界杯超保真死亡之組!4隊全死完了:3隊進(jìn)32強(qiáng) 短短2天都被淘汰

風(fēng)過鄉(xiāng)
2026-07-01 07:11:43
他從朝鮮回來無職務(wù),授銜時得知自己是海南軍區(qū)司令,懷疑聽錯了

他從朝鮮回來無職務(wù),授銜時得知自己是海南軍區(qū)司令,懷疑聽錯了

史之韻
2026-06-14 00:48:49
陳麟任成都市副市長

陳麟任成都市副市長

上觀新聞
2026-07-01 10:17:40
中央5臺直播世界杯時間表:明天7月2日CCTV5直播,英比美力爭16強(qiáng)

中央5臺直播世界杯時間表:明天7月2日CCTV5直播,英比美力爭16強(qiáng)

薇說體育
2026-07-01 13:15:51
23歲女子想再睡一次情夫,情夫怕妻子得知奸情,2010年將女子殺死

23歲女子想再睡一次情夫,情夫怕妻子得知奸情,2010年將女子殺死

情感藝術(shù)家
2026-06-30 06:50:11
北京樓市:逆天

北京樓市:逆天

墜入二次元的海洋
2026-07-01 16:49:34
項立剛評馮小剛:飯局跳舞事件后我就不看他電影了,太惡心了

項立剛評馮小剛:飯局跳舞事件后我就不看他電影了,太惡心了

映射生活的身影
2026-06-29 16:37:52
2026-07-01 19:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12880文章數(shù) 176508關(guān)注度
往期回顧 全部

科技要聞

Claude Code被曝“植入木馬”識別中國用戶

頭條要聞

副行長借朋友名義貸款470萬 400萬自用70萬給朋友用

頭條要聞

副行長借朋友名義貸款470萬 400萬自用70萬給朋友用

體育要聞

賣球衣救子的門將,把德國撲出了世界杯

娛樂要聞

張凌赫:我連心疼你都隔著時差

財經(jīng)要聞

新氧貸款:宣傳年化15%,實際頂格24%

汽車要聞

半程收官 上汽集團(tuán)銷量突破200萬輛

態(tài)度原創(chuàng)

游戲
時尚
旅游
家居
軍事航空

2026最新解讀!KK對戰(zhàn)平臺官方盤點:仙劍奇?zhèn)b傳1完整劇情解析與遺憾彌補(bǔ) (1)

Meiinpsn的穿衣風(fēng)格,清新又叛逆

旅游要聞

洋面孔成旅游推介官,三亞的“朋友圈”為何越擴(kuò)越大?

家居要聞

傳奇筑 日常詩

軍事要聞

美伊代表前往多哈 談判方式出現(xiàn)"重大倒退"

無障礙瀏覽 進(jìn)入關(guān)懷版