无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

強(qiáng)化學(xué)習(xí)之父Sutton聯(lián)手Carmack:讓機(jī)器人進(jìn)入真實(shí)世界打游戲

0
分享至



編輯|Panda

2026 年初,成都一家商場里,一臺正在表演的人形機(jī)器人與圍觀的一位老人意外發(fā)生碰撞,兩者雙雙倒地,老人隨即被送醫(yī),確診為軟組織挫傷。事后,獵豹移動董事長傅盛公開評論稱,這并非人形機(jī)器人第一次傷人,也不會是最后一次;以現(xiàn)在大模型的能力,兩三年內(nèi)都很難妥善解決人形機(jī)器人的安全問題。

事實(shí)上,機(jī)器人在現(xiàn)實(shí)生活一直都狀況不斷,而這類事件表明:實(shí)驗(yàn)室和發(fā)布會上行云流水的演示,一旦進(jìn)入不可預(yù)測的真實(shí)世界,經(jīng)常說不準(zhǔn)下一步會發(fā)生什么。

這背后藏著一個(gè)更深的規(guī)律:讓 AI 在模擬器里學(xué)會一件事,和讓它在真實(shí)世界里把這件事做穩(wěn),完全是兩道不同的難關(guān),差距往往比想象中更大。

哪怕是同一套算法、同一個(gè)任務(wù),模擬環(huán)境和真實(shí)環(huán)境之間的任何細(xì)微差異(光線、地面摩擦力、機(jī)器人身體本身的公差),都可能讓一套訓(xùn)練好的策略瞬間失靈。

而就在人形機(jī)器人行業(yè)為「能不能站穩(wěn)」反復(fù)交學(xué)費(fèi)的同一時(shí)期,由傳奇程序員約翰·卡馬克(John Carmack)領(lǐng)導(dǎo)的 Keen Technologies,聯(lián)合阿爾伯塔大學(xué)和 Openmind 研究所的研究者們,發(fā)布了一篇論文,從一個(gè)更基礎(chǔ)的角度回應(yīng)了這個(gè)問題:能不能讓強(qiáng)化學(xué)習(xí)算法,在真實(shí)世界里,真刀真槍地、長時(shí)間不間斷地自己學(xué)習(xí),而不需要人在旁邊照看,也不需要一上來就指望它一次成功?

為了回答這個(gè)問題,他們造了一套系統(tǒng),專門用來「打 Atari 游戲」。這套系統(tǒng),名曰Physical Atari



  • 論文標(biāo)題:Physical Atari: A Robust and Accessible Platform for Real-time Reinforcement Learning on Robots
  • 論文地址:https://arxiv.org/abs/2606.19357v1

強(qiáng)化學(xué)習(xí)的「真實(shí)世界」難題

Atari 游戲在 AI 圈并不陌生。早在 2013 年,DeepMind 用深度強(qiáng)化學(xué)習(xí)算法在模擬器里學(xué)會了打 Atari 游戲,這被視為深度強(qiáng)化學(xué)習(xí)崛起的標(biāo)志性時(shí)刻之一,此后 Rainbow、MuZero 等一系列經(jīng)典算法也都拿 Atari 游戲當(dāng)作標(biāo)準(zhǔn)考場。但這些考場清一色是模擬器:游戲世界會乖乖等著算法做完決定,再繼續(xù)往下走。

真實(shí)世界完全不是這樣。比如你開車時(shí),前方出現(xiàn)狀況,哪怕你正在思考要不要踩剎車,車依然在繼續(xù)往前開——世界不會等你。

論文把這種「世界不等你」的設(shè)定稱為「實(shí)時(shí)強(qiáng)化學(xué)習(xí)」,并指出這恰恰是機(jī)器人所面臨的真實(shí)處境。

目前機(jī)器人領(lǐng)域訓(xùn)練 AI 主要靠三條路:

  • 第一條是在模擬器里練好了再搬到真機(jī)器人上,這也是現(xiàn)在大多數(shù)人形機(jī)器人廠商的主流做法,但模擬器和真實(shí)世界之間的差異,正是前面那些摔倒事件的根源;
  • 第二條是靠人類遠(yuǎn)程操控機(jī)器人采集大量示范數(shù)據(jù),再用這些數(shù)據(jù)離線訓(xùn)練
  • 第三條,也是最少人走的一條路,是讓機(jī)器人直接在真實(shí)世界里邊干邊學(xué)

第三條路省掉了建模擬器、省掉了雇人采數(shù)據(jù)的成本,也從根本上避免了「模擬器和現(xiàn)實(shí)不一樣」這個(gè)老大難問題,但代價(jià)是,你需要一臺足夠耐用、足夠便宜、能被普通研究者負(fù)擔(dān)得起,還能撐住幾周不間斷高強(qiáng)度運(yùn)轉(zhuǎn)的機(jī)器人。

Physical Atari就是沖著這個(gè)空白做出來的答案。

團(tuán)隊(duì)簡介

這支團(tuán)隊(duì)的第一作者是 Keen Technologies 的研究科學(xué)家Khurram Javed

而其作者名單中還出現(xiàn)了兩位大神的名字:約翰·卡馬克(John Carmack)理查德·薩頓(Richard S. Sutton)



卡馬克是 id Software 的聯(lián)合創(chuàng)始人,曾主導(dǎo)開發(fā)了《毀滅戰(zhàn)士》、《雷神之錘》等劃時(shí)代游戲,并因發(fā)明多項(xiàng) 3D 圖形算法被寫入計(jì)算機(jī)圖形學(xué)教科書。2013 年加入 Oculus 擔(dān)任 CTO 后,他又把虛擬現(xiàn)實(shí)從概念變成了量產(chǎn)產(chǎn)品。

2022 年,他離開 Oculus,創(chuàng)立 Keen Technologies,把目標(biāo)對準(zhǔn)了通用人工智能(AGI)。

第二年,他邀請了強(qiáng)化學(xué)習(xí)領(lǐng)域的奠基人之一、阿爾伯塔大學(xué)教授 Richard S. Sutton 加入 Keen Technologies,兩人此后一直專注于研究能在真實(shí)世界中持續(xù)學(xué)習(xí)、持續(xù)適應(yīng)的智能體。

而 Sutton 本人也是這篇論文的作者之一。這意味著,眼前這臺機(jī)械手不只是工程團(tuán)隊(duì)的動手實(shí)踐,也直接體現(xiàn)了這位強(qiáng)化學(xué)習(xí)理論奠基人對「智能體該怎么學(xué)」這件事的判斷。

Physical Atari 正是這套理念的一次具體落地:與其在論文里空談「智能體應(yīng)該在現(xiàn)實(shí)中學(xué)習(xí)」,不如先把硬件造出來,讓算法真的跑起來

用一臺「機(jī)械手」打游戲,是怎么造出來的

整套系統(tǒng)其實(shí)只有兩個(gè)核心部件。一個(gè)叫Atari Devbox,本質(zhì)是一臺塞進(jìn) 3D 打印外殼里的樹莓派 5,接上一塊 5 英寸屏幕,跑著經(jīng)典的 Arcade Learning Environment 模擬器,以 60 幀每秒的速度渲染 Atari 游戲畫面。



另一個(gè)叫Robotroller,是一只專門用來按真實(shí)搖桿的機(jī)械手:它不會去觸碰任何電路或代碼,只是像人一樣,握住一支沒有經(jīng)過任何改裝的 AtariCX40+搖桿,通過三個(gè)伺服電機(jī)分別控制搖桿的上下、左右移動和開火按鈕。

一臺攝像頭對著屏幕拍下游戲畫面,運(yùn)行強(qiáng)化學(xué)習(xí)算法的電腦根據(jù)畫面做決策,再把指令發(fā)給 Robotroller,后者負(fù)責(zé)把這個(gè)決策變成真實(shí)的手部動作。

這個(gè)設(shè)計(jì)思路的關(guān)鍵是讓 AI 完全通過「看屏幕、動搖桿」這種最樸素的人類交互方式跟游戲?qū)υ?/strong>,不開任何后門,也因此能直接復(fù)用游戲機(jī)制本身、不用額外搭建仿真接口。

聽起來簡單,但論文里花了大量篇幅講的,其實(shí)是「怎么讓一只機(jī)械手在幾周內(nèi)不壞」。

研究者最早遇到的問題是螺絲會松動,解決辦法是改用螺紋鎖固膠;接著發(fā)現(xiàn)伺服電機(jī)內(nèi)部的塑料齒輪會磨損,于是換成了金屬齒輪版本的伺服電機(jī);再后來發(fā)現(xiàn)搖桿本身被這套機(jī)械手「用壞了」,追根溯源,是因?yàn)殡姍C(jī)的運(yùn)動太「猛」,給搖桿造成了不必要的應(yīng)力,于是團(tuán)隊(duì)重新調(diào)整了控制參數(shù),讓動作變得更柔和。

最有意思的一處修復(fù),是研究者給伺服電機(jī)加上了一個(gè)「高電流反射」機(jī)制:一旦檢測到某個(gè)電機(jī)的電流超過設(shè)定閾值(通常意味著它被卡住或頂?shù)搅擞蚕尬唬到y(tǒng)會立刻讓它原地停住、瞬間松開扭矩再重新鎖緊,就像人體的腱反射在過度拉伸時(shí)自動收縮肌肉一樣,避免電機(jī)硬扛著燒壞。

這個(gè)機(jī)制聽起來不起眼,卻是讓整套系統(tǒng)能連續(xù)運(yùn)轉(zhuǎn)幾周不出故障的關(guān)鍵一環(huán)。

至于「獎(jiǎng)勵(lì)信號」(游戲得分),團(tuán)隊(duì)也沒有用網(wǎng)線或代碼偷偷傳輸,而是讓 Devbox 屏幕上同步顯示一組 AprilTags 視覺標(biāo)記,由攝像頭直接「看」出當(dāng)前是加分還是減分。

換句話說,這臺機(jī)器人感知世界的方式,從畫面到得分,全部通過攝像頭這一個(gè)通道完成,跟人類玩游戲沒有本質(zhì)區(qū)別。

整套硬件成本被控制在1000 美元以內(nèi),其中 Robotroller 本身需要采購的零件(伺服電機(jī)、軸承、螺絲等)大約 400 美元,定制部件可以用一臺普通消費(fèi)級 3D 打印機(jī)打出來,耗時(shí)約 12 小時(shí)。





真機(jī)器人,真打了 145 個(gè)小時(shí)游戲

研究者讓這套系統(tǒng)在 Pong、Seaquest、Ms Pacman、Assault、Asterix 和 Kangaroo 六款游戲上分別學(xué)習(xí)五個(gè)半小時(shí),每款游戲重復(fù) 4 到 5 次實(shí)驗(yàn)。



累計(jì)下來,這些實(shí)驗(yàn)總共跑了將近 145 個(gè)小時(shí),期間沒有任何人工干預(yù)——沒有人去扶它、沒有人去重啟它,機(jī)械手自己一遍遍按著搖桿,自己一點(diǎn)點(diǎn)學(xué)會怎么把游戲分?jǐn)?shù)往上拉。

更值得關(guān)注的是另一組實(shí)驗(yàn):研究者先讓一個(gè)智能體在某一臺 Robotroller 上學(xué)習(xí) 6 小時(shí),然后把訓(xùn)練好的策略分別部署到原來那臺機(jī)器人,和另一臺「按同樣圖紙?jiān)斐鰜怼沟臋C(jī)器人上測試。



結(jié)果是,即便兩臺機(jī)器人用的是完全相同的設(shè)計(jì)圖紙和零件,策略在「陌生身體」上的表現(xiàn)也始終明顯更差

在需要精準(zhǔn)卡點(diǎn)的 Pong 游戲里,這種差距格外明顯:挪到新機(jī)器上的策略能看出球的方向、能往正確的方向移動球拍,卻總是差那么一點(diǎn)點(diǎn)沒接住,因?yàn)槟呐率峭吞柫慵g的微小公差,都足以讓原本卡得很準(zhǔn)的時(shí)機(jī)錯(cuò)位。



Pong 與 Kangaroo 游戲畫面

研究者隨后讓智能體在「陌生身體」上繼續(xù)學(xué)習(xí),結(jié)果策略表現(xiàn)逐漸回升,重新逼近換身體前的水平。



這組對照實(shí)驗(yàn)從側(cè)面印證了論文反復(fù)強(qiáng)調(diào)的一個(gè)判斷:哪怕差異小到「同款機(jī)器人換了一臺」,只要存在于訓(xùn)練和部署之間,就足以拖累表現(xiàn),而直接在目標(biāo)身體上持續(xù)學(xué)習(xí),是修復(fù)這種偏差最直接的辦法

整個(gè)系統(tǒng)165 毫秒左右的端到端響應(yīng)延遲也大致落在人類反應(yīng)速度的區(qū)間內(nèi),說明這套硬件的「反應(yīng)能力」本身沒有成為瓶頸,問題確實(shí)出在策略和身體之間的匹配上。



結(jié)語

Physical Atari 本身并不打算讓機(jī)器人學(xué)會走路或疊衣服,它解決的是一個(gè)更基礎(chǔ)的問題:如果想驗(yàn)證「機(jī)器人能不能在現(xiàn)實(shí)世界里自己學(xué)習(xí)」這件事,至少現(xiàn)在有了一套足夠便宜、足夠耐用、誰都能復(fù)刻的實(shí)驗(yàn)臺。比起在發(fā)布會舞臺上展示一段精心調(diào)試過的動作,在真實(shí)世界里連續(xù)運(yùn)轉(zhuǎn) 145 個(gè)小時(shí)且不需要人工干預(yù),或許才是檢驗(yàn)一套強(qiáng)化學(xué)習(xí)算法是否真正可靠的更樸素的標(biāo)準(zhǔn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
世界杯主哨首秀 馬寧掏6黃牌搶鏡+拒判壓哨點(diǎn)球 霸氣喝退球員質(zhì)疑

世界杯主哨首秀 馬寧掏6黃牌搶鏡+拒判壓哨點(diǎn)球 霸氣喝退球員質(zhì)疑

我愛英超
2026-06-21 10:09:07
生育大局已定!2026年新生人口變化曝光:年輕人不生,根本不是懶

生育大局已定!2026年新生人口變化曝光:年輕人不生,根本不是懶

離離言幾許
2026-06-18 22:49:16
手把手教徒弟反被抄家!中企印度遭洗劫,國家新規(guī)一招反殺!

手把手教徒弟反被抄家!中企印度遭洗劫,國家新規(guī)一招反殺!

52赫茲實(shí)驗(yàn)室
2026-06-21 14:28:41
歷史要?dú)в谝坏恳呀?jīng)獨(dú)立百年的蒙古,正把中國40年的努力毀掉!

歷史要?dú)в谝坏恳呀?jīng)獨(dú)立百年的蒙古,正把中國40年的努力毀掉!

戶外釣魚哥阿旱
2026-06-21 15:19:53
特朗普稱美國或收取中東地區(qū)20%的石油收益

特朗普稱美國或收取中東地區(qū)20%的石油收益

新華社
2026-06-21 22:28:03
「被WPS背刺了」沖上熱搜!官方客服回應(yīng)

「被WPS背刺了」沖上熱搜!官方客服回應(yīng)

鞭牛士
2026-06-21 15:40:08
云南通報(bào)“中考?xì)v史試卷被指存在低級錯(cuò)誤”:招生考試院分管領(lǐng)導(dǎo)、命題處處長、中考?xì)v史學(xué)科命題秘書被停職,對命題組組長及成員追責(zé)問責(zé)

云南通報(bào)“中考?xì)v史試卷被指存在低級錯(cuò)誤”:招生考試院分管領(lǐng)導(dǎo)、命題處處長、中考?xì)v史學(xué)科命題秘書被停職,對命題組組長及成員追責(zé)問責(zé)

極目新聞
2026-06-21 16:24:20
“女子月經(jīng)弄臟火車被讓賠180元”后續(xù):女子起訴蘭州客運(yùn)段侵犯名譽(yù)權(quán),法院已立案

“女子月經(jīng)弄臟火車被讓賠180元”后續(xù):女子起訴蘭州客運(yùn)段侵犯名譽(yù)權(quán),法院已立案

大風(fēng)新聞
2026-06-21 19:25:05
雷軍吃面事件升級!有大V怒斥對這個(gè)世界失望了,雷軍做出回應(yīng)

雷軍吃面事件升級!有大V怒斥對這個(gè)世界失望了,雷軍做出回應(yīng)

火山詩話
2026-06-21 17:14:02
原來她就是張頌文老婆,難怪丈夫總拿大獎(jiǎng),真是娶一個(gè)賢妻旺三代

原來她就是張頌文老婆,難怪丈夫總拿大獎(jiǎng),真是娶一個(gè)賢妻旺三代

笑一個(gè)吧
2026-06-21 18:02:47
劉濤去上海出差,想著好久沒見孫儷,發(fā)微信約晚飯。孫儷回得很快:見面可以,只能中午,四點(diǎn)前必須散。

劉濤去上海出差,想著好久沒見孫儷,發(fā)微信約晚飯。孫儷回得很快:見面可以,只能中午,四點(diǎn)前必須散。

時(shí)尚的弄潮
2026-06-21 11:33:43
新冠真相要來了?美女高官放重磅解密文件!溯源新冠流向?qū)嶒?yàn)室!

新冠真相要來了?美女高官放重磅解密文件!溯源新冠流向?qū)嶒?yàn)室!

追蹤不停歇
2026-06-20 16:20:42
嫁李鐵不后悔!張泉靈卸下偽裝,自曝在央視受排擠,她沒法說謊

嫁李鐵不后悔!張泉靈卸下偽裝,自曝在央視受排擠,她沒法說謊

麥芽是個(gè)小趴菜
2026-06-21 10:37:56
嚇壞了!1億歐巨星抱怨馬寧判罰,被馬寧點(diǎn)名叫過來,趕忙賠不是

嚇壞了!1億歐巨星抱怨馬寧判罰,被馬寧點(diǎn)名叫過來,趕忙賠不是

風(fēng)過鄉(xiāng)
2026-06-21 08:44:06
特朗普持續(xù)抨擊梅洛尼:美伊停戰(zhàn)后,意總理又想“重修舊好”

特朗普持續(xù)抨擊梅洛尼:美伊停戰(zhàn)后,意總理又想“重修舊好”

參考消息
2026-06-21 16:01:10
26米!全球最高梅西雕像揭幕 網(wǎng)友:太丑根本不像 更喜歡印度那座

26米!全球最高梅西雕像揭幕 網(wǎng)友:太丑根本不像 更喜歡印度那座

念洲
2026-06-21 17:34:27
花80萬開店,90天就倒閉,火遍全國的零食店,“陰謀”露頭角了?

花80萬開店,90天就倒閉,火遍全國的零食店,“陰謀”露頭角了?

科技故事聚焦
2026-06-16 10:07:38
事態(tài)升級!霍啟剛評論區(qū)淪陷,準(zhǔn)弟媳娜然家世曝光被質(zhì)疑辱華

事態(tài)升級!霍啟剛評論區(qū)淪陷,準(zhǔn)弟媳娜然家世曝光被質(zhì)疑辱華

萌神木木
2026-06-20 11:25:21
熱身賽:中國男籃力克澳大利亞 王俊杰23+6+4趙繼偉一度受傷

熱身賽:中國男籃力克澳大利亞 王俊杰23+6+4趙繼偉一度受傷

醉臥浮生
2026-06-21 21:20:31
“大不了給我一顆子彈,我就是要扎死她”,24歲男子新婚兩月殺妻

“大不了給我一顆子彈,我就是要扎死她”,24歲男子新婚兩月殺妻

易玄
2026-06-21 09:27:52
2026-06-21 23:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13319文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

馬斯克拿下7800億元天價(jià)薪酬 2028年可兌現(xiàn)

頭條要聞

知名作家"南派三叔"向媒體求助:思慮再三聯(lián)系了你們

頭條要聞

知名作家"南派三叔"向媒體求助:思慮再三聯(lián)系了你們

體育要聞

德國的超級替補(bǔ),10年前還在工廠上班

娛樂要聞

原來她就是張頌文老婆

財(cái)經(jīng)要聞

“床墊界的特斯拉”破產(chǎn)了

汽車要聞

驚出冷汗!重慶實(shí)測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

親子
時(shí)尚
藝術(shù)
健康
軍事航空

親子要聞

樂高城市系列之甜甜圈販賣車 #大型挖掘機(jī)挖土視頻

郵報(bào)盤點(diǎn)哈蘭德奢侈品收藏:33萬鎊愛馬仕包、28萬豪華腕表

藝術(shù)要聞

絲綢滑落肩頭的瞬間、光影穿過窗欞的溫度:他用畫筆定格時(shí)間本身

吃粽子的3條保胃法則,消化科醫(yī)生推薦

軍事要聞

時(shí)隔44年試射洲際導(dǎo)彈 現(xiàn)場照片傳遞三個(gè)重磅信息

無障礙瀏覽 進(jìn)入關(guān)懷版