網易首頁 > 網易號 > 正文申請入駐

機器人是怎么學會干活的：一部當代簡史

2026-04-20 13:44:46　來源: DeepTech深科技

北京舉報

分享至

（來源：麻省理工科技評論）

機器人學家過去的特點是：夢做得很大，東西造得很小。他們滿懷壯志要匹敵甚至超越人體的驚人復雜度，然后把整個職業生涯花在給汽車工廠打磨機械臂上；目標是 C-3PO（《星球大戰》里的人形機器人，能說六百多萬種語言，會走路、會社交、有情感反應，是科幻電影中最經典的“像人一樣的機器人”形象），做出來的是掃地機器人 Roomba。

這些研究者中許多人的真正野心，是科幻片里的那種機器人——能在世界中自由移動、適應不同環境、安全而有益地與人互動。對有社會使命感的人來說，這樣的機器可以幫助行動不便的人、緩解孤獨感、承擔對人類來說太危險的工作。對更看重商業前景的人來說，它意味著一種取之不盡、不用發工資的勞動力來源。但不管出發點是什么，一段漫長的失敗史讓硅谷大多數人不敢在“有用的機器人”上下注。

這個局面變了。機器還沒造出來，但錢已經涌進來了：僅 2025 年一年，企業和投資者就向人形機器人砸了 61 億美元，是 2024 年投資額的四倍。

發生了什么？機器學習與世界互動的方式經歷了一場革命。

設想你想在家里裝一雙機械臂，只讓它做一件事：疊衣服。它該怎么學會？你可以先寫規則：檢查面料，算出它被拉伸到什么程度會撕裂；識別襯衫的領子；把夾爪移到左袖，抬起來，向內折疊精確到多少距離；右袖重復一遍；如果襯衫轉了方向，相應地調整方案；如果袖子擰了，糾正它……規則的數量很快就會爆炸，但如果真的把每種情況都窮舉了，確實能產出可靠的結果。這就是機器人學最初的手藝：預判一切可能性，提前寫好代碼。

大約 2015 年前后，前沿領域開始換打法：在數字世界里搭建機械臂和衣服的仿真模型，每次成功疊好就給程序一個獎勵信號，失敗了就扣分。通過反復試錯、迭代幾百萬次，程序自己摸索出越來越好的技巧——跟 AI 學下棋用的方法一樣。

2022 年 ChatGPT 的問世引爆了當前這輪熱潮。大語言模型在海量文本上訓練，工作原理不是試錯，而是學會預測一句話里下一個詞應該是什么。類似的模型被移植到機器人領域后，很快就能吃進圖像、傳感器讀數和機器人關節的位置信息，預測機器接下來該做什么動作，每秒鐘發出幾十條運動指令。

依賴能吃下大量數據的 AI 模型，似乎不管機器人是需要跟人說話、在環境中移動，還是完成復雜任務，都管用。而且它還和其他想法結合在一起，比如即使機器人還不完美也先放出去，讓它在真實工作環境里繼續學習。今天，硅谷的機器人學家們又開始做大夢了。

Jibo - Jibo

早在大語言模型時代之前，一臺可以活動的社交機器人就已經在和人聊天了。

2014 年，MIT 的機器人學家辛西婭·布里澤爾（Cynthia Breazeal）向世界介紹了一款沒有手臂、沒有腿、沒有臉的機器人，叫 Jibo。它看上去像一盞臺燈。布里澤爾的目標是為家庭打造一款社交機器人，這個想法通過眾籌拉到了 370 萬美元。早期預訂價 749 美元。

早期的 Jibo 能做自我介紹，能跳舞逗孩子開心，但也就僅此而已了。它的愿景一直是成為一種有實體的助手，從日程管理、處理郵件到講故事什么都能干。它確實贏得了一批忠實用戶，但公司最終在 2019 年關閉了。

（來源：麻省理工科技評論）

回頭來看，Jibo 最需要的是更好的語言能力。它當時的競爭對手是蘋果的 Siri 和亞馬遜的 Alexa，而這些技術在當時都依賴大量的腳本預設。籠統來說，當你跟它們說話時，軟件會把你的語音轉成文字，分析你想要什么，然后從預先批準的回復片段里拼出一個回應。這些片段可以很有趣，但也重復、無聊——用一個詞來說就是“很機械”。對一款定位社交和家庭的機器人來說，這是硬傷。

此后發生的事情大家都知道了：機器生成語言的方式發生了一場革命。如今任何一家頭部 AI 公司的語音模式都已經做到了引人入勝、令人印象深刻，多家硬件初創公司正在嘗試（但大多失敗）打造利用這項能力的產品。

但新能力也帶來新風險：預設腳本的對話不太會跑偏，AI 生成的對話就不一定了。比如一些流行的 AI 玩具就曾跟孩子聊過如何找到火柴和刀。

OpenAI - Dactyl

一只用仿真訓練的機器手，嘗試模擬真實世界的不可預測性和變化。

到 2018 年，所有頂尖機器人實驗室都在努力拋棄舊式的腳本規則，轉而通過試錯來訓練機器人。OpenAI 嘗試在虛擬環境中訓練它的機器手 Dactyl——用機器手和手掌大小的立方體的數字模型。立方體的每個面上有字母和數字，模型可能設定一個任務，比如“轉動立方體，讓帶有字母 O 的紅色面朝上”。

（來源：麻省理工科技評論）

問題在于：機器手可能在仿真世界里做得非常好，但當你把這個程序拿到現實世界、讓它操作真正的立方體時，兩個世界之間的細微差異就可能導致失靈。顏色可能略有不同，機器人指尖的可變形橡膠可能比仿真里的更有彈性。

解決方案叫做“域隨機化”（domain randomization）：你本質上是創造出幾百萬個略有差異的仿真世界，每個世界里的摩擦力、光照、顏色都被隨機調整；接觸了足夠多的變化之后，機器人在真實世界中操控立方體的能力就會更強。這個方法在 Dactyl 上成功了。一年后它用同樣的核心技術完成了更難的任務：解魔方（盡管成功率只有 60%，面對特別復雜的打亂時只有 20%）。

不過仿真技術有其局限性，這種方法在今天扮演的角色已經比 2018 年小得多了。OpenAI 在 2021 年關閉了機器人業務，但最近重新啟動了這個部門，據報道正在聚焦人形機器人。

Google DeepMind - RT-2

從互聯網上的海量圖片中學習，幫助機器人把語言指令轉化為動作。

2022 年前后，Google 的機器人團隊在做一些有點奇怪的事情。他們花了 17 個月，把機器人遙控器交給人類，拍下他們做各種事情的視頻——從拿起薯片袋到開罐頭。團隊最終編錄了 700 種不同的任務。

（來源：麻省理工科技評論）

Google 的目的是構建和測試機器人領域最早的大規模基礎模型之一。思路和大語言模型類似：把大量文本輸入進去，將其標記化為算法能處理的格式，然后生成輸出。Google 的 RT-1 接收的輸入包括機器人看到的畫面和機械臂各部件的位置信息，然后接受一條指令，將其轉化為驅動機器人運動的指令。對于見過的任務，它的成功率達到 97%；對于沒見過的指令，成功率也有 76%。

第二代 RT-2 在次年發布，走得更遠。它不再只用機器人專屬的數據來訓練，而是擴大了范圍：像當時很多研究者在做的視覺-語言模型一樣，它在互聯網上的通用圖片上訓練，這讓機器人能夠理解場景中各種物體在哪里。

“一大堆新能力突然被解鎖了，”Google DeepMind 的機器人學家卡尼什卡·拉奧（Kanishka Rao）說。他主導了兩代模型的開發。“我們現在能執行‘把可樂罐放到泰勒·斯威夫特的照片旁邊’這種指令了。”

2025 年，Google DeepMind 進一步融合了大語言模型和機器人的世界，發布了 Gemini Robotics 模型，在理解自然語言指令方面有了進一步提升。

Covariant - RFM-1

2017 年，在 OpenAI 關閉第一支機器人團隊之前，一批工程師從中拆分出來，創辦了一個叫 Covariant 的項目。他們的目標不是造科幻片里的人形機器人，而是造最務實的那種：一條能在倉庫里拿東西、搬東西的機械臂。Covariant 構建了一套類似 Google 基礎模型思路的系統，把它部署到 Crate & Barrel 等公司運營的倉庫里，同時把這些倉庫當作數據采集管道。

到 2024 年，Covariant 發布了一款機器人模型 RFM-1，你可以像跟同事說話一樣跟它互動。比如你先給機械臂看一堆筒裝網球，然后讓它把每一筒分別放到不同的區域。機器人還能做出回應——比如預判自己可能抓不穩這個物品，然后主動問你應該用哪種吸盤。

這類交互在實驗室里做過，但 Covariant 是在大規模的真實環境中落地。公司在每個客戶的場地都部署了攝像頭和數據采集設備，源源不斷地給模型反饋更多訓練數據。

（來源：麻省理工科技評論）

它還不完美。2024 年 3 月的一次演示中，面前擺著一堆廚房用品，機器人被要求把香蕉放回原來的位置。它先拿起一塊海綿，又拿起一個蘋果，接著又拿了一堆別的東西，折騰半天才完成任務。

聯合創始人 Peter Chen 當時告訴我，它“還不理解回溯自己步驟這個新概念。但這是個很好的例子——在缺乏好的訓練數據的場景里，它可能還不太行。”

Peter Chen 和另一位聯合創始人彼得·阿貝爾（Pieter Abbeel）后來被亞馬遜聘用。亞馬遜目前在許可使用 Covariant 的機器人模型（亞馬遜沒有回應關于具體用途的提問，但該公司僅在美國就運營著大約 1300 座倉庫）。

Agility Robotics - Digit

多家企業正把這款人形機器人投入真實工作場景。

涌入機器人初創公司的新一輪投資，主要瞄準的不是燈狀或臂狀的機器人，而是人形的。人形機器人理論上可以無縫進入人類目前工作的空間和崗位，不用為了適應什么巨型機械臂之類的新形態去改造流水線。

說起來容易做起來難。在人形機器人確實出現在真實倉庫中的少數案例里，它們往往被限制在測試區和試點項目中。

（來源：麻省理工科技評論）

不過 Agility 的人形機器人 Digit 確實在做一些真正的活。它的一些設計更多是出于功能考慮而非科幻審美，例如裸露的關節、頭部明顯不像人等。亞馬遜、豐田和 GXO（一家物流巨頭，客戶包括蘋果和耐克）都部署了 Digit，這讓它成為最早被企業視為“真的能省錢”而不只是新奇噱頭的人形機器人之一。它們每天的工作就是搬運、移動和堆疊貨運周轉箱。

不過目前的 Digit 離硅谷押注的那種“像人一樣的幫手”還差得遠。比如它只能搬起 35 磅的東西，而且每次 Agility 把 Digit 做得更有力，電池就更重，充電就更頻繁。標準制定機構也表示，人形機器人需要比大多數工業機器人更嚴格的安全規則，因為它們被設計成可以移動的，而且會長時間在人類身邊工作。

但 Digit 說明了一件事：這場機器人訓練的革命并沒有匯聚到某一種單一方法上。Agility 依賴的仿真技術和 OpenAI 訓練機器手時用的類似，同時公司也在和 Google 的 Gemini 模型合作，幫助機器人適應新環境。十多年的實驗把整個行業帶到了今天這個節點：現在，它們開始想把機器人造得越來越大。

https://www.technologyreview.com/2026/04/17/1135416/how-robots-learn-brief-contemporary-history/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.