網易首頁 > 網易號 > 正文申請入駐

3000塊錢，這支中國團隊把ChatGPT成功的“秘密”用在了機器人訓練上

2026-06-30 10:09:38　來源: AI前線

北京舉報

分享至

作者 | 華衛

兩年時間，大語言模型橫掃全球。而機器人發展了幾十年，依然難以走出實驗室。問題可能出在，機器人還沒有屬于自己的“數據互聯網”。

對 ChatGPT 來說，其核心架構 Transformer 是 Google 在 2017 年提出的；OpenAI 做對的，是另一件事：把數據規模推到前所未有的量級，核心要素就是海量、低成本、易獲取的互聯網文本數據。僅有規模還不夠，OpenAI 在 ChatGPT 訓練過程中設計了一套數據反饋鏈路策略 RLHF。當模型參數足夠大、有效數據足夠多，智能就“涌現”了。

機器人訓練要實現類似的突破，或許也需要一場精妙的數據策略：不僅要有足夠的數據，精度也得夠。然而，在當前具身智能領域中，雖然已經出現大量訓練場和數據采集中心，但真正可用于訓練的數據規模仍十分有限。

與大模型能依賴互聯網公開數據不同，機器人數據從一開始就很“貴”。傳統機器人訓練要么需要請專家寫代碼，要么需要專業的遙操作設備、光學動捕系統、力矩傳感器來采集數據，這些設備加在一起，少則幾十萬，多則上百萬。更麻煩的是，每家廠商的機械臂，電機、力矩、尺寸都不一樣，在 A 機器人上采的數據，到 B 機器人上可能完全不能用。每一臺機器人本體，都是一座“孤島”。仿真數據成本低，但離現實的“鴻溝”不小：在仿真環境里練得很好機器人，放到現實世界可能就失靈了。

2024 年，斯坦福 UMI 抓夾開源，行業一度沸騰。一套 3D 打印的塑料架綁上一個 GoPro 相機，成本只需要 400 美元（約合 2800 元人民幣），證明了“低成本采集”這條路走得通。然而，UMI 有自己的天花板。其精度只有厘米級，抓個積木、疊件衣服還行，但像擰螺絲、穿針引線、精密裝配，但凡需要“手感”的任務，UMI 就訓不出來了。并且，它只能單臂操作，而人類 80%以上的日常操作場景需要雙手協同。

現在，國內一支團隊拿出了一套千元級的手持采集系統 UMI ver.2 并將其開源。這套系統不僅是能實現毫米級精度、雙臂協同的真正生產力工具，價格還只有傳統方案的 1/100、甚至更低。在成本已經被 UMI 打下來的基礎上，UMIver.2 把精度和維度也提上去了。

項目地址：

https://github.com/qiongming-intelligence/UMI

https://gitee.com/QiongMing-Intelligent/UMI

這支團隊來自穹明智能，由“前華為天才少年”李元慶領銜，成立于 2025 年底。短短兩年內，團隊在具身智能數據定義與工具鏈開發取得顯著突破，首次提出“伴隨式數據采集”理念，自研外骨骼設備 CoMiner、口袋機 RoboPocket 等數采設備，并與優必選等頭部人形機器人企業、地方大型數采中心及跨國數采基地達成戰略合作。同時，穹明智能還推出了搭載自研大腦的軟硬件一體解決方案，并在酒店服務、零售藥房等真實場景中批量部署。

在與穹明智能團隊的獨家對話中，我們獲悉了更多關于這套千元級系統背后的深層思考，包括技術策略、開源背后的決策與成本控制方面的取舍。

毫米級精度的數采，

成本怎么壓到千元級？

首先，UMI ver.2 的優勢很直接地體現在參數上：精度達到毫米級定位，誤差控制在 0.5mm 以內，較上一代 UMI 實現了十倍以上的躍升。該精度水平已能夠覆蓋大多數精細操作類具身任務的數據采集需求。

“我們其實是把機器人學習看成一個系統性問題。從底層數據一直到算法、再到評估和部署，是一個不斷循環的過程，每一個環節都會影響最終效果。但如果回到本質，機器人學習仍然是深度學習問題，而深度學習本質上是‘數據的游戲’，好的數據才會帶來好的模型。”

穹明智能技術探索負責人高圓寺表示，其目標場景是家庭，這類場景的特點是任務長、操作復雜，對數據質量要求非常高。傳統的遙操作方式雖然精確，但成本高，而且人的動作并不總能被機器人真實復現。所以他選擇從數據側切入，用 UMI 這種“無本體采集”的方式，它和機器人本體是解耦的，更適合在家庭的真實環境中做數據采集，把數據規模先做上去。“算法當然也重要，但我們更傾向于先把數據理解清楚，再通過迭代去不斷優化模型。”

UMI 有一個行業默認的痛點：數據有效率低。采集了 100 個小時，真正可用的可能只有 10 個小時。對此，穹明智能團隊的做法是：將提升 UMI 數據的可用性提升當作一個系統工程，從多個方面展開來解決問題。

一是多傳感器之間的同步和對齊，包括硬件層面的時間同步以及軟件層面的標定。二是視覺數據本身的質量，比如視頻需要有足夠大的視場角，避免操作過程中出現盲區；同時，自動曝光必須收斂快，例如在光照復雜的家庭場景，如果曝光跟不上，數據很容易失效。另外，位姿估計方案也很關鍵，團隊評估后認為 SLAM 的精度在家庭場景會下降，紅外方案更為合適。

“我們把 SOP 定義得很細，從源頭去保證數據質量。”高圓寺解釋道，采集流程本身經常被忽略，如果操作不規范，比如動作過快，數據同樣會失效。

而與此同時，UMI ver.2 的整機成本才不到 3000 元，相比傳統動捕方案可以節省 90%以上成本，并且全套硬件透明可采購。更關鍵的是，部署效率極高，僅需 30 分鐘就能跑通全流程，接近于一套可快速復制的數據生產基礎設施。這意味著，原本集中在少數機構手中的高質量數據采集能力，具備了向更廣泛開發者與中小團隊擴散的可能。

“我們不是為了低成本而低成本，而是我們對 UMI 數據的定位讓我們選擇了當下的方案。”高圓寺強調。據透露，從訓練通用具身模型的角度來看，真正需要的是多源異構數據，如遙操作數據、UMI 數據、仿真數據、互聯網數據等，不同構型的數據對于模型有不同貢獻。

在穹明智能團隊看來，不追求 UMI 采的數據能夠一次性訓練出高精度泛化模型，只要讓模型理解人類操作意圖就可以了，不一定要達到亞毫米級別的精度。因此在硬件選型上，他們的原則是在保證數據對齊和視頻質量的前提下，盡量選用實惠的組件。同時，團隊在整個訓練 pipeline 上做了優化，讓 UMI 數據能和真實機器人數據對齊。

完全對外開放，

“開源是勇敢者的游戲”

一套不到 3000 元的系統，精度做到毫米級，還能雙臂協同。但真正決定它能走多遠的，可能是生態：有沒有足夠多的人和公司使用這套系統，并在這個體系里持續貢獻和迭代。

“達到最終通用模型的數據規模大到堪比一個‘登月工程’。”高圓寺很直接地指出，這些數據不可能靠幾家初創公司或大廠在內部就能采集完成，需要大家一起參與進來，把大家的日常行為都記錄下來。甚至從理想狀態來看，可能需要把大家日常生活中的行為逐步記錄下來，才能覆蓋真正需要的數據多樣性分布。

因此，穹明智能團隊的選擇是：徹底開源。“我們一開始也有點糾結，最終大家還是達成一致。所有源碼、硬件清單、部署教程、訓練推理流程完全開放，用戶可自由使用、修改、分發，二次開發衍生作品需以同等協議開源，保障社區共享與技術普惠。”

穹明智能品牌與開發者生態負責人郁蔥蔥透露了這個決定背后的考量：“現在我們看到這個行業是由少數公司推動，或許未來會變成整個生態的持續迭代加速，那個時候不再只是比‘誰技術更強’，而是誰打造了更好的生態圈，站在了生態的中心。”

他也坦言，開源存在風險，比如協議違規與商用濫用、技術碎片化導致難以形成統一標準、未經驗證的修改引發設備損壞或安全隱患、社區維護壓力影響版本迭代與體驗、高精度定位能力被用于非合規場景。

“開源是勇敢者的游戲。”在穹明智能團隊看來，這些風險并不意味著開源本身不可行，關鍵在于如何通過更清晰的協議約束、分層的能力開放機制以及社區共建的治理體系，把不確定性收斂在可控范圍內。

據介紹，UMI ver.2 將明確采用 GNU General Public License Version 3（GPLv3）開源協議。GPL-3.0 是目前最嚴格的開源協議之一，相比 GPL-2.0，它進一步增強了對開發者和開源社區的保護，特別是在專利和許可證兼容性方面。

該團隊對理想開源生態的想象，是一個全棧開放的完整體系：硬件 BOM 清單公開、成本可控、配件通用，不到 3000 元即可完整復現；軟件全開放，驅動、采集、校準、訓練、推理全鏈路代碼開源，兼容 LeRobot 等主流框架，降低二次開發門檻；示范數據、預訓練模型、配置文件共享，支撐跨機型遷移；兼顧共享與商用邊界，鼓勵學術與商業協同創新，不設技術壁壘；生態平等，小團隊、高校、企業同一起跑線，人人可搭建專業級具身智能平臺。

圍繞這一體系，穹明智能希望推動的，是一套可規模化復制的基礎設施：低成本批量部署在高校與實驗室，30 分鐘內搭建毫米級數據采集能力；支持更多單 / 雙臂機器人平臺，形成統一數據采集與格式標準；開發者共同優化精度、穩定性與易用性，貢獻案例、修復問題、共建工具鏈；在精密裝配、小件組裝、工業驗證、教學實驗等場景形成“采集—訓練—部署—反饋”閉環；推動毫米級動捕采集、空間校準流程成為通用規范。

值得期待的是，擁有開放生態的 UMI ver.2，未來有望成為全球具身智能領域通用低成本數據采集基建，支撐海量高質量示范數據生產的同時，形成開箱即用的機器人通用技能庫，不僅能一鍵復現抓取、開箱、擰螺絲、精密插接等任務，還將推動產學研用深度協同，中小企業低成本實現機器人智能升級。

新的模型范式，很快就會出現

穹明智能團隊下一階段最核心的目標，是完成整個機器人數據 infra 的搭建，并跑通一個完整的閉環。機器人數據本身是高度異構的，遙操作數據、UMI 數據、仿真數據、互聯網數據等每一種都有不同的特性和適用場景，他們要做的就是把每一種類型的異構數據都跑通，搞清楚它應該應用在什么樣的場景里，然后沉淀為一套 infra。

“我們相信，有了這樣一個強大的 infra 之后，很多更有意思的能力，其實是會自然‘長’出來的。”高圓寺表示，等這套 infra 相對成熟之后，他們也會考慮把這部分能力一起開源出來，讓更多人可以參與去共建，不管是提交數據還是一起去改進。

如果數據規模真的跨過了那道門檻，機器人領域會不會也長出一個“基礎模型”？這個問題，我們拋給了穹明智能總經理、樂享科技聯席 CTO 李元慶。“我個人是比較相信機器人基礎模型會出現的。”但他隨即補充了一個判斷：即便有了“技能權重”，事情也不會像想象中那么簡單。每個用戶的使用環境和習慣差異非常大，物品擺放、空間布局、以及細微的個人偏好都會對最終執行效果產生影響。即便同一個技能，在不同用戶那里也往往需要做一定程度的個性化調整。

“對于疊衣服、做菜這類通用任務，如果基礎模型真的強到只需下載技能權重就能做到，那自然是理想的。但目前來看，短期內通用任務也仍然需要一定程度的微調。即便在各種強化學習、動作生成策略、世界模型不斷進步的情況下，其成功率仍然有提升空間。”

談及未來的機器人能力，李元慶表示，哪怕未來模型真的已經非常成熟，甚至機器人已經非常接近類似 AGI 的狀態，整個能力體系大概還是會分成三個層次。第一層是基礎模型，其價值在于提高基礎任務的成功率，同時盡可能減少后續反復“再教一遍”的成本以及 post-training 或者二次微調的時間和次數。

第二層是 post-training，在每個人的用戶習慣和具體場景之下，機器人沒見過的東西，還是要再教一遍，目標是讓機器人能夠穩定地在真實環境中落地。第三層是用戶本人的現場示范。對待一些特別復雜的操作，如按鍵方法和使用方式與常規物品不同的小眾設備，也需要由用戶本人或者在機器人旁邊的伙伴，現場再教它一次具體操作。

對于機器人領域的“ChatGPT 時刻”，穹明智能團隊內部的定義是：一個通用機器人模型或者整個機器人體系跨越了“玩具”、科研、demo 的階段，進入了一個大眾和產業都能夠明顯感知到“它比較實用”的階段，形成了開發者生態、數據飛輪和商業的真實爆發。“在今年年底到 2027 年之間，有機會出現這樣一個拐點。行業里現在的共識是，整個賽道可能處于從 GPT-2 的階段慢慢走到 GPT-3 階段前夜的狀態。”李元慶說道。

此外，高圓寺提供了一個更底層視角的觀察：ChatGPT 成功本質上是把“下一個詞元預測”這件事規模化到了極致。那個時間點其實完成了兩件事，一個是有了 Transformer 這樣一個非常強大的序列到序列模型，二是把所有語言問題都統一形式化成“下一個詞元預測”。他表示，從目前的進展來看，“無本體”數據采集方式的出現，會大大加速數據規模的獲取，數量在飛速地 scale up 上去。

“對應到機器人領域，一個關鍵問題是：我們是不是已經有了類似 Transformer 這樣的‘統一模型’？我個人的判斷是，其實已經非常接近這個時刻了，也就是出現一個真正適用于機器人操作或者導航任務的通用模型。但數據這一層還需要大量更多探索，不只是規模問題，也包括我們到底該怎么理解數據，比如數據該如何評估、應該包含哪些模態。不過應該也很快了，今年或者明年應該就會有新的范式出現。”

李元慶也同意這個判斷，他認為 2026 年底會出現一批“比較可用”的機器人基礎模型；2027 到 2028 年之間，會出現更成熟、更穩定的模型形態。但他也強調，現在模型和數據集架構還在快速變化，沒有完全地定型。好消息是，已經有任務跑出了明確的結果。“在一些單一任務、鏈條比較短的操作場景里，成功率已經可以接近 95%，而且在實際執行中已經能完成一些不錯的工作了。”

幾十萬的設備只能服務少數精英實驗室，幾千元的設備卻可以服務整個行業。UMI ver.2 的出現，令高精度數據采集的成本降到了千元級，機器人訓練開始具備“復刻 ChatGPT 路徑”的群眾基礎。

正如李元慶在采訪中所說，“機器人賽道本身是非常典型的‘長坡厚雪’狀態。”機器人的“ChatGPT 時刻”，或許還需要一個類似 Transformer 的架構突破。但“數據”這個最原始的問題，已經被撬開了一道口子。

受訪者介紹

李元慶穹明智能總經理、樂享科技聯席 CTO

專注具身智能領域，前華為“天才少年”，前華為云具身智能具身規劃負責人、ROBO_AGENT 負責人，先后參與芯片、盤古大模型等項目， 36 氪 2026 年度 36 Under 36 榜單入選者，目前帶領團隊負責核心技術攻關，聚焦家庭具身智能產品研發，推動多機異構技術路線落地。

高圓寺穹明智能技術探索負責人

郁蔥蔥穹明智能品牌與開發者生態負責人

前字節數據平臺開源社區運營負責人、前騰訊云開源社區運營專家，在字節期間主導數據平臺第一個開源項目：BitSail（數據集成），帶領團隊獲得 CSDN 年度開源影響力項目與 InfoQ 杰出開源運營團隊。負責構建騰訊云發起的 OpenCloudOS 開源操作系統社區治理框架，聯合上下游多家軟硬件企業推動社區社區治理架構成搭建與運營。

聲明：本文為 AI 前線原創，不代表平臺觀點，也不構成投資建議，未經許可禁止轉載。

會議推薦

大會限時早鳥票享 8 折專屬優惠，現在報名立減 1160，更多詳情可掃碼或聯系票務經理 13269078023 進行咨詢。

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.