網易首頁 > 網易號 > 正文申請入駐

具身智能數據基建升級！神經腕帶+全景頭環，補全物理操作信號

2026-06-12 10:10:12　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導讀】具身智能正在從實驗室演示走向真實場景。越往真實世界走，數據問題越明顯：視頻能看到動作結果，動捕能記錄軌跡，機器人日志能記錄執行，但它們往往很難完整捕捉人類操作背后的意圖、發力趨勢、微控制和反饋修正。圍繞這一缺口，一類新的人類操控數據基建正在出現。

過去幾年，大模型證明了一件事：數據不僅是訓練材料，也是能力邊界本身。

文本模型吃下互聯網文本和代碼，獲得語言、推理和編程能力；自動駕駛模型依賴真實道路數據，持續學習復雜交通環境；多模態模型則從圖像、視頻和語音里獲得對世界表象的理解。

但當AI進入物理世界，問題變得更難。

具身智能要學習的不是一句話、一個圖片標簽或一段視頻摘要，而是如何在真實世界中行動：如何抓起易碎物體，如何擰開瓶蓋，如何插入接口，如何在接觸后微調角度，如何在失敗時重新選擇動作。

這些能力背后，缺的不只是更大的模型和更貴的機器人本體，還有一種更底層的數據：人類如何操控物理世界的數據。

這也是為什么，Physical AI所需的數據規模，很可能最終遠遠超過大語言模型。

LLM訓練所依賴的語言數據，本質上是高度壓縮后的符號數據：一本書、一篇論文、一段代碼，都是人類把經驗整理成文字后的結果。它密度高、可復制、可檢索，也相對「廉價」。

但身體經驗不是這樣。一個人一生讀過的文字，按存儲量粗略估算也許只是幾十GB；而他從小到大接收的視覺輸入、肌肉控制信號、觸覺反饋和身體交互經驗，可能是PB級甚至更高量級。人類通過身體學會抓握、平衡、接觸、避讓、用力和修正，這些數據大多沒有被寫進互聯網，也沒有被結構化記錄下來。

所以，Physical AI的難點不是簡單復制LLM的數據路線。語言模型吃的是人類已經壓縮過的知識；具身模型要補的，是尚未被充分記錄的人類身體交互數據。

政策和產業

把具身智能推向真實場景

工信部《人形機器人創新發展指導意見》已將人形機器人定位為未來產業方向，并提出建設大模型訓練數據庫、擴充高質量多模態數據。2026 年度人形機器人與具身智能實景實訓專項行動則進一步強調「實景實訓、數據沉淀、產品迭代、規模部署」的閉環，并要求建設高質量、高保真數據集。

這意味著，具身智能不再只是展臺上的演示問題，而是要進入生產制造、倉儲物流、醫療康養、應急救援等真實場景。

真實場景一旦打開，數據瓶頸就會變得很尖銳。

在實驗室里，機器人可以在固定光照、固定物體、固定軌跡下完成任務；在現實里，物體會遮擋，材質會變化，人的動作會臨時調整，接觸狀態也會不斷改變。模型要從模仿動作走向理解操作，必須擁有更接近真實操控過程的數據。

所以，具身智能的競爭正在從三個層面展開：

機器人本體，解決能不能執行；
模型算法，解決能不能規劃和泛化；
數據基礎設施，解決能不能持續獲得可訓練、可復用、可治理的真實操作數據。

第三層，正在成為新的關鍵變量。

換句話說，Physical AI 的終局競爭不會只發生在機器人本體上，而會越來越多地發生在數據源頭上。未來具身模型需要的數據量可能遠超大語言模型，而高質量的人類操作數據，正在成為全球最稀缺的戰略資源之一。

從結果數據走向人類操控數據

今天的具身數據采集方法大致有幾類。

第一類是視頻和第一視角數據。它們可以記錄環境、物體和人的動作過程，成本相對低，也容易規模化。但視頻主要看到的是外部結果。手被物體遮住、動作發生在邊緣視角、手指產生細小變化時，關鍵操控信息可能丟失。

第二類是動捕、數據手套、外骨骼和專業遙操作系統。它們可以獲得更精確的姿態、軌跡或控制量，但通常穿戴復雜、部署成本高，對自然操作有干擾，也不容易進入大規模日常任務。

第三類是機器人真機日志。它記錄的是機器人執行了什么、關節如何變化、任務是否完成。但它往往回答不了更前置的問題：在人類示教或操作時，人的意圖如何形成，什么時候準備發力，接觸后又如何微調？

換句話說，很多現有數據記錄的是動作結果，而不是操控過程。

一次真實的人類操作，其實包含多個層次：

意圖：人準備做什么；
姿態：手和身體如何運動；
發力趨勢：肌肉激活和接觸狀態如何變化；
微控制：接觸后怎樣修正、補力、調整方向；
結果：任務是否完成，物體和環境發生了什么變化。

如果只記錄最后的軌跡或視頻，很多關鍵過程會被壓縮掉。對精細操作來說，這些被壓縮掉的信息，可能正是模型最需要學習的東西。

EMG補上Manipulation Intelligence拼圖

EMG，也就是肌電信號，是肌肉活動相關的電信號。腕部或前臂的表面肌電可以在非侵入條件下捕捉部分運動意圖、肌肉激活和控制變化。

2025 年 Nature 論文《A generic non-invasive neuromotor interface for human-computer interaction》展示了腕部 sEMG 用于連續控制、離散輸入和文本輸入的潛力，并討論了 sEMG 對意向運動信號和手勢力相關信息的捕捉價值。

論文鏈接：https://www.nature.com/articles/s41586-025-09255-w

EMG 不等同于觸覺傳感器或真實力傳感器。它更適合被理解為一種人端估計信號：它不能直接告訴我們物體受到了多少牛頓的力，但可以為人準備怎樣發力、肌肉激活如何變化、動作是否發生微調提供線索。這恰恰是它的價值所在。

在具身智能數據中，視覺、動捕、機器人日志和觸覺傳感器各自回答不同問題：

視覺回答：看到了什么；
動捕回答：動作在哪里發生；
機器人日志回答：機器執行了什么；
觸覺/力傳感器回答：接觸和真實受力如何變化；
EMG 補充：人端意圖和發力趨勢如何形成。

當這些信號被放到同一條時間軸上，數據就不再只是分散的傳感器記錄，而更接近一次真實操作的完整過程。

神經腕帶+全景頭環

一種輕量化采集入口

從人形機器人的全身操作系統，到軟件仿生靈巧手，再到機器人攝像頭防抖、室內空間數據采集和物理因果數據引擎，不同團隊幾乎都在試圖為Physical AI補上一塊關鍵拼圖。

而在這些路徑之外，北京大學秦旭團隊，則把視線進一步拉回到「人類如何操控世界」本身，提出面向Physical AI的人類操控數據平臺。

其路徑是以極具創新性的可穿戴硬件組合作為入口，從肌電與運動神經信號解碼切入，通過神經腕帶、全景頭環等設備，持續采集真實世界中的人類操控過程，并將其沉淀為意圖、姿態、發力趨勢、微控制與反饋修正等結構化數據。

這套方案的關鍵，是把人類自然操作變成可采集、可同步、可訓練的數據流。其中，神經腕帶負責捕捉前臂相關的運動神經/肌電信號；全景頭環記錄第一視角下的環境、對象和任務上下文；如果再結合手部姿態、腕部視覺、IMU、機器人日志或接觸傳感器，就可以形成更完整的多模態操控數據。

舉個簡單例子：

一個人拿起杯子。視頻能看到手靠近杯子、杯子被拿起；姿態數據能看到手腕和手指的位置變化；如果有觸覺或力傳感器，可以看到接觸與受力；EMG 則可以補充動作發生前后的肌肉激活和發力趨勢線索。

真正有價值的不是某一個信號，而是這些信號的同步。

對機器人來說，同步后的數據能幫助模型理解：在什么視覺環境下，人為什么這樣伸手，如何預備發力，接觸后如何修正，最后任務為什么成功或失敗。

這就是人類操控數據平臺的意義。它不是一個硬件外設，也不是一個單一數據集，而是面向 Physical AI 的數據采集和結構化能力。

神經腕帶 + 全景頭環的應用

第一類應用，是機器人訓練和示教。

精細操作任務中，單純的視頻模仿常常不夠。插拔、擰動、按壓、抓取柔軟物體、使用工具等任務，都涉及接觸狀態、發力變化和連續修正。人端操控數據可以為模型提供更豐富的監督信號。

第二類應用，是 AI 眼鏡、XR 和智能設備交互。

語音不適合所有場景，觸屏和手柄也不能覆蓋所有操作需求。神經腕帶作為低摩擦、低打擾的輸入方式，可以讓設備理解手勢、意圖和微控制，成為空間計算和智能終端的新交互入口。

第三類應用，是真實場景數據集建設。

實景實訓強調從真實場景中積累高質量數據。人端操控數據可以補足傳統視頻和機器人日志之外的信號層，讓數據集從「看見動作」升級到「理解操作」。

第四類應用，是數據產品和基礎設施。

如果一套采集方案能持續沉淀跨任務、跨場景、跨用戶的數據，它就不只是設備銷售，而可能變成面向機器人公司、模型團隊、AI 眼鏡廠商和工業場景的數據模塊。這也是雪夢未來試圖強調的方向：短期是人機交互和具身數采，長期是 Human Manipulation Data Layer。

從看見動作

到理解操控

具身智能的下一階段，不會只由更大模型或更強本體決定。

模型需要真實世界的數據，本體需要真實場景的驗證，而真實場景又需要可持續、可治理、可復用的數據采集基礎設施。

視頻、動捕、遙操作、機器人日志都不會被替代。它們仍然是重要數據來源。但如果 AI 要更深入地理解人類如何操作物理世界，就需要補上動作結果背后的信號：意圖、發力趨勢、微控制和反饋修正。

EMG + Ego 視覺 + 姿態同步，是一種早期但值得關注的路徑。

它讓人不只是機器人要服務的對象，也成為 Physical AI 學習物理操作的重要數據源。從這個意義上說，具身智能真正的底座，可能不只是機器人本體，也不只是模型參數，而是高質量、可規模化的人類操控數據。

短期看，人類操控數據可為具身智能、AI眼鏡和智能設備提供更自然的人機交互入口，降低操作門檻，提升連續性與低打擾體驗；長期看，它指向一層新的物理世界數據基礎設施，讓AI不只理解文本和圖像，也理解人類如何真實地與世界交互。

Physical AI的下一步，或許不只是把動作做得更像人，而是開始真正理解動作背后的操控邏輯與人類意圖。那些決定成敗的關鍵，很多時候并不寫在最終結果里，而藏在動作發生前的判斷、接觸瞬間的微調，以及一次次反饋中的修正之中。

只有當AI學會的不再只是動作的外形，而是人如何發起、控制并完成一次真實操作，它才有可能從演示走向現實，真正進入那個復雜、開放、始終變化著的物理世界。

參考資料：

編輯：LRST

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.