![]()
新智元報道
![]()
【新智元導讀】具身智能正在從實驗室演示走向真實場景。越往真實世界走,數據問題越明顯:視頻能看到動作結果,動捕能記錄軌跡,機器人日志能記錄執行,但它們往往很難完整捕捉人類操作背后的意圖、發力趨勢、微控制和反饋修正。圍繞這一缺口,一類新的人類操控數據基建正在出現。
過去幾年,大模型證明了一件事:數據不僅是訓練材料,也是能力邊界本身。
文本模型吃下互聯網文本和代碼,獲得語言、推理和編程能力;自動駕駛模型依賴真實道路數據,持續學習復雜交通環境;多模態模型則從圖像、視頻和語音里獲得對世界表象的理解。
但當AI進入物理世界,問題變得更難。
具身智能要學習的不是一句話、一個圖片標簽或一段視頻摘要,而是如何在真實世界中行動:如何抓起易碎物體,如何擰開瓶蓋,如何插入接口,如何在接觸后微調角度,如何在失敗時重新選擇動作。
這些能力背后,缺的不只是更大的模型和更貴的機器人本體,還有一種更底層的數據:人類如何操控物理世界的數據。
這也是為什么,Physical AI所需的數據規模,很可能最終遠遠超過大語言模型。
LLM訓練所依賴的語言數據,本質上是高度壓縮后的符號數據:一本書、一篇論文、一段代碼,都是人類把經驗整理成文字后的結果。它密度高、可復制、可檢索,也相對「廉價」。
但身體經驗不是這樣。一個人一生讀過的文字,按存儲量粗略估算也許只是幾十GB;而他從小到大接收的視覺輸入、肌肉控制信號、觸覺反饋和身體交互經驗,可能是PB級甚至更高量級。人類通過身體學會抓握、平衡、接觸、避讓、用力和修正,這些數據大多沒有被寫進互聯網,也沒有被結構化記錄下來。
所以,Physical AI的難點不是簡單復制LLM的數據路線。語言模型吃的是人類已經壓縮過的知識;具身模型要補的,是尚未被充分記錄的人類身體交互數據。
政策和產業
把具身智能推向真實場景
工信部《人形機器人創新發展指導意見》已將人形機器人定位為未來產業方向,并提出建設大模型訓練數據庫、擴充高質量多模態數據。2026 年度人形機器人與具身智能實景實訓專項行動則進一步強調「實景實訓、數據沉淀、產品迭代、規模部署」的閉環,并要求建設高質量、高保真數據集。
這意味著,具身智能不再只是展臺上的演示問題,而是要進入生產制造、倉儲物流、醫療康養、應急救援等真實場景。
真實場景一旦打開,數據瓶頸就會變得很尖銳。
在實驗室里,機器人可以在固定光照、固定物體、固定軌跡下完成任務;在現實里,物體會遮擋,材質會變化,人的動作會臨時調整,接觸狀態也會不斷改變。模型要從模仿動作走向理解操作,必須擁有更接近真實操控過程的數據。
所以,具身智能的競爭正在從三個層面展開:
機器人本體,解決能不能執行;
模型算法,解決能不能規劃和泛化;
數據基礎設施,解決能不能持續獲得可訓練、可復用、可治理的真實操作數據。
第三層,正在成為新的關鍵變量。
換句話說,Physical AI 的終局競爭不會只發生在機器人本體上,而會越來越多地發生在數據源頭上。未來具身模型需要的數據量可能遠超大語言模型,而高質量的人類操作數據,正在成為全球最稀缺的戰略資源之一。
從結果數據走向人類操控數據
今天的具身數據采集方法大致有幾類。
第一類是視頻和第一視角數據。它們可以記錄環境、物體和人的動作過程,成本相對低,也容易規模化。但視頻主要看到的是外部結果。手被物體遮住、動作發生在邊緣視角、手指產生細小變化時,關鍵操控信息可能丟失。
第二類是動捕、數據手套、外骨骼和專業遙操作系統。它們可以獲得更精確的姿態、軌跡或控制量,但通常穿戴復雜、部署成本高,對自然操作有干擾,也不容易進入大規模日常任務。
第三類是機器人真機日志。它記錄的是機器人執行了什么、關節如何變化、任務是否完成。但它往往回答不了更前置的問題:在人類示教或操作時,人的意圖如何形成,什么時候準備發力,接觸后又如何微調?
換句話說,很多現有數據記錄的是動作結果,而不是操控過程。
一次真實的人類操作,其實包含多個層次:
意圖:人準備做什么;
姿態:手和身體如何運動;
發力趨勢:肌肉激活和接觸狀態如何變化;
微控制:接觸后怎樣修正、補力、調整方向;
結果:任務是否完成,物體和環境發生了什么變化。
如果只記錄最后的軌跡或視頻,很多關鍵過程會被壓縮掉。對精細操作來說,這些被壓縮掉的信息,可能正是模型最需要學習的東西。
![]()
EMG補上Manipulation Intelligence拼圖
EMG,也就是肌電信號,是肌肉活動相關的電信號。腕部或前臂的表面肌電可以在非侵入條件下捕捉部分運動意圖、肌肉激活和控制變化。
2025 年 Nature 論文《A generic non-invasive neuromotor interface for human-computer interaction》展示了腕部 sEMG 用于連續控制、離散輸入和文本輸入的潛力,并討論了 sEMG 對意向運動信號和手勢力相關信息的捕捉價值。
![]()
論文鏈接:https://www.nature.com/articles/s41586-025-09255-w
EMG 不等同于觸覺傳感器或真實力傳感器。它更適合被理解為一種人端估計信號:它不能直接告訴我們物體受到了多少牛頓的力,但可以為人準備怎樣發力、肌肉激活如何變化、動作是否發生微調提供線索。這恰恰是它的價值所在。
在具身智能數據中,視覺、動捕、機器人日志和觸覺傳感器各自回答不同問題:
視覺回答:看到了什么;
動捕回答:動作在哪里發生;
機器人日志回答:機器執行了什么;
觸覺/力傳感器回答:接觸和真實受力如何變化;
EMG 補充:人端意圖和發力趨勢如何形成。
當這些信號被放到同一條時間軸上,數據就不再只是分散的傳感器記錄,而更接近一次真實操作的完整過程。
![]()
神經腕帶+全景頭環
一種輕量化采集入口
從人形機器人的全身操作系統,到軟件仿生靈巧手,再到機器人攝像頭防抖、室內空間數據采集和物理因果數據引擎,不同團隊幾乎都在試圖為Physical AI補上一塊關鍵拼圖。
而在這些路徑之外,北京大學秦旭團隊,則把視線進一步拉回到「人類如何操控世界」本身,提出面向Physical AI的人類操控數據平臺。
其路徑是以極具創新性的可穿戴硬件組合作為入口,從肌電與運動神經信號解碼切入,通過神經腕帶、全景頭環等設備,持續采集真實世界中的人類操控過程,并將其沉淀為意圖、姿態、發力趨勢、微控制與反饋修正等結構化數據。
![]()
這套方案的關鍵,是把人類自然操作變成可采集、可同步、可訓練的數據流。其中,神經腕帶負責捕捉前臂相關的運動神經/肌電信號;全景頭環記錄第一視角下的環境、對象和任務上下文;如果再結合手部姿態、腕部視覺、IMU、機器人日志或接觸傳感器,就可以形成更完整的多模態操控數據。
舉個簡單例子:
一個人拿起杯子。視頻能看到手靠近杯子、杯子被拿起;姿態數據能看到手腕和手指的位置變化;如果有觸覺或力傳感器,可以看到接觸與受力;EMG 則可以補充動作發生前后的肌肉激活和發力趨勢線索。
真正有價值的不是某一個信號,而是這些信號的同步。
對機器人來說,同步后的數據能幫助模型理解:在什么視覺環境下,人為什么這樣伸手,如何預備發力,接觸后如何修正,最后任務為什么成功或失敗。
這就是人類操控數據平臺的意義。它不是一個硬件外設,也不是一個單一數據集,而是面向 Physical AI 的數據采集和結構化能力。
神經腕帶 + 全景頭環的應用
第一類應用,是機器人訓練和示教。
精細操作任務中,單純的視頻模仿常常不夠。插拔、擰動、按壓、抓取柔軟物體、使用工具等任務,都涉及接觸狀態、發力變化和連續修正。人端操控數據可以為模型提供更豐富的監督信號。
第二類應用,是 AI 眼鏡、XR 和智能設備交互。
語音不適合所有場景,觸屏和手柄也不能覆蓋所有操作需求。神經腕帶作為低摩擦、低打擾的輸入方式,可以讓設備理解手勢、意圖和微控制,成為空間計算和智能終端的新交互入口。
第三類應用,是真實場景數據集建設。
實景實訓強調從真實場景中積累高質量數據。人端操控數據可以補足傳統視頻和機器人日志之外的信號層,讓數據集從「看見動作」升級到「理解操作」。
第四類應用,是數據產品和基礎設施。
如果一套采集方案能持續沉淀跨任務、跨場景、跨用戶的數據,它就不只是設備銷售,而可能變成面向機器人公司、模型團隊、AI 眼鏡廠商和工業場景的數據模塊。這也是雪夢未來試圖強調的方向:短期是人機交互和具身數采,長期是 Human Manipulation Data Layer。
從看見動作
到理解操控
具身智能的下一階段,不會只由更大模型或更強本體決定。
模型需要真實世界的數據,本體需要真實場景的驗證,而真實場景又需要可持續、可治理、可復用的數據采集基礎設施。
視頻、動捕、遙操作、機器人日志都不會被替代。它們仍然是重要數據來源。但如果 AI 要更深入地理解人類如何操作物理世界,就需要補上動作結果背后的信號:意圖、發力趨勢、微控制和反饋修正。
EMG + Ego 視覺 + 姿態同步,是一種早期但值得關注的路徑。
它讓人不只是機器人要服務的對象,也成為 Physical AI 學習物理操作的重要數據源。從這個意義上說,具身智能真正的底座,可能不只是機器人本體,也不只是模型參數,而是高質量、可規模化的人類操控數據。
![]()
短期看,人類操控數據可為具身智能、AI眼鏡和智能設備提供更自然的人機交互入口,降低操作門檻,提升連續性與低打擾體驗;長期看,它指向一層新的物理世界數據基礎設施,讓AI不只理解文本和圖像,也理解人類如何真實地與世界交互。
![]()
Physical AI的下一步,或許不只是把動作做得更像人,而是開始真正理解動作背后的操控邏輯與人類意圖。那些決定成敗的關鍵,很多時候并不寫在最終結果里,而藏在動作發生前的判斷、接觸瞬間的微調,以及一次次反饋中的修正之中。
只有當AI學會的不再只是動作的外形,而是人如何發起、控制并完成一次真實操作,它才有可能從演示走向現實,真正進入那個復雜、開放、始終變化著的物理世界。
參考資料:
編輯:LRST
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.