人形機器人領域又迎來重磅突破。
今天,Figure發布了其迄今為止能力最強的人形機器人模型Helix 02,用單一神經網絡實現了從像素輸入到全身控制的端到端系統,在一個全尺寸廚房里完成了長達4分鐘連續自主復雜任務執行。
![]()
Figure的官方X
這可能是迄今為止人形機器人自主完成的時間跨度最長、最復雜的任務。
這個4分鐘視頻展示了人形機器人走向洗碗機,取出餐具,穿過房間,將物品堆放在櫥柜中,最后裝載并啟動洗碗機。全程完全依靠板載傳感器,無人工干預:
![]()
![]()
更驚艷的是,Helix 02展示了真正的"全身作為工具"能力——當雙手被占用時,機器人會自然地用臀部關抽屜,用腳抬起洗碗機門。整個過程流暢自然,宛如真人。
![]()
![]()
在精細操作層面,借助Figure 03硬件上新增的掌心攝像頭和指尖觸覺傳感器,Helix 02完成了此前難以想象的任務:拿取單顆藥丸、精準注射5毫升液體、從雜亂物體中分揀小零件。
這些突破背后,是Figure全新的技術架構——在原有的System 1、System 2基礎上,新增了System 0,形成了一個完整的分層控制系統。
▍一個神經網絡,搞定人形機器人全身控制
人形機器人的移動操作(loco-manipulation)一直是業界公認的難題。難點不在于單獨實現行走或操作,而在于兩者的深度耦合——舉起物體時平衡會改變,向前邁步時夠取范圍也會變化,手臂和腿部時刻相互制約。
傳統解決方案通常采用狀態機,將行走和操作分離為不同的控制器:走、停、穩住、抓、再走。這種切換緩慢、邏輯脆弱,而且看起來極不自然。
![]()
Helix 02的架構
Figure的突破在于構建了一個能同時對全身進行推理的單一學習系統。Helix 02采用分層架構,每個系統在其自然的時間尺度上運行:
System 2負責慢速推理,以約1Hz的頻率處理場景理解、語言解析和行為序列規劃。它不需要規劃底層的步法或手腳協調方式,只需生成語義級別的潛變量。
System 1是快速反應層,以200Hz的頻率將所有傳感器輸入轉化為全身關節目標。這一層真正實現了"全傳感器輸入,全執行器輸出"——頭部攝像頭、掌心攝像頭、指尖觸覺傳感器和全身本體感覺的信息,被統一處理并映射到腿部、軀干、頭部、手臂、手腕和每根手指的控制指令。
![]()
System 1
最關鍵的創新是新增的System 0,這是一個以1kHz頻率運行的全身控制器,專門處理平衡、接觸和協調。與傳統方法為每個動作單獨設計獎勵函數不同,System 0直接從超過1000小時的人類運動數據中學習。
這個僅有1000萬參數的神經網絡,用單一的神經先驗取代了109,504行手工編寫的C++代碼,實現了穩定、自然的運動。System 0完全在仿真環境中訓練,涵蓋超過20萬個并行環境,通過廣泛的域隨機化實現了向真實機器人的直接遷移。
三個系統協同工作,構成了從像素到扭矩的緊密集成層級體系。當System 2理解"把碗端到柜臺上"這樣的指令時,System 1將其解釋為具體的運動軌跡,System 0則確保每一個動作都能在保持平衡的前提下流暢執行。
▍觸覺+掌心視覺,解鎖毫米級精細操作
Helix 02的另一大亮點是前所未有的靈巧操作能力。這得益于Figure 03硬件平臺的兩項關鍵升級:掌心攝像頭和高靈敏度觸覺傳感器。
![]()
靈巧操作
掌心攝像頭解決了操作中的自遮擋問題。當機器人伸手抓取物體時,頭部攝像頭往往會被手臂遮擋,而掌心視角能夠提供關鍵的手內視覺反饋。這使得機器人能夠在視線受阻的情況下,依然準確地定位和抓取目標物體。
指尖觸覺傳感器的靈敏度達到了3克級別——足以感知一枚回形針的重量。這種精細的力反饋讓機器人能夠實現真正的力控制抓取,而不是簡單的位置控制。
在演示中,Helix 02展示了四項極具挑戰性的靈巧操作任務:
擰開瓶蓋需要雙手協調,一只手穩定瓶身,另一只手施加連續、受控的旋轉力,整個過程需要根據觸覺反饋實時調節抓握力,避免打滑或壓壞容器。
從藥盒中取出單顆藥丸考驗的是毫米級的精準控制。藥丸經常被頭部攝像頭遮擋,機器人必須依靠掌心視覺和觸覺引導,在狹小的收納格中準確定位并拾取。
精準推動注射器5毫升要求極高的力控精度。機器人需要克服可變阻力,在嚴格的公差范圍內推動柱塞,這需要多指協調配合觸覺反饋的精細力控制。
從雜亂盒子中拾取金屬件則是一個綜合性挑戰。物體相互重疊、遮擋且易位移,機器人需要通過視覺選擇抓取點,并通過觸覺確認接觸狀態。這個任務的物體來自Figure的BotQ制造設施,展示了技術向實際應用場景的遷移潛力。
![]()
這些能力的實現,標志著人形機器人從"看到即抓取"向"感知即操作"的重要轉變。觸覺和掌心視覺的加入,讓機器人的操作能力產生了質的飛躍。
▍從實驗室到真實世界,人形機器人的未來已來
Helix 02最令人關注的演示,是在全尺寸廚房中完成的4分鐘洗碗機裝卸任務。這項任務包含61個連續的移動操作動作,全程無需重置,也無需人工干預。
整個過程展現了多個技術亮點:機器人在手持易碎餐具時穩定行走,每一步都保持可靠抓握;當需要關閉抽屜而雙手被占用時,自然地使用臀部完成任務;用腳抬起洗碗機門,展現了將全身作為工具的能力。
更重要的是動作的連貫性和自然性。機器人能夠在數分鐘的執行過程中保持任務狀態,具備隱式的錯誤恢復能力。同一個神經網絡既能產生毫米級的手指運動,也能產生房間級的行走軌跡,動態范圍跨越了四個數量級。
從技術趨勢來看,locomotion與manipulation的深度融合很可能成為2026年人形機器人領域的重要主線。目前大多數系統還停留在桌面級操作與有限移動的結合,而真實世界中的高價值任務往往需要身體與操作的強耦合——比如抱起大型箱子時的姿態平衡,或在搬運過程中借助墻面、膝蓋等身體部位進行支撐。
Figure CEO Brett Adcock將這次發布稱為"巨大的技術突破"。確實,從System 0用神經網絡替代10萬行C++代碼,到實現4分鐘的連續自主任務,Helix 02展示了數據驅動方法在人形機器人領域的巨大潛力。
![]()
當然,技術仍處于早期階段。但Helix 02已經讓我們看到了人形機器人進入家庭和工作場所的可能性。當機器人能夠像人類一樣自然地行走、操作和平衡,能夠處理需要毫米級精度的任務,能夠將全身作為工具靈活運用,距離真正的通用人形機器人或許已經不遠。
人形機器人的GPT時刻,可能真的要來了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.