想象一個場景:機器人機械臂要在雜亂桌面上靈巧地抓起目標物,同時避開障礙,姿態還要適配變化的環境。傳統控制模型為了應對這種連續動作軌跡的復雜性,往往會塞入上億參數,推理一次就得幾十毫秒——機還沒反應,任務窗口已經過了。ICRA 2026上,一種名為KAN?We?Flow的方法卻反其道而行,模型參數只有33.6M,推理8到11毫秒,卻能在Adroit、Meta?World、DexArt三項基準中刷出最優或并列最優的成功率。這個看似“輕量級”的選手,究竟靠什么同時拿下了精度與實時性?
問題的起點,是機器人操控領域一個越來越尖銳的矛盾。擴散式策略雖然動作分布建模能力強,但多步去噪導致推理慢、模型重,真實部署時像背著沙袋跑步。流匹配策略改用一步向量場生成動作,省掉了迭代過程,但骨干網絡仍然普遍堆砌UNet,計算和存儲開銷照樣居高不下。說到底,大家困在同一個地方:如何在保證精度的前提下,進一步壓縮模型規模并提升實時性?
![]()
KAN?We?Flow給出的解法相當直接——把UNet連根拔起,換上兩個“小而狠”的核心部件:RWKV和KAN。理解這一步,就能讀懂整個工作的創新邏輯。
第一點:用RWKV解決長時序依賴,且不付高額算力賬。RWKV具備線性復雜度的時序建模能力,能充分捕獲長序列動作軌跡中的上下文關系,而不會像傳統自注意力那樣讓計算量隨序列長度平方級膨脹。對于需要根據歷史狀態連續調整的機器人操作來說,這意味著模型既能記住該記住的過去,又不會拖累響應速度。
第二點:以KAN替代普通MLP,以極小參數量表達復雜非線性映射。KAN基于可學習的一維函數逼近,對特征通道做分組校準,能靈活地對輸入?輸出關系進行非線性“雕琢”,卻不用像寬幅多層感知機那樣引入大量參數。在KAN?We?Flow中,這一結構被命名為GroupKAN,專門用來對RWKV輸出的特征通道進行分組函數調整,把原本要靠堆參數硬撐的非線性,用更聰明的方式擬合出來。
第三點:一致性流匹配讓動作生成一步到位。整體框架采用一致性流匹配,輸入點云感知、機器人狀態和時間編碼后,直接生成動作,沒有反復去噪的環節。這一步保證了推理管道的極簡,也把延遲壓到8?ms級別,穩穩滿足100?Hz實時控制的需求。
第四點:動作一致性正則化(ACR)在不增加推理成本的前提下穩住訓練。訓練時,ACR通過歐拉外推將一步預測動作與專家軌跡的末端位姿對齊,相當于額外給了一個末端約束信號。消融實驗明確顯示,ACR在長預測窗口下能顯著抑制動作漂移,而模型一旦部署,推理階段根本不需要引入任何額外操作,穩賺不賠。
落實到具體數字上,這套“RWKV + KAN + ACR”的組合拳效果很實在。與基于普通流匹配的FlowPolicy和擴散模型DP3相比,KAN?We?Flow在Adroit、Meta?World、DexArt三個基準上的整體成功率全面領先,且難度越高、時序越長的任務,優勢越明顯。參數量對比更直觀:約33.6M,相比DP3減少86.8%,幾乎是把原來八分之七的冗余砍掉了。推理時間8至11毫秒,意味著即使在需要高頻反饋的操作中,模型也能跟得上物理世界的節奏。
如果把消融實驗的邏輯剖開來看,RWKV、GroupKAN和ACR三者各自帶來的增益都很穩定,沒有哪個模塊是可有可無的“氣氛組”。尤其是ACR,在預測窗口拉長的設置下,對動作漂移的抑制直接反映在成功率的提升上,證明了輕量模型也可以擁有穩健的長程規劃能力。
KAN?We?Flow的做法,某種程度上是對“大模型依賴癥”的一次精準回擊。當很多方案還在用更寬的網絡、更多的計算來換取微小精度提升時,它用線性復雜度的時序混合與高效的非線性校準,重新回答了“夠用就好”到底可以做到多好。對于正在苦于部署規模與響應速度的機器人控制開發者來說,這份ICRA 2026上的工作或許是一個值得立刻點開原文細讀的信號。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.