網易首頁 > 網易號 > 正文申請入駐

參數量砍掉87%，這個機器人控制模型憑什么實時更準？

2026-05-30 04:27:23　來源: Ping值焦慮

北京舉報

分享至

想象一個場景：機器人機械臂要在雜亂桌面上靈巧地抓起目標物，同時避開障礙，姿態還要適配變化的環境。傳統控制模型為了應對這種連續動作軌跡的復雜性，往往會塞入上億參數，推理一次就得幾十毫秒——機還沒反應，任務窗口已經過了。ICRA 2026上，一種名為KAN?We?Flow的方法卻反其道而行，模型參數只有33.6M，推理8到11毫秒，卻能在Adroit、Meta?World、DexArt三項基準中刷出最優或并列最優的成功率。這個看似“輕量級”的選手，究竟靠什么同時拿下了精度與實時性？

問題的起點，是機器人操控領域一個越來越尖銳的矛盾。擴散式策略雖然動作分布建模能力強，但多步去噪導致推理慢、模型重，真實部署時像背著沙袋跑步。流匹配策略改用一步向量場生成動作，省掉了迭代過程，但骨干網絡仍然普遍堆砌UNet，計算和存儲開銷照樣居高不下。說到底，大家困在同一個地方：如何在保證精度的前提下，進一步壓縮模型規模并提升實時性？

KAN?We?Flow給出的解法相當直接——把UNet連根拔起，換上兩個“小而狠”的核心部件：RWKV和KAN。理解這一步，就能讀懂整個工作的創新邏輯。

第一點：用RWKV解決長時序依賴，且不付高額算力賬。RWKV具備線性復雜度的時序建模能力，能充分捕獲長序列動作軌跡中的上下文關系，而不會像傳統自注意力那樣讓計算量隨序列長度平方級膨脹。對于需要根據歷史狀態連續調整的機器人操作來說，這意味著模型既能記住該記住的過去，又不會拖累響應速度。

第二點：以KAN替代普通MLP，以極小參數量表達復雜非線性映射。KAN基于可學習的一維函數逼近，對特征通道做分組校準，能靈活地對輸入?輸出關系進行非線性“雕琢”，卻不用像寬幅多層感知機那樣引入大量參數。在KAN?We?Flow中，這一結構被命名為GroupKAN，專門用來對RWKV輸出的特征通道進行分組函數調整，把原本要靠堆參數硬撐的非線性，用更聰明的方式擬合出來。

第三點：一致性流匹配讓動作生成一步到位。整體框架采用一致性流匹配，輸入點云感知、機器人狀態和時間編碼后，直接生成動作，沒有反復去噪的環節。這一步保證了推理管道的極簡，也把延遲壓到8?ms級別，穩穩滿足100?Hz實時控制的需求。

第四點：動作一致性正則化（ACR）在不增加推理成本的前提下穩住訓練。訓練時，ACR通過歐拉外推將一步預測動作與專家軌跡的末端位姿對齊，相當于額外給了一個末端約束信號。消融實驗明確顯示，ACR在長預測窗口下能顯著抑制動作漂移，而模型一旦部署，推理階段根本不需要引入任何額外操作，穩賺不賠。

落實到具體數字上，這套“RWKV + KAN + ACR”的組合拳效果很實在。與基于普通流匹配的FlowPolicy和擴散模型DP3相比，KAN?We?Flow在Adroit、Meta?World、DexArt三個基準上的整體成功率全面領先，且難度越高、時序越長的任務，優勢越明顯。參數量對比更直觀：約33.6M，相比DP3減少86.8%，幾乎是把原來八分之七的冗余砍掉了。推理時間8至11毫秒，意味著即使在需要高頻反饋的操作中，模型也能跟得上物理世界的節奏。

如果把消融實驗的邏輯剖開來看，RWKV、GroupKAN和ACR三者各自帶來的增益都很穩定，沒有哪個模塊是可有可無的“氣氛組”。尤其是ACR，在預測窗口拉長的設置下，對動作漂移的抑制直接反映在成功率的提升上，證明了輕量模型也可以擁有穩健的長程規劃能力。

KAN?We?Flow的做法，某種程度上是對“大模型依賴癥”的一次精準回擊。當很多方案還在用更寬的網絡、更多的計算來換取微小精度提升時，它用線性復雜度的時序混合與高效的非線性校準，重新回答了“夠用就好”到底可以做到多好。對于正在苦于部署規模與響應速度的機器人控制開發者來說，這份ICRA 2026上的工作或許是一個值得立刻點開原文細讀的信號。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.