論文原文鏈接
arXiv預印本頁面:https://arxiv.org/abs/2602.02142v2
arXiv全文PDF:https://arxiv.org/pdf/2602.02142v2
DBLP頁面:https://dblp.uni-trier.de/pid/00/9938.html(內含更詳細的引用信息)
Semantic Scholar頁面:https://www.semanticscholar.org/paper/FD-VLA:-Force-Distilled-Vision-Language-Action-for-Zhao-Wang/84496e9c36fa5b863f5702abb1dbc5560ee7db5b
原文作者:公眾號“計算機頂會大全”
原文鏈接:https://mp.weixin.qq.com/s/SbiHonAq0qYEP-sC-sB-bA
ICRA 2026| FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation
![]()
過去,VLA模型主要依賴視覺和語言來完成機器人操作,但在真實場景中,很多任務并不是看見就能做好。比如插頭插入、按鈕按壓、擦白板等接觸豐富任務,真正影響成功率的是接觸力、阻力變化、摩擦和細微形變。
這篇論文關注的正是VLA的力覺短板。論文提出FD-VLA,通過力蒸餾機制,讓模型在訓練階段利用真實力信號學習潛在力表示;在推理階段,則不再依賴實體力傳感器,而是根據視覺觀察和機器人本體狀態預測力標記,并與視覺語言信息共同生成動作。這樣既保留了力覺對接觸操作的幫助,又降低了真實部署時對昂貴、脆弱傳感器的依賴。
![]()
創新點主要在于三方面:一是把力覺信息以蒸餾方式融入VLA,而不是簡單拼接原始力信號;二是利用視覺和本體狀態預測接觸相關力表示,提升任務相關性和魯棒性;三是在真實機器人平臺上驗證擦白板、按按鈕、插頭插入等典型接觸任務。實驗表明,FD-VLA整體成功率明顯高于無力覺版本和直接輸入原始力信號的方法,說明可學習的力表示比粗暴使用傳感器數據更有效。
這篇論文的價值在于,它把VLA從看懂再行動推進到理解接觸再行動。對具身智能研究來說,力覺蒸餾、觸覺增強、狀態建模和接觸豐富操作,正在成為VLA實用化落地的重要發文切口。
雷峰網
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.