FingerViP: Learning Real-World Dexterous Manipulation with Fingertip Visual Perception

📄 arXiv: 2604.21331v1 📥 PDF

作者: Zhen Zhang, Weinan Wang, Hejia Sun, Qingpeng Ding, Xiangyu Chu, Guoxin Fang, K. W. Samuel Au

分类: cs.RO

发布日期: 2026-04-23

备注: 12 pages, 6 figures


💡 一句话要点

FingerViP:利用指尖视觉感知学习真实世界灵巧操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion)

关键词: 灵巧操作 指尖视觉 多视角感知 扩散模型 机器人学习

📋 核心要点

  1. 现有灵巧操作方法依赖于单一腕部视角,易受遮挡,限制了多视角感知任务的性能。
  2. FingerViP通过在手指上安装微型摄像头,提供手部和环境的多视角视觉反馈,增强视觉感知。
  3. 实验表明,FingerViP在真实世界任务中表现出鲁棒性和适应性,成功率达到80.8%。

📝 摘要(中文)

本文提出了一种名为FingerViP的学习系统,该系统利用带有指尖视觉感知的视觉运动策略进行灵巧操作。具体来说,我们设计了一个视觉增强的指尖模块,该模块嵌入了一个微型摄像头,并将这些模块安装在多指手的每个手指上。指尖摄像头通过提供手及其周围环境的全面、多视角反馈,显著提高了视觉感知能力。基于集成的指尖模块,我们开发了一种基于扩散的全身视觉运动策略,该策略以第三人称视角摄像头和多视角指尖视觉为条件,从而直接从人类演示中有效地学习复杂的操纵技能。为了改善视角-本体感觉对齐和接触感知,每个指尖视觉特征都通过其相应的相机姿态编码和每个手指的关节电流编码进行增强。我们在各种具有挑战性的真实世界任务中验证了多视角指尖视觉的有效性,并展示了FingerViP的鲁棒性和适应性,包括在密闭盒子内按下按钮、从不稳定的支撑物上取回棍子、从遮挡的窗帘后面取回物体,以及执行长时程的柜子打开和物体取回,总体成功率达到80.8%。所有硬件设计和代码将完全开源。

🔬 方法详解

问题定义:现有灵巧操作方法主要依赖于腕部摄像头提供的单一视角,这在复杂环境中容易出现遮挡问题,导致机器人难以准确感知手部和物体的相对位置关系,从而限制了操作的精度和成功率。尤其是在需要多视角信息融合的任务中,单一视角的局限性更加明显。

核心思路:FingerViP的核心思路是通过在每个手指上安装微型摄像头,构建多视角的指尖视觉感知系统。这种设计使得机器人能够从多个角度观察手部和物体,从而克服单一视角带来的遮挡问题,提高视觉感知的全面性和准确性。同时,结合全身视觉运动策略,实现基于多视角信息的灵巧操作。

技术框架:FingerViP系统主要包含以下几个模块:1) 视觉增强的指尖模块:每个手指上安装一个微型摄像头,用于获取指尖视角的图像。2) 扩散模型为基础的全身视觉运动策略:该策略以第三人称视角摄像头和多视角指尖视觉为条件,学习从人类演示中获取的复杂操作技能。3) 视角-本体感觉对齐模块:将指尖视觉特征与对应的相机姿态编码和每个手指的关节电流编码进行融合,以提高感知精度和接触感知能力。整体流程是从指尖摄像头和第三人称视角摄像头获取图像,经过特征提取和融合后,输入到扩散模型中,生成机器人的动作指令。

关键创新:FingerViP最重要的技术创新点在于将微型摄像头集成到手指上,实现了多视角的指尖视觉感知。这种设计突破了传统灵巧操作方法中单一视角的局限性,为机器人提供了更全面、更准确的视觉信息。此外,结合扩散模型和视角-本体感觉对齐模块,进一步提高了操作的精度和鲁棒性。

关键设计:在指尖视觉特征的增强方面,论文使用了相机姿态编码和关节电流编码。相机姿态编码用于对齐视角信息,关节电流编码用于增强接触感知。扩散模型采用标准的扩散模型结构,损失函数为均方误差损失。具体的网络结构和参数设置在论文中有详细描述,硬件设计也开源。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FingerViP在多个真实世界任务中取得了显著成果,包括在密闭盒子内按下按钮、从不稳定的支撑物上取回棍子、从遮挡的窗帘后面取回物体,以及执行长时程的柜子打开和物体取回。总体成功率达到80.8%,验证了多视角指尖视觉的有效性和FingerViP的鲁棒性。

🎯 应用场景

FingerViP技术可应用于各种需要灵巧操作的场景,例如:医疗手术机器人,可以进行精细的手术操作;家庭服务机器人,可以帮助人们完成各种家务;工业自动化,可以进行复杂的装配和维护工作。该研究的开源设计有助于推动灵巧操作技术的发展,并加速其在各个领域的应用。

📄 摘要(原文)

The current practice of dexterous manipulation generally relies on a single wrist-mounted view, which is often occluded and limits performance on tasks requiring multi-view perception. In this work, we present FingerViP, a learning system that utilizes a visuomotor policy with fingertip visual perception for dexterous manipulation. Specifically, we design a vision-enhanced fingertip module with an embedded miniature camera and install the modules on each finger of a multi-fingered hand. The fingertip cameras substantially improve visual perception by providing comprehensive, multi-view feedback of both the hand and its surrounding environment. Building on the integrated fingertip modules, we develop a diffusion-based whole-body visuomotor policy conditioned on a third-view camera and multi-view fingertip vision, which effectively learns complex manipulation skills directly from human demonstrations. To improve view-proprioception alignment and contact awareness, each fingertip visual feature is augmented with its corresponding camera pose encoding and per-finger joint-current encoding. We validate the effectiveness of the multi-view fingertip vision and demonstrate the robustness and adaptability of FingerViP on various challenging real-world tasks, including pressing buttons inside a confined box, retrieving sticks from an unstable support, retrieving objects behind an occluding curtain, and performing long-horizon cabinet opening and object retrieval, achieving an overall success rate of 80.8%. All hardware designs and code will be fully open-sourced.