FingerEye: Continuous and Unified Vision-Tactile Sensing for Dexterous Manipulation
作者: Zhixuan Xu, Yichen Li, Xuanye Wu, Tianyu Qiu, Lin Shao
分类: cs.RO
发布日期: 2026-04-22
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
FingerEye:用于灵巧操作的连续统一视觉-触觉传感
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视觉触觉融合 灵巧操作 机器人感知 模仿学习 数字孪生 触觉传感器 双目视觉
📋 核心要点
- 现有触觉传感器主要在接触后提供反馈,限制了机器人精确启动接触的能力,难以实现连续的交互感知。
- FingerEye集成了双目视觉和基于形变的触觉传感,实现了从预接触视觉到后接触触觉的平滑过渡。
- 结合视觉-触觉模仿学习和数字孪生技术,提升了策略的泛化能力,实现了多种灵巧操作任务。
📝 摘要(中文)
灵巧的机器人操作需要在交互的所有阶段提供全面的感知:预接触、接触启动和后接触。这种连续的反馈使机器人能够在整个交互过程中调整其动作。然而,许多现有的触觉传感器,如GelSight及其变体,仅在建立接触后提供反馈,限制了机器人精确启动接触的能力。我们介绍FingerEye,一种紧凑且经济高效的传感器,可在整个交互过程中提供连续的视觉-触觉反馈。FingerEye集成了双目RGB相机,以提供具有隐式立体深度的近距离视觉感知。接触后,外部力和力矩会使柔顺的环形结构变形;这些变形通过基于标记的姿态估计来捕获,并作为接触扳手感知的代理。这种设计使得感知流能够从预接触视觉线索平滑过渡到后接触触觉反馈。基于这种传感能力,我们开发了一种视觉-触觉模仿学习策略,该策略融合来自多个FingerEye传感器的信号,以从有限的真实世界数据中学习灵巧的操作行为。我们进一步开发了传感器的数字孪生和机器人平台,以提高策略的泛化能力。通过将真实演示与视觉增强的模拟观察结果相结合进行表征学习,学习到的策略对物体外观变化更加鲁棒。总之,这些设计方面使得能够在不同的物体属性和交互方式下进行灵巧的操作,包括硬币站立、芯片拾取、字母检索和注射器操作。
🔬 方法详解
问题定义:现有触觉传感器,如GelSight,主要在接触发生后提供反馈,缺乏预接触阶段的感知能力,限制了机器人精确启动接触和进行连续交互的能力。因此,如何设计一种能够提供连续视觉-触觉反馈的传感器,以支持灵巧操作,是一个亟待解决的问题。
核心思路:FingerEye的核心思路是将视觉感知和触觉感知融合在一个紧凑的传感器中,利用双目RGB相机提供预接触阶段的视觉信息,并通过可变形的环形结构和标记点追踪来感知接触后的力和力矩。这种设计使得传感器能够提供从预接触到后接触的连续感知流。
技术框架:FingerEye的整体框架包括以下几个主要模块:1) 双目RGB相机:用于提供近距离的视觉感知,并利用立体视觉技术估计深度信息。2) 可变形环形结构:作为触觉感知的媒介,在接触后发生形变。3) 标记点追踪:通过追踪环形结构上的标记点,估计环形结构的形变,从而推断接触力和力矩。4) 视觉-触觉模仿学习策略:融合来自多个FingerEye传感器的视觉和触觉信号,学习灵巧操作行为。5) 数字孪生:用于模拟传感器和机器人平台,并通过视觉增强的模拟数据来提高策略的泛化能力。
关键创新:FingerEye的关键创新在于其连续统一的视觉-触觉传感设计。与传统的触觉传感器相比,FingerEye不仅能够提供接触后的触觉反馈,还能够提供预接触阶段的视觉信息,从而实现了从预接触到后接触的连续感知。此外,FingerEye还采用了基于形变的触觉感知方法,避免了使用复杂的力传感器,降低了成本和复杂度。
关键设计:FingerEye的关键设计包括:1) 双目相机的参数选择,需要平衡视野范围和深度估计精度。2) 环形结构的材料选择和几何设计,需要保证其具有足够的柔顺性和可预测的形变特性。3) 标记点的数量和位置分布,需要保证能够准确地追踪环形结构的形变。4) 视觉-触觉模仿学习策略的网络结构和损失函数设计,需要能够有效地融合视觉和触觉信号,并学习到鲁棒的操作策略。
🖼️ 关键图片
📊 实验亮点
论文通过多个实验验证了FingerEye的性能。在硬币站立、芯片拾取、字母检索和注射器操作等任务中,基于FingerEye的机器人能够成功完成任务,并表现出良好的鲁棒性。通过与仅使用视觉或触觉信息的基线方法进行比较,证明了FingerEye的视觉-触觉融合感知的优势。此外,通过使用数字孪生技术进行数据增强,显著提高了策略的泛化能力,使其能够适应不同的物体外观。
🎯 应用场景
FingerEye具有广泛的应用前景,可应用于各种需要灵巧操作的机器人任务中,例如:工业装配、医疗手术、家庭服务等。该传感器能够提供连续的视觉-触觉反馈,使机器人能够更好地感知环境和自身状态,从而实现更精确、更安全的操作。此外,FingerEye的低成本和紧凑型设计使其更易于集成到各种机器人平台中。
📄 摘要(原文)
Dexterous robotic manipulation requires comprehensive perception across all phases of interaction: pre-contact, contact initiation, and post-contact. Such continuous feedback allows a robot to adapt its actions throughout interaction. However, many existing tactile sensors, such as GelSight and its variants, only provide feedback after contact is established, limiting a robot's ability to precisely initiate contact. We introduce FingerEye, a compact and cost-effective sensor that provides continuous vision-tactile feedback throughout the interaction process. FingerEye integrates binocular RGB cameras to provide close-range visual perception with implicit stereo depth. Upon contact, external forces and torques deform a compliant ring structure; these deformations are captured via marker-based pose estimation and serve as a proxy for contact wrench sensing. This design enables a perception stream that smoothly transitions from pre-contact visual cues to post-contact tactile feedback. Building on this sensing capability, we develop a vision-tactile imitation learning policy that fuses signals from multiple FingerEye sensors to learn dexterous manipulation behaviors from limited real-world data. We further develop a digital twin of our sensor and robot platform to improve policy generalization. By combining real demonstrations with visually augmented simulated observations for representation learning, the learned policies become more robust to object appearance variations. Together, these design aspects enable dexterous manipulation across diverse object properties and interaction regimes, including coin standing, chip picking, letter retrieving, and syringe manipulation. The hardware design, code, appendix, and videos are available on our project website: https://nus-lins-lab.github.io/FingerEyeWeb/