Visuo-Tactile Object Pose Estimation for a Multi-Finger Robot Hand with Low-Resolution In-Hand Tactile Sensing

📄 arXiv: 2503.19893v1 📥 PDF

作者: Lukas Mack, Felix Grüninger, Benjamin A. Richardson, Regine Lendway, Katherine J. Kuchenbecker, Joerg Stueckler

分类: cs.RO, cs.CV

发布日期: 2025-03-25

备注: Accepted for publication at the IEEE International Conference on Robotics and Automation (ICRA), 2025


💡 一句话要点

提出一种结合视觉和低分辨率触觉的多指机器人手物体姿态估计方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 物体姿态估计 机器人手 触觉传感 视觉触觉融合 因子图

📋 核心要点

  1. 机器人手抓取物体时,自身遮挡导致视觉信息不足,精确的物体姿态估计面临挑战。
  2. 结合视觉、本体感受和低分辨率触觉信息,通过因子图进行概率建模,优化物体姿态。
  3. 仿真和真实机器人实验表明,该方法在高遮挡和高视觉噪声下显著提升了物体姿态估计的准确性。

📝 摘要(中文)

精确估计抓取物体的3D姿态是机器人执行装配或手内操作任务的重要前提,但物体被机器人自身遮挡大大增加了这项感知任务的难度。本文提出将视觉信息和本体感受与来自铰接机器人手内部表面的二元、低分辨率触觉接触测量相结合,可以缓解这个问题。我们将视觉-触觉物体姿态估计问题在因子图中进行概率建模。通过优化物体姿态,使其与三种测量结果对齐,并使用鲁棒的代价函数来降低视觉或触觉异常读数的影响。首先在仿真中展示了所提出方法的优势:一个定制的15自由度机器人手,每个连杆上都有一个二元触觉传感器,抓取17个YCB物体,同时被RGB-D相机观察。这种低分辨率的手内触觉传感显著提高了高遮挡和高视觉噪声下的物体姿态估计。我们还通过使用触觉手的初步真实版本进行抓取测试,展示了这些优势,以平均约13.3 Hz的速度获得了合理的物体姿态视觉-触觉估计。

🔬 方法详解

问题定义:论文旨在解决机器人手抓取物体时,由于自身遮挡导致视觉信息不足,难以准确估计物体3D姿态的问题。现有方法在遮挡严重或视觉噪声较高的情况下,姿态估计精度显著下降,限制了机器人执行复杂操作的能力。

核心思路:论文的核心思路是将视觉信息、机器人手的本体感受以及低分辨率的触觉信息融合起来,共同用于物体姿态估计。通过触觉信息弥补视觉信息的不足,提高在遮挡和噪声环境下的鲁棒性。

技术框架:该方法采用基于因子图的概率框架。整体流程如下:1) 从RGB-D相机获取视觉信息;2) 从机器人手的关节编码器获取本体感受信息;3) 从机器人手内部的低分辨率触觉传感器获取触觉接触信息;4) 将这三种信息整合到因子图中,构建一个概率模型;5) 通过优化算法,求解物体姿态,使其与三种测量结果尽可能一致。

关键创新:该方法最重要的创新点在于将低分辨率的触觉信息有效地融入到物体姿态估计中。与传统的仅依赖视觉的方法相比,该方法在高遮挡和高噪声环境下具有更强的鲁棒性。此外,使用因子图进行概率建模,能够灵活地融合多种传感器信息。

关键设计:论文使用鲁棒的代价函数来降低视觉或触觉异常读数的影响。具体而言,使用了Huber损失函数或者类似的鲁棒损失函数,以减少异常值对优化结果的影响。此外,因子图中的因子设计需要仔细考虑不同传感器信息的噪声模型和权重。机器人手采用定制的15自由度设计,并在每个连杆上配备二元触觉传感器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究在仿真和真实机器人实验中验证了所提出方法的有效性。仿真结果表明,低分辨率触觉传感显著提高了高遮挡和高视觉噪声下的物体姿态估计精度。真实机器人实验表明,该方法能够以平均约13.3 Hz的速度获得合理的物体姿态估计。这些结果表明,该方法具有实际应用潜力。

🎯 应用场景

该研究成果可应用于机器人装配、手内操作、物体抓取等领域。通过提高机器人对抓取物体姿态的感知能力,可以使机器人更灵活、更智能地完成复杂的操作任务。例如,在自动化装配线上,机器人可以利用该技术准确抓取和装配零件,提高生产效率和质量。在服务机器人领域,可以帮助机器人更好地理解和操作周围环境中的物体。

📄 摘要(原文)

Accurate 3D pose estimation of grasped objects is an important prerequisite for robots to perform assembly or in-hand manipulation tasks, but object occlusion by the robot's own hand greatly increases the difficulty of this perceptual task. Here, we propose that combining visual information and proprioception with binary, low-resolution tactile contact measurements from across the interior surface of an articulated robotic hand can mitigate this issue. The visuo-tactile object-pose-estimation problem is formulated probabilistically in a factor graph. The pose of the object is optimized to align with the three kinds of measurements using a robust cost function to reduce the influence of visual or tactile outlier readings. The advantages of the proposed approach are first demonstrated in simulation: a custom 15-DoF robot hand with one binary tactile sensor per link grasps 17 YCB objects while observed by an RGB-D camera. This low-resolution in-hand tactile sensing significantly improves object-pose estimates under high occlusion and also high visual noise. We also show these benefits through grasping tests with a preliminary real version of our tactile hand, obtaining reasonable visuo-tactile estimates of object pose at approximately 13.3 Hz on average.