A Model-based Visual Contact Localization and Force Sensing System for Compliant Robotic Grippers

📄 arXiv: 2605.00307v1 📥 PDF

作者: Kaiwen Zuo, Shuyuan Yang, Zonghe Chua

分类: cs.RO, cs.CV

发布日期: 2026-05-01

备注: 8 pages, 6 figures, IEEE Robotics and Automation Letters


💡 一句话要点

提出一种基于模型的视觉接触定位和力感应系统,用于柔性机器人夹爪

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 机器人抓取 力感应 视觉伺服 柔性夹爪 有限元分析

📋 核心要点

  1. 现有基于深度学习的力估计方法泛化性差,而基于模型的方法不适用于抓取和现代夹爪几何形状。
  2. 提出一种基于模型的视觉力感应方法,结合迭代接触定位,能够泛化到未见过的物体。
  3. 实验表明,该系统在与不同物体交互时,力估计的均方根误差较低,具有实时性。

📝 摘要(中文)

本研究提出了一种基于模型的视觉力感应方法,用于柔性机器人夹爪的力估计。该系统集成了迭代接触定位,并能泛化到未见过的物体。系统从腕部相机RGB-D图像中提取柔性夹爪的结构关键点,并使用这些关键点定义Simulation Open Framework Architecture中逆有限元分析仿真的参数。迭代接触定位子系统利用基于深度学习的在线3D重建和姿态估计流程动态更新接触位置,对视觉遮挡和未见过的物体具有鲁棒性。实验结果表明,该系统在加载阶段的均方根误差为0.23 N,归一化均方根偏差为2.11%,在整个抓取过程中的均方根误差为0.48 N,归一化均方根偏差为4.34%,展示了其在柔性夹爪实时模型间接力感应方面的潜力。

🔬 方法详解

问题定义:论文旨在解决柔性机器人夹爪在抓取过程中,如何准确、鲁棒地进行力估计的问题。现有的基于深度学习的方法在泛化到新的场景时表现不佳,而传统的基于模型的方法又难以适应现代柔性夹爪的复杂几何形状和抓取任务。因此,需要一种能够兼顾泛化性和准确性的力感应方法。

核心思路:论文的核心思路是结合基于模型的力估计和基于深度学习的接触定位。通过视觉信息提取夹爪的形变特征,并将其作为有限元分析的输入,从而间接估计抓取力。同时,利用深度学习进行在线3D重建和姿态估计,动态更新接触位置,提高系统对未知物体的适应性和鲁棒性。

技术框架:该系统主要包含以下几个模块:1) RGB-D图像采集:利用腕部相机获取夹爪和物体的RGB-D图像。2) 结构关键点提取:从RGB-D图像中提取夹爪的结构关键点,用于描述夹爪的形变。3) 接触定位:利用基于深度学习的在线3D重建和姿态估计流程,动态更新接触位置。4) 逆有限元分析:使用提取的关键点和接触位置作为输入,进行逆有限元分析,估计抓取力。

关键创新:该论文的关键创新在于将基于模型的力估计与基于深度学习的接触定位相结合。传统的基于模型的方法需要精确的夹爪模型和接触位置,而该方法利用深度学习动态更新接触位置,提高了系统的鲁棒性和泛化性。此外,该方法还针对柔性夹爪的特殊几何形状进行了优化。

关键设计:接触定位子系统使用深度学习模型进行3D重建和姿态估计,具体模型结构和训练细节未知。逆有限元分析使用Simulation Open Framework Architecture (SOFA) 进行仿真,具体参数设置未知。损失函数的设计也未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该系统在加载阶段的均方根误差为0.23 N,归一化均方根偏差为2.11%,在整个抓取过程中的均方根误差为0.48 N,归一化均方根偏差为4.34%。这些结果表明,该系统能够有效地进行柔性夹爪的力估计,并具有较高的精度和鲁棒性。与现有方法相比,该系统在泛化性和实时性方面具有优势。

🎯 应用场景

该研究成果可应用于需要精确力控制的机器人操作任务中,例如精密装配、医疗手术、食品加工等。通过准确估计抓取力,可以防止机器人损坏脆弱物体,提高操作的可靠性和安全性。此外,该技术还可以用于机器人学习,例如通过力反馈优化抓取策略。

📄 摘要(原文)

Grasp force estimation can help prevent robots from damaging delicate objects during manipulation and improve learning-based robotic control. Integrating force sensing into deformable grippers negotiates trade-offs in cost, complexity, mechanical robustness, and performance. With the growing integration of RGB-D wrist cameras into robotic systems for control purposes, camera-based techniques are a promising solution for indirect visual force estimation. Current approaches mostly utilize end-to-end deep learning, which can be brittle when generalizing to new scenarios, while existing model-based approaches are unsuited to grasping and modern grasper geometries. To address these challenges, we developed a model-based visual force sensing approach integrating an iterative contact localization with generalization to unseen objects. The system extracts structural key points from wrist camera RGB-D images of deforming fin-ray-shaped soft grippers, and uses these key points to define parameters of an inverse finite element analysis simulation in Simulation Open Framework Architecture. The iterative contact localization sub-system utilizes a deep learning-based online 3D reconstruction and pose estimation pipeline to dynamically update contact location, and is robust to visual occlusion and unseen objects. Our system demonstrated an average root mean square error of 0.23 N and normalized root mean square deviation of 2.11% during the load phase, and 0.48 N and 4.34% over the entire grasping process when interacting with different objects under various conditions, showcasing its potential for real-time model-based indirect force sensing of soft grippers.