DIJE: Dense Image Jacobian Estimation for Robust Robotic Self-Recognition and Visual Servoing

📄 arXiv: 2507.00446v1 📥 PDF

作者: Yasunori Toshimitsu, Kento Kawaharazuka, Akihiro Miki, Kei Okada, Masayuki Inaba

分类: cs.RO

发布日期: 2025-07-01

备注: 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)

期刊: 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Kyoto, Japan, 2022, pp. 2219-2226

DOI: 10.1109/IROS47612.2022.9981868


💡 一句话要点

提出DIJE算法,用于机器人自识别和视觉伺服的稠密图像雅可比估计

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 图像雅可比估计 机器人自识别 视觉伺服 光流 卡尔曼滤波

📋 核心要点

  1. 现有机器人难以准确理解自身状态和所持工具,限制了其在真实世界中的应用。
  2. DIJE算法通过光流和简化的卡尔曼滤波,实时估计每个像素的图像雅可比矩阵,无需标记物和结构知识。
  3. 实验表明,DIJE算法能够有效区分机器人自身运动和外部干扰,并实现精确的视觉伺服控制。

📝 摘要(中文)

本文提出了一种名为DIJE的算法,用于估计每个像素的图像雅可比矩阵。该算法基于光流计算和一个简化的卡尔曼滤波器,可以在整个图像上实时高效地运行。它不依赖于标记物或机器人结构的先验知识。我们将DIJE应用于自识别过程,该过程能够鲁棒地区分机器人自身运动和外部实体运动,即使在运动重叠的情况下也是如此。此外,我们还提出了一种基于DIJE的视觉伺服控制器,该控制器可以学习控制机器人的身体以进行抓取运动或双臂工具末端控制。所提出的算法已在真实的肌肉骨骼机器人上实现,并验证了其性能。我们认为,这种对视觉运动策略的全局估计有可能扩展到更通用的操作框架中。

🔬 方法详解

问题定义:机器人需要在真实环境中运动,首先必须正确理解自身的状态以及所持有的工具。现有方法通常依赖于外部标记物或对机器人结构的精确建模,这限制了其在复杂和动态环境中的应用。因此,需要一种无需先验知识且能鲁棒估计机器人自身运动状态的方法。

核心思路:本文的核心思路是利用图像雅可比矩阵来建立图像像素运动与机器人关节运动之间的关系。通过估计每个像素的图像雅可比矩阵,可以推断出机器人自身的运动状态,并区分外部干扰。这种方法无需依赖于特定的标记物或机器人结构知识,具有更强的通用性和鲁棒性。

技术框架:DIJE算法主要包含以下几个阶段:1) 光流计算:使用光流算法估计图像中每个像素的运动矢量。2) 雅可比矩阵估计:利用光流矢量和机器人关节运动数据,通过简化的卡尔曼滤波器估计每个像素的图像雅可比矩阵。3) 自识别:利用估计的雅可比矩阵,区分机器人自身运动和外部干扰。4) 视觉伺服控制:基于雅可比矩阵,设计视觉伺服控制器,实现精确的机器人运动控制。

关键创新:DIJE算法的关键创新在于:1) 提出了一种基于光流和简化的卡尔曼滤波器的稠密图像雅可比矩阵估计方法,能够实时高效地估计每个像素的雅可比矩阵。2) 该方法无需依赖于标记物或机器人结构知识,具有更强的通用性和鲁棒性。3) 将估计的雅可比矩阵应用于机器人自识别和视觉伺服控制,实现了鲁棒的机器人运动控制。

关键设计:DIJE算法的关键设计包括:1) 简化的卡尔曼滤波器:为了提高计算效率,使用了简化的卡尔曼滤波器来估计雅可比矩阵。2) 光流算法的选择:选择了适合实时计算的光流算法,以保证算法的实时性。3) 视觉伺服控制器的设计:基于估计的雅可比矩阵,设计了能够实现精确机器人运动控制的视觉伺服控制器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究在真实的肌肉骨骼机器人上验证了DIJE算法的性能。实验结果表明,DIJE算法能够有效区分机器人自身运动和外部干扰,并实现精确的视觉伺服控制。与传统的视觉伺服方法相比,DIJE算法具有更强的鲁棒性和适应性,能够在复杂和动态环境中实现更可靠的机器人操作。

🎯 应用场景

DIJE算法可应用于各种机器人操作任务,如自主导航、物体抓取、装配等。它能够提高机器人在复杂和动态环境中的适应性和鲁棒性,降低对环境和机器人结构的依赖。该技术在工业自动化、医疗机器人、服务机器人等领域具有广阔的应用前景,并有望推动机器人技术的进一步发展。

📄 摘要(原文)

For robots to move in the real world, they must first correctly understand the state of its own body and the tools that it holds. In this research, we propose DIJE, an algorithm to estimate the image Jacobian for every pixel. It is based on an optical flow calculation and a simplified Kalman Filter that can be efficiently run on the whole image in real time. It does not rely on markers nor knowledge of the robotic structure. We use the DIJE in a self-recognition process which can robustly distinguish between movement by the robot and by external entities, even when the motion overlaps. We also propose a visual servoing controller based on DIJE, which can learn to control the robot's body to conduct reaching movements or bimanual tool-tip control. The proposed algorithms were implemented on a physical musculoskeletal robot and its performance was verified. We believe that such global estimation of the visuomotor policy has the potential to be extended into a more general framework for manipulation.