Increasing the Task Flexibility of Heavy-Duty Manipulators Using Visual 6D Pose Estimation of Objects

作者: Petri Mäkinen, Pauli Mustalahti, Tuomo Kivelä, Jouni Mattila

分类: cs.RO

发布日期: 2025-02-26

💡 一句话要点

提出基于视觉6D位姿估计的重型机械臂工具定位方法，提升任务灵活性。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 重型机械臂 6D位姿估计 视觉伺服 手眼视觉 深度学习 机器人控制 运动标定

📋 核心要点

现有重型机械臂由于结构柔性，刚体运动学建模存在误差，导致工具定位精度受限。
利用手眼相机估计工具和目标物体的6D位姿，通过视觉伺服实现精确的工具定位，无需精确的运动学模型。
实验表明，该方法在真实环境中实现了小于2毫米的工具定位精度，显著提升了重型机械臂的任务灵活性。

📝 摘要（中文）

本研究提出了一种利用深度神经网络进行物体视觉6D位姿估计的流程，用于重型、长臂（HDLR）机械臂的精确工具定位。采用手眼相机配置，直接估计工具和目标物体（OOI）的位姿。基于工具与目标之间的位姿误差，以及相机与机器人之间的运动标定，利用工业界常用的机器人建模和控制方法，可靠地实现精确的工具定位。该方法基于视觉估计的OOI位姿进行方向和位置对齐，并通过视觉SLAM进行基于运动的相机-机器人标定。该方法旨在通过基于图像的算法，避免结构柔性HDLR机械臂的刚体运动学带来的不准确性。仅使用合成数据训练用于OOI位姿估计的深度神经网络。该方法在一个5米臂长的HDLR机械臂的真实环境中进行了验证。实验结果表明，沿非深度轴的基于图像的平均工具定位误差小于2毫米，这为提高非刚性HDLR机械臂的任务灵活性和自动化水平提供了一种新途径。

🔬 方法详解

问题定义：重型长臂机械臂（HDLR）由于其结构柔性，传统的基于刚体运动学的控制方法难以实现高精度的工具定位。这限制了其在需要精确操作的任务中的应用，例如精密装配等。现有方法难以克服机械臂的结构变形带来的误差。

核心思路：该论文的核心思路是利用视觉伺服，通过直接估计工具和目标物体的6D位姿，并基于位姿误差进行控制，从而避免对机械臂精确运动学模型的依赖。通过视觉信息来补偿机械臂的结构变形，实现精确的工具定位。

技术框架：该方法包含以下主要模块：1) 基于深度神经网络的物体6D位姿估计模块，用于估计工具和目标物体的位姿。2) 基于视觉SLAM的相机-机器人标定模块，用于建立相机坐标系和机器人坐标系之间的关系。3) 基于位姿误差的视觉伺服控制模块，用于驱动机械臂运动，减小工具和目标物体之间的位姿误差。整体流程是先进行相机标定，然后通过视觉估计目标物体位姿，计算位姿误差，最后通过视觉伺服控制机械臂运动。

关键创新：该方法最重要的技术创新点在于利用视觉信息直接补偿重型机械臂的结构变形，避免了对精确运动学模型的依赖。与传统的基于运动学模型的控制方法相比，该方法能够更好地适应机械臂的结构柔性，实现更高的定位精度。此外，仅使用合成数据训练位姿估计网络，降低了数据采集成本。

关键设计：该论文的关键设计包括：1) 使用手眼相机配置，便于直接估计工具和目标物体的相对位姿。2) 使用深度神经网络进行物体6D位姿估计，提高位姿估计的精度和鲁棒性。3) 使用视觉SLAM进行相机-机器人标定，提高标定精度。4) 采用合适的视觉伺服控制算法，保证系统的稳定性和收敛速度。具体的网络结构、损失函数和控制参数等细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在真实环境中实现了小于2毫米的工具定位精度（沿非深度轴）。该精度是在一个5米臂长的重型机械臂上取得的，验证了该方法在实际应用中的有效性。此外，该方法仅使用合成数据训练位姿估计网络，降低了数据采集成本，提高了方法的实用性。

🎯 应用场景

该研究成果可应用于重型机械臂的精密装配、焊接、喷涂等领域。通过提高重型机械臂的任务灵活性和自动化水平，可以降低人工成本，提高生产效率，并改善工作环境。未来，该方法有望推广到其他类型的柔性机器人，例如电缆驱动机器人等。

📄 摘要（原文）

Recent advances in visual 6D pose estimation of objects using deep neural networks have enabled novel ways of vision-based control for heavy-duty robotic applications. In this study, we present a pipeline for the precise tool positioning of heavy-duty, long-reach (HDLR) manipulators using advanced machine vision. A camera is utilized in the so-called eye-in-hand configuration to estimate directly the poses of a tool and a target object of interest (OOI). Based on the pose error between the tool and the target, along with motion-based calibration between the camera and the robot, precise tool positioning can be reliably achieved using conventional robotic modeling and control methods prevalent in the industry. The proposed methodology comprises orientation and position alignment based on the visually estimated OOI poses, whereas camera-to-robot calibration is conducted based on motion utilizing visual SLAM. The methods seek to avert the inaccuracies resulting from rigid-body--based kinematics of structurally flexible HDLR manipulators via image-based algorithms. To train deep neural networks for OOI pose estimation, only synthetic data are utilized. The methods are validated in a real-world setting using an HDLR manipulator with a 5 m reach. The experimental results demonstrate that an image-based average tool positioning error of less than 2 mm along the non-depth axes is achieved, which facilitates a new way to increase the task flexibility and automation level of non-rigid HDLR manipulators.

Increasing the Task Flexibility of Heavy-Duty Manipulators Using Visual 6D Pose Estimation of Objects

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理