Reinforcement Learning Approach to Optimizing Profilometric Sensor Trajectories for Surface Inspection

📄 arXiv: 2409.03429v1 📥 PDF

作者: Sara Roos-Hoefgeest, Mario Roos-Hoefgeest, Ignacio Alvarez, Rafael C. González

分类: cs.RO, cs.AI

发布日期: 2024-09-05


💡 一句话要点

提出基于强化学习的轮廓传感器轨迹优化方法,用于表面缺陷检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 轮廓传感器 轨迹优化 表面检测 机器人 PPO算法 CAD模型 质量控制

📋 核心要点

  1. 高精度表面缺陷检测对质量控制至关重要,现有方法难以兼顾传感器姿态优化和轮廓均匀分布。
  2. 利用强化学习动态调整传感器位姿,在Boustrophedon扫描基础上,优化传感器与表面的距离和方向,并保证轮廓均匀性。
  3. 通过仿真和真实实验验证,该方法能够基于CAD模型进行离线轨迹规划,并提升表面检测的质量和效率。

📝 摘要(中文)

本文提出了一种基于强化学习(RL)的新方法,用于优化轮廓传感器在机器人检测中的轨迹。该方法基于Boustrophedon扫描,动态调整传感器位置和倾斜度,以保持与表面的最佳距离和相对方向,同时确保一致的轮廓距离,实现均匀和高质量的扫描。该方法在基于零件CAD模型的仿真环境中进行,模拟了真实扫描条件,包括传感器噪声和表面不规则性。该方法实现了基于CAD模型的离线轨迹规划。论文的关键贡献包括状态空间、动作空间和奖励函数的建模,专门为使用轮廓传感器的检测应用而设计。使用近端策略优化(PPO)算法有效地训练RL智能体,证明了其优化轮廓传感器检测轨迹的能力。通过在仿真中对特定训练部件上训练的模型进行测试,并在真实环境中通过UR3e机器人手臂执行离线生成的优化轨迹来检测零件,验证了该方法的有效性。

🔬 方法详解

问题定义:论文旨在解决使用轮廓传感器进行表面检测时,如何优化传感器轨迹以实现高质量、高效率的扫描。现有方法,如传统的Boustrophedon扫描,难以根据表面几何形状动态调整传感器姿态,导致扫描质量不均匀,甚至遗漏缺陷。此外,手动调整或预编程的轨迹难以适应复杂形状的零件,且缺乏对传感器噪声和表面不规则性的鲁棒性。

核心思路:论文的核心思路是将轨迹优化问题建模为一个强化学习问题。通过设计合适的状态空间、动作空间和奖励函数,训练一个RL智能体来动态调整传感器位姿,使其在扫描过程中始终保持最佳的距离和方向,并确保轮廓分布的均匀性。这种方法能够自适应地学习最优轨迹,并对传感器噪声和表面不规则性具有一定的鲁棒性。

技术框架:整体框架包括以下几个主要模块:1) 基于CAD模型的仿真环境,用于模拟真实扫描条件,包括传感器噪声和表面不规则性;2) RL智能体,使用PPO算法进行训练,负责根据当前状态选择最优动作;3) 状态空间,定义了传感器和工件的相对位置、方向等信息;4) 动作空间,定义了传感器可以执行的位姿调整动作;5) 奖励函数,用于评估每个动作的优劣,引导智能体学习最优策略。

关键创新:论文最重要的技术创新在于将强化学习应用于轮廓传感器轨迹优化问题,并设计了专门针对该问题的状态空间、动作空间和奖励函数。与传统的轨迹规划方法相比,该方法能够自适应地学习最优轨迹,并对传感器噪声和表面不规则性具有一定的鲁棒性。此外,该方法还实现了基于CAD模型的离线轨迹规划,减少了实际扫描过程中的调试时间。

关键设计:状态空间包括传感器与工件之间的距离、角度以及扫描轮廓的均匀性等信息。动作空间定义了传感器在各个方向上的平移和旋转。奖励函数的设计目标是使传感器保持最佳的距离和方向,并确保轮廓分布的均匀性。PPO算法用于训练RL智能体,通过不断地试错和学习,找到最优的策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够在仿真环境中有效地优化轮廓传感器轨迹,并提高扫描质量。在真实实验中,通过UR3e机器人手臂执行离线生成的优化轨迹,成功地检测了零件的表面缺陷。虽然论文中没有给出具体的性能数据和对比基线,但实验结果验证了该方法在实际应用中的可行性。

🎯 应用场景

该研究成果可广泛应用于制造业中的表面缺陷检测,例如汽车零部件、航空航天部件和电子产品的质量控制。通过优化传感器轨迹,可以提高检测精度和效率,降低生产成本,并确保产品质量。未来,该方法可以扩展到其他类型的传感器和更复杂的表面形状,实现更智能化的表面检测。

📄 摘要(原文)

High-precision surface defect detection in manufacturing is essential for ensuring quality control. Laser triangulation profilometric sensors are key to this process, providing detailed and accurate surface measurements over a line. To achieve a complete and precise surface scan, accurate relative motion between the sensor and the workpiece is required. It is crucial to control the sensor pose to maintain optimal distance and relative orientation to the surface. It is also important to ensure uniform profile distribution throughout the scanning process. This paper presents a novel Reinforcement Learning (RL) based approach to optimize robot inspection trajectories for profilometric sensors. Building upon the Boustrophedon scanning method, our technique dynamically adjusts the sensor position and tilt to maintain optimal orientation and distance from the surface, while also ensuring a consistent profile distance for uniform and high-quality scanning. Utilizing a simulated environment based on the CAD model of the part, we replicate real-world scanning conditions, including sensor noise and surface irregularities. This simulation-based approach enables offline trajectory planning based on CAD models. Key contributions include the modeling of the state space, action space, and reward function, specifically designed for inspection applications using profilometric sensors. We use Proximal Policy Optimization (PPO) algorithm to efficiently train the RL agent, demonstrating its capability to optimize inspection trajectories with profilometric sensors. To validate our approach, we conducted several experiments where a model trained on a specific training piece was tested on various parts in simulation. Also, we conducted a real-world experiment by executing the optimized trajectory, generated offline from a CAD model, to inspect a part using a UR3e robotic arm model.