Physics-Aware Combinatorial Assembly Sequence Planning using Data-free Action Masking

📄 arXiv: 2408.10162v3 📥 PDF

作者: Ruixuan Liu, Alan Chen, Weiye Zhao, Changliu Liu

分类: cs.RO, cs.LG

发布日期: 2024-08-19 (更新: 2025-03-23)

🔗 代码/项目: GITHUB


💡 一句话要点

提出物理感知组合装配序列规划以解决装配可行性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 组合装配 装配序列规划 深度强化学习 物理感知 动作掩码 机器人技术 自动化制造

📋 核心要点

  1. 现有的组合装配序列规划方法在处理物理可行性时面临挑战,尤其是由于其组合性质导致的复杂性。
  2. 本文提出了一种基于深度强化学习的构建策略,通过设计物理感知动作掩码来过滤无效动作,从而确保装配序列的可执行性。
  3. 实验结果显示,所提方法在乐高装配任务中实现了100%的成功率,显著优于最佳对比基线,后者失败了超过40个结构。

📝 摘要(中文)

组合装配利用标准化的单元原件构建满足用户规格的物体。本文研究物理组合装配的装配序列规划(ASP),目标是为放置单元原件找到一系列动作序列,以构建目标物体。为确保规划的装配序列在物理上可执行,本文采用深度强化学习来学习放置单元原件的构建策略。特别地,我们设计了一种在线物理感知动作掩码,过滤掉无效动作,有效指导策略学习并确保无违规部署。实验结果表明,所提方法在超过250个3D结构的乐高装配中实现了100%的成功率,而最佳对比基线失败了超过40个结构。

🔬 方法详解

问题定义:本文旨在解决物理组合装配中的装配序列规划问题,现有方法在处理组合性质和物理可行性时存在显著不足,导致无法有效规划可执行的装配序列。

核心思路:通过深度强化学习学习放置单元原件的策略,并设计物理感知动作掩码来过滤无效动作,从而确保所规划的装配序列在物理上是可行的。

技术框架:整体方法包括数据收集、策略学习和动作掩码设计三个主要模块。首先,收集装配数据以训练模型;其次,利用深度强化学习优化策略;最后,应用动作掩码过滤无效动作。

关键创新:最重要的创新点在于引入了物理感知动作掩码,这一设计有效地指导了策略学习,确保了装配序列的物理可行性,与传统方法相比具有显著优势。

关键设计:在参数设置上,采用了适应性学习率和多层神经网络结构,以提高学习效率和策略的泛化能力。损失函数设计上,结合了物理约束和策略优化目标,以确保模型的有效性和稳定性。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,所提方法在乐高装配任务中实现了100%的成功率,显著优于最佳对比基线,后者在超过40个结构的装配中失败。这一成果展示了方法在物理可行性和组合装配中的有效性。

🎯 应用场景

该研究的潜在应用领域包括机器人装配、自动化制造和智能玩具等。通过实现物理感知的装配序列规划,可以提高自动化装配的效率和准确性,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Combinatorial assembly uses standardized unit primitives to build objects that satisfy user specifications. This paper studies assembly sequence planning (ASP) for physical combinatorial assembly. Given the shape of the desired object, the goal is to find a sequence of actions for placing unit primitives to build the target object. In particular, we aim to ensure the planned assembly sequence is physically executable. However, ASP for combinatorial assembly is particularly challenging due to its combinatorial nature. To address the challenge, we employ deep reinforcement learning to learn a construction policy for placing unit primitives sequentially to build the desired object. Specifically, we design an online physics-aware action mask that filters out invalid actions, which effectively guides policy learning and ensures violation-free deployment. In the end, we apply the proposed method to Lego assembly with more than 250 3D structures. The experiment results demonstrate that the proposed method plans physically valid assembly sequences to build all structures, achieving a $100\%$ success rate, whereas the best comparable baseline fails more than $40$ structures. Our implementation is available at \url{https://github.com/intelligent-control-lab/PhysicsAwareCombinatorialASP}.