From CAD to POMDP: Probabilistic Planning for Robotic Disassembly of End-of-Life Products

📄 arXiv: 2511.23407v1 📥 PDF

作者: Jan Baumgärtner, Malte Hansjosten, David Hald, Adrian Hauptmannl, Alexander Puchta, Jürgen Fleischer

分类: cs.RO

发布日期: 2025-11-28


💡 一句话要点

提出基于POMDP的机器人拆卸规划框架,解决报废产品不确定性问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人拆卸 概率规划 POMDP 强化学习 循环经济

📋 核心要点

  1. 现有拆卸规划方法假设产品模型确定且完全可观察,忽略了报废产品的不确定性,导致鲁棒性不足。
  2. 论文将拆卸过程建模为POMDP,利用概率规划处理产品状态的不确定性,并结合强化学习求解。
  3. 实验表明,该框架在拆卸时间和方差上优于确定性基线,并能适应CAD模型的偏差,具有良好的泛化能力。

📝 摘要(中文)

为了支持循环经济,机器人系统不仅要组装新产品,还要拆卸报废产品,以便重复使用、回收或安全处置。现有的拆卸序列规划方法通常假设产品模型是确定性的和完全可观察的,但实际的报废产品由于磨损、腐蚀或未记录的维修,经常偏离其初始设计。因此,论文提出将拆卸过程建模为部分可观察马尔可夫决策过程(POMDP),它可以自然地捕捉产品内部状态的不确定性。论文提出了拆卸作为POMDP的数学公式,其中隐藏变量代表不确定的结构或物理属性。在此基础上,提出了一个任务和运动规划框架,该框架可以自动从CAD数据、机器人能力和检查结果中推导出特定的POMDP模型。为了获得易于处理的策略,使用强化学习方法来近似这个公式,该方法基于检查先验信息来操作随机动作结果,而贝叶斯滤波器在执行过程中持续维护对潜在EOL条件的信念。在两个机器人系统上的三个产品上,证明了这种概率规划框架在平均拆卸时间和方差方面优于确定性基线,可以推广到不同的机器人设置,并成功适应CAD模型的偏差,例如缺少或卡住的部件。

🔬 方法详解

问题定义:论文旨在解决报废产品机器人拆卸过程中,由于产品状态不确定性(如零件损坏、缺失或卡住)导致的拆卸效率低下和鲁棒性差的问题。现有方法通常基于确定性的CAD模型进行规划,无法有效处理实际报废产品与设计模型的偏差。

核心思路:论文的核心思路是将拆卸过程建模为POMDP,利用概率模型来表示产品状态的不确定性,并通过规划来优化在不确定条件下拆卸的策略。通过引入部分可观测性,机器人可以根据观测结果更新对产品状态的信念,并选择最优的拆卸动作。

技术框架:该框架包含以下主要模块:1) POMDP模型构建:从CAD数据、机器人能力和检查结果中自动推导出POMDP模型,包括状态空间、动作空间、观测模型和转移模型。2) 策略学习:使用强化学习方法近似求解POMDP,学习在不确定条件下最优的拆卸策略。3) 信念更新:使用贝叶斯滤波器根据观测结果更新对产品状态的信念。4) 任务和运动规划:结合POMDP策略进行任务规划和运动规划,实现机器人的拆卸操作。

关键创新:论文最重要的技术创新点是将POMDP引入到机器人拆卸规划中,从而能够显式地处理产品状态的不确定性。与传统的确定性规划方法相比,该方法能够更好地适应实际报废产品的复杂情况,提高拆卸的鲁棒性和效率。

关键设计:论文的关键设计包括:1) 使用隐藏变量表示产品的不确定状态,例如零件是否损坏或卡住。2) 使用检查先验信息来指导强化学习过程,提高学习效率。3) 使用贝叶斯滤波器来维护对产品状态的信念,并根据观测结果进行更新。4) 使用随机动作结果来模拟拆卸过程中的不确定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该概率规划框架在平均拆卸时间和方差方面优于确定性基线。在三个产品和两个机器人系统上的实验中,该框架能够成功适应CAD模型的偏差,例如缺少或卡住的部件。与确定性方法相比,该方法能够显著提高拆卸的鲁棒性和效率,并具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于自动化报废产品拆卸、电子产品回收、汽车零部件再制造等领域。通过提高拆卸效率和降低拆卸成本,有助于促进循环经济发展,减少环境污染,实现资源的可持续利用。未来,该技术有望应用于更复杂的拆卸任务,例如处理包含多种材料和复杂结构的报废产品。

📄 摘要(原文)

To support the circular economy, robotic systems must not only assemble new products but also disassemble end-of-life (EOL) ones for reuse, recycling, or safe disposal. Existing approaches to disassembly sequence planning often assume deterministic and fully observable product models, yet real EOL products frequently deviate from their initial designs due to wear, corrosion, or undocumented repairs. We argue that disassembly should therefore be formulated as a Partially Observable Markov Decision Process (POMDP), which naturally captures uncertainty about the product's internal state. We present a mathematical formulation of disassembly as a POMDP, in which hidden variables represent uncertain structural or physical properties. Building on this formulation, we propose a task and motion planning framework that automatically derives specific POMDP models from CAD data, robot capabilities, and inspection results. To obtain tractable policies, we approximate this formulation with a reinforcement-learning approach that operates on stochastic action outcomes informed by inspection priors, while a Bayesian filter continuously maintains beliefs over latent EOL conditions during execution. Using three products on two robotic systems, we demonstrate that this probabilistic planning framework outperforms deterministic baselines in terms of average disassembly time and variance, generalizes across different robot setups, and successfully adapts to deviations from the CAD model, such as missing or stuck parts.