SAPO-RL: Sequential Actuator Placement Optimization for Fuselage Assembly via Reinforcement Learning

📄 arXiv: 2504.17603v1 📥 PDF

作者: Peng Ye, Juan Du

分类: eess.SY

发布日期: 2025-04-24

备注: 27 pages, 14 figures


💡 一句话要点

提出基于强化学习的SAPO-RL框架,用于飞机机身装配中的执行器优化布局。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 执行器布局优化 飞机机身装配 D3QN 子模函数优化 柔性结构 顺序决策

📋 核心要点

  1. 现有方法通常预先设定执行器数量,忽略了执行器数量和位置对装配质量和成本的综合影响,导致优化空间受限。
  2. 论文提出基于D3QN的强化学习框架SAPO-RL,通过顺序决策优化执行器的位置和数量,并结合子模函数优化提升效率。
  3. 数值实验表明,该方法在有限执行器数量下,能有效提高装配精度,验证了其在执行器布局优化方面的优越性。

📝 摘要(中文)

复合材料机身的精确装配对满足飞机装配的超高精度要求至关重要。由于尺寸偏差,两个机身装配时会存在间隙。实际应用中,需要执行器通过施加推拉力来调整机身尺寸。这些执行器的位置和力设置显著影响形状调整的效率。现有文献通常预先确定固定数量的执行器,这在整体质量和相应的执行器成本方面并非最优。然而,由于柔性结构、复杂的材料属性以及来料机身的尺寸可变性,在位置和数量方面优化执行器的布局具有挑战性。为了应对这些挑战,本文提出了一种强化学习(RL)框架,该框架能够对执行器布局选择和最佳力计算进行顺序决策。具体而言,我们的方法采用Dueling Double Deep Q-Learning(D3QN)算法来改进顺序执行器布局的决策能力。精心设计的环境能够基于系统状态顺序且增量地选择执行器。我们将执行器选择问题表述为一个子模函数优化问题,其中子模性质可用于有效地实现接近最优的解决方案。所提出的方法已通过数值研究和比较研究进行了全面评估,证明了其在以有限的执行器数量提高装配精度方面的有效性和卓越性能。

🔬 方法详解

问题定义:论文旨在解决飞机机身装配中执行器布局优化问题,即在考虑柔性结构、材料属性和尺寸偏差的情况下,如何确定执行器的最佳位置和数量,以最小化装配误差和执行器成本。现有方法通常预先确定执行器数量,无法根据实际情况灵活调整,导致装配精度和成本控制难以达到最优。

核心思路:论文的核心思路是将执行器布局优化问题建模为马尔可夫决策过程(MDP),利用强化学习算法学习最优的执行器选择策略。通过顺序选择执行器,并根据系统状态动态调整力的大小,最终实现装配精度和成本的平衡。采用D3QN算法旨在提升决策的准确性和稳定性。

技术框架:SAPO-RL框架主要包含以下几个模块:1) 环境建模:构建一个能够模拟机身装配过程的仿真环境,包括机身结构、材料属性、执行器模型等。2) 状态表示:定义系统状态,包括当前执行器的位置、力的大小、机身的变形情况等。3) 动作空间:定义可选择的执行器位置和力的大小。4) 奖励函数:设计奖励函数,鼓励选择能够有效减小装配误差并降低执行器成本的动作。5) D3QN智能体:使用D3QN算法训练智能体,使其能够根据当前状态选择最优的动作。

关键创新:论文的关键创新在于将执行器布局优化问题转化为一个顺序决策问题,并利用强化学习算法进行求解。与传统优化方法相比,该方法能够更好地处理柔性结构、材料属性和尺寸偏差等复杂因素,并能够根据实际情况动态调整执行器的位置和数量。此外,将执行器选择问题表述为子模函数优化问题,利用子模性质加速求解过程。

关键设计:论文采用D3QN算法作为强化学习智能体,D3QN是DQN的改进版本,通过引入Dueling结构和Double DQN机制,提高了算法的稳定性和收敛速度。奖励函数的设计至关重要,需要平衡装配精度和执行器成本。具体而言,奖励函数可以设置为装配误差的负值加上执行器成本的负值,并使用合适的权重系数进行调整。环境建模的精度直接影响算法的性能,需要尽可能真实地模拟机身装配过程。

📊 实验亮点

论文通过数值实验验证了SAPO-RL框架的有效性。实验结果表明,与传统方法相比,该方法能够在有限的执行器数量下,显著提高装配精度。具体而言,在相同的装配精度要求下,SAPO-RL框架可以减少执行器的使用数量,从而降低成本。此外,对比实验也表明,D3QN算法在执行器布局优化问题上优于其他强化学习算法。

🎯 应用场景

该研究成果可应用于飞机、汽车等大型复杂结构的精密装配领域。通过优化执行器的布局,可以提高装配精度,降低制造成本,缩短生产周期。此外,该方法还可以推广到其他需要进行形状调整和控制的领域,如桥梁建设、船舶制造等,具有广阔的应用前景和潜在的经济价值。

📄 摘要(原文)

Precise assembly of composite fuselages is critical for aircraft assembly to meet the ultra-high precision requirements. Due to dimensional variations, there is a gap when two fuselage assemble. In practice, actuators are required to adjust fuselage dimensions by applying forces to specific points on fuselage edge through pulling or pushing force actions. The positioning and force settings of these actuators significantly influence the efficiency of the shape adjustments. The current literature usually predetermines the fixed number of actuators, which is not optimal in terms of overall quality and corresponding actuator costs. However, optimal placement of actuators in terms of both locations and number is challenging due to compliant structures, complex material properties, and dimensional variabilities of incoming fuselages. To address these challenges, this paper introduces a reinforcement learning (RL) framework that enables sequential decision-making for actuator placement selection and optimal force computation. Specifically, our methodology employs the Dueling Double Deep Q-Learning (D3QN) algorithm to refine the decision-making capabilities of sequential actuator placements. The environment is meticulously crafted to enable sequential and incremental selection of an actuator based on system states. We formulate the actuator selection problem as a submodular function optimization problem, where the sub-modularity properties can be adopted to efficiently achieve near-optimal solutions. The proposed methodology has been comprehensively evaluated through numerical studies and comparison studies, demonstrating its effectiveness and outstanding performance in enhancing assembly precision with limited actuator numbers.