Deep reinforcement learning for tracking a moving target in jellyfish-like swimming

📄 arXiv: 2409.08815v1 📥 PDF

作者: Yihao Chen, Yue Yang

分类: physics.flu-dyn, cs.AI

发布日期: 2024-09-13

备注: 22pages,14 figures

期刊: J. Fluid Mech. 1017 (2025) A18

DOI: 10.1017/jfm.2025.10470


💡 一句话要点

提出基于深度强化学习的控制方法,实现水母状游泳者对移动目标的有效追踪。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 流固耦合 水母状游泳者 目标追踪 浸没边界法

📋 核心要点

  1. 现有方法难以有效控制流体环境中柔性物体的运动,尤其是在存在复杂流固耦合作用时。
  2. 论文提出基于DQN的控制策略,通过学习游泳者的几何和动态参数与最优动作之间的映射关系,实现目标追踪。
  3. 实验结果表明,该方法能够使水母状游泳者动态调整航向,有效追踪移动目标,扩展了机器学习在流体控制领域的应用。

📝 摘要(中文)

本文提出了一种深度强化学习方法,用于训练水母状游泳者在二维流体环境中有效地追踪移动目标。该游泳者是一个配备了基于扭转弹簧的肌肉模型的柔性物体。我们采用深度Q网络(DQN),将游泳者的几何形状和动态参数作为输入,输出作用于游泳者的力作为动作。特别地,我们引入了动作调节机制,以减轻复杂流固耦合相互作用的干扰。这些动作的目标是以尽可能短的时间将游泳者导航到目标点。在DQN训练中,游泳者运动的数据来自使用浸没边界法进行的模拟。在追踪移动目标时,由于脱落的涡流与游泳者自身运动之间的流体动力相互作用,力的施加与游泳者身体的相应反应之间存在固有的延迟。我们的测试表明,具有DQN代理和动作调节的游泳者能够根据其瞬时状态动态调整其航向。这项工作扩展了机器学习在控制流体环境中柔性物体方面的应用范围。

🔬 方法详解

问题定义:论文旨在解决水母状游泳者在二维流体环境中追踪移动目标的问题。现有方法在处理柔性物体与流体之间的复杂相互作用时存在困难,难以实现精确控制。这种相互作用会导致控制延迟和不稳定性,使得传统控制方法难以应用。

核心思路:论文的核心思路是利用深度强化学习(DQN)来学习一个控制策略,该策略能够根据游泳者的状态(几何形状和动态参数)选择合适的动作(施加的力),从而引导游泳者追踪目标。通过大量的模拟训练,DQN可以学习到如何克服流固耦合带来的挑战,并实现高效的目标追踪。

技术框架:整体框架包括三个主要部分:1) 基于浸没边界法的流体动力学模拟器,用于生成训练数据;2) DQN代理,用于学习控制策略;3) 动作调节机制,用于减轻流固耦合的干扰。模拟器提供游泳者的状态信息,DQN代理根据状态选择动作,动作调节机制对动作进行修正,然后将修正后的动作施加到游泳者身上。

关键创新:论文的关键创新在于将深度强化学习应用于控制流体环境中的柔性物体,并引入了动作调节机制来解决流固耦合带来的问题。与传统的控制方法相比,DQN能够自动学习控制策略,无需手动设计复杂的控制规则。动作调节机制能够有效地抑制流固耦合带来的干扰,提高控制的稳定性和精度。

关键设计:DQN的网络结构包括输入层(接收游泳者的状态信息)、隐藏层(用于学习状态与动作之间的映射关系)和输出层(输出每个动作的Q值)。损失函数采用均方误差(MSE),用于衡量预测Q值与目标Q值之间的差异。动作调节机制通过限制动作的变化幅度来减轻流固耦合的干扰。训练过程中,使用ε-greedy策略进行探索,以平衡探索和利用。

📊 实验亮点

实验结果表明,所提出的DQN代理和动作调节机制能够使水母状游泳者有效地追踪移动目标。游泳者能够根据其瞬时状态动态调整航向,克服流固耦合带来的挑战。与没有动作调节机制的DQN代理相比,所提出的方法能够显著提高追踪的精度和稳定性。具体的性能数据(例如,追踪误差、收敛速度等)在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于水下机器人、微型机器人等领域,例如,可以用于开发能够自主导航和执行任务的水下机器人,或者用于设计能够精确控制的微型医疗设备。此外,该方法还可以推广到其他流体控制问题,例如,控制飞行器的姿态和轨迹,或者优化管道中的流体流动。

📄 摘要(原文)

We develop a deep reinforcement learning method for training a jellyfish-like swimmer to effectively track a moving target in a two-dimensional flow. This swimmer is a flexible object equipped with a muscle model based on torsional springs. We employ a deep Q-network (DQN) that takes the swimmer's geometry and dynamic parameters as inputs, and outputs actions which are the forces applied to the swimmer. In particular, we introduce an action regulation to mitigate the interference from complex fluid-structure interactions. The goal of these actions is to navigate the swimmer to a target point in the shortest possible time. In the DQN training, the data on the swimmer's motions are obtained from simulations conducted using the immersed boundary method. During tracking a moving target, there is an inherent delay between the application of forces and the corresponding response of the swimmer's body due to hydrodynamic interactions between the shedding vortices and the swimmer's own locomotion. Our tests demonstrate that the swimmer, with the DQN agent and action regulation, is able to dynamically adjust its course based on its instantaneous state. This work extends the application scope of machine learning in controlling flexible objects within fluid environments.