A Novel Multi-Objective Reinforcement Learning Algorithm for Pursuit-Evasion Game

📄 arXiv: 2503.06741v1 📥 PDF

作者: Penglin Hu, Chunhui Zhao, Quan Pan

分类: eess.SY

发布日期: 2025-03-09

备注: 23 pages, 10 figures, 1 tables


💡 一句话要点

提出基于模糊Q学习的多目标强化学习算法,解决追逃博弈中的多目标优化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多目标强化学习 模糊Q学习 追逃博弈 Pareto优化 超体积指标

📋 核心要点

  1. 实际追逃博弈涉及多个冲突目标,单目标强化学习难以平衡这些目标。
  2. 提出基于模糊Q学习的三目标强化学习算法,兼顾躲避追捕、到达目标和避开障碍。
  3. 设计基于三维超体积的评估方法和动作选择策略,平衡探索与利用,并通过仿真验证算法性能。

📝 摘要(中文)

本文提出了一种基于模糊Q学习(FQL)的三目标强化学习算法,用于解决具有多个复杂且冲突目标的追逃博弈(PEG)问题。传统的单目标强化学习通常只关注单一优化目标,难以在多个目标之间找到最佳平衡。该算法使用奖励函数来表示三个优化目标:躲避追捕、到达目标和避开障碍。此外,设计了一种基于三维超体积的多目标评估方法和动作选择策略,解决了探索-利用的困境。通过对Pareto前沿进行采样,得到全局策略的更新规则。所提出的算法在保证探索能力的同时,降低了计算负担。最后,通过仿真结果验证了算法的性能。

🔬 方法详解

问题定义:论文旨在解决追逃博弈(PEG)中多个复杂且冲突的目标优化问题。传统的单目标强化学习方法难以在躲避追捕、到达目标和避开障碍等多个目标之间找到最佳平衡点,导致策略性能受限。此外,如何在探索和利用之间进行有效权衡也是一个挑战。

核心思路:论文的核心思路是利用多目标强化学习框架,将追逃博弈中的多个目标(躲避追捕、到达目标、避开障碍)建模为独立的奖励函数,并通过模糊Q学习来学习Pareto最优策略。通过对Pareto前沿进行采样,更新全局策略,从而在多个目标之间找到一个合理的折衷。

技术框架:该算法主要包含以下几个阶段:1) 定义多目标奖励函数,分别对应躲避追捕、到达目标和避开障碍三个目标;2) 使用模糊Q学习来学习每个状态-动作对的Q值;3) 设计基于三维超体积的评估方法,用于评估不同策略的优劣;4) 设计动作选择策略,平衡探索和利用;5) 通过对Pareto前沿进行采样,更新全局策略。

关键创新:该算法的关键创新在于:1) 将模糊Q学习应用于多目标强化学习,能够处理多个目标之间的不确定性和模糊性;2) 提出了一种基于三维超体积的多目标评估方法,能够有效地评估不同策略的优劣;3) 设计了一种动作选择策略,能够在探索和利用之间进行有效的权衡。

关键设计:算法的关键设计包括:1) 奖励函数的具体形式,需要根据具体任务进行调整,以反映不同目标的优先级;2) 模糊Q学习中的模糊规则和隶属度函数的设计,需要根据具体问题进行优化;3) 三维超体积的计算方法,需要考虑计算效率和准确性;4) 动作选择策略中的探索率和利用率的平衡,需要通过实验进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过仿真实验验证了所提出算法的性能。实验结果表明,该算法能够在追逃博弈中有效地平衡多个目标,并找到Pareto最优策略。与传统的单目标强化学习算法相比,该算法在躲避追捕、到达目标和避开障碍等多个指标上均取得了显著提升。具体的性能数据和对比基线在论文中进行了详细描述。

🎯 应用场景

该研究成果可应用于机器人导航、无人机集群控制、网络安全攻防等领域。通过将多个目标纳入强化学习框架,可以使智能体在复杂环境中做出更合理的决策,提高其适应性和鲁棒性。未来,该方法有望应用于更复杂的实际场景,例如自动驾驶、智能制造等。

📄 摘要(原文)

In practical application, the pursuit-evasion game (PEG) often involves multiple complex and conflicting objectives. The single-objective reinforcement learning (RL) usually focuses on a single optimization objective, and it is difficult to find the optimal balance among multiple objectives. This paper proposes a three-objective RL algorithm based on fuzzy Q-learning (FQL) to solve the PEG with different optimization objectives. First, the multi-objective FQL algorithm is introduced, which uses the reward function to represent three optimization objectives: evading pursuit, reaching target, and avoiding obstacle. Second, a multi-objective evaluation method and action selection strategy based on three-dimensional hypervolume are designed, which solved the dilemma of exploration-exploitation. By sampling the Pareto front, the update rule of the global strategy is obtained. The proposed algorithm reduces computational load while ensuring exploration ability. Finally, the performance of the algorithm is verified by simulation results.