Reinforcement Learning Trained Observer Control for Bearings-Only Tracking

📄 arXiv: 2605.02120v1 📥 PDF

作者: Branko Ristic, Sanjeev Arulampalam

分类: cs.AI

发布日期: 2026-05-04

备注: 7 pages, 2 figures, 3 tables


💡 一句话要点

提出深度强化学习控制策略以解决目标跟踪问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 目标跟踪 卡尔曼滤波 马尔可夫决策过程 信息论 鲁棒性 估计误差

📋 核心要点

  1. 现有方法在仅基于方位角的目标跟踪中面临估计误差和一致性之间的矛盾,难以实现最佳性能。
  2. 本文提出了一种基于深度强化学习的控制策略,通过信念马尔可夫决策过程优化观察者机动,平衡估计误差和一致性。
  3. 实验结果显示,DQN策略在β=0.7时的跟踪精度与信息论基线相当,同时最坏情况下的误差降低近十倍,显著提升了鲁棒性。

📝 摘要(中文)

本文开发了一种基于深度强化学习的观察者控制策略,用于自主的仅基于方位角的移动目标跟踪。将观察者机动问题形式化为信念马尔可夫决策过程,信念状态由立方卡尔曼滤波器的后验表示。奖励函数旨在解决两个相互矛盾的目标:最小化目标位置估计误差(欧几里得距离)和保持卡尔曼滤波器估计一致性(马氏距离)。奖励通过在帕累托前沿上进行几何插值来构造,参数化为权重因子β∈[0,1]。该策略作为深度Q网络(DQN)实现,经过50,000个回合训练。性能在5,000个蒙特卡洛回合中进行评估,并与两个基线进行比较:垂直于方位的启发式方法和D-最优费舍尔信息最大化标准。结果表明,DQN策略在β=0.7时在准确性和鲁棒性之间实现了最佳权衡。

🔬 方法详解

问题定义:本文旨在解决仅基于方位角的目标跟踪中的观察者机动问题。现有方法在估计目标位置时,往往面临准确性与一致性之间的矛盾,导致跟踪性能不佳。

核心思路:论文提出将观察者机动问题形式化为信念马尔可夫决策过程,利用深度强化学习优化控制策略。通过设计奖励函数,平衡目标位置估计误差与滤波器一致性,提升跟踪效果。

技术框架:整体架构包括信念状态的构建、奖励函数的设计和深度Q网络的训练。信念状态由立方卡尔曼滤波器的后验分布表示,奖励函数通过几何插值实现目标平衡。

关键创新:最重要的创新在于将深度强化学习与信念马尔可夫决策过程相结合,提出了一种新的奖励设计方法,有效解决了目标跟踪中的一致性与准确性问题。

关键设计:在奖励函数中,设计了一个参数化的权重因子β,以调节两个目标之间的权衡。此外,DQN网络经过50,000个回合的训练,确保了策略的有效性和鲁棒性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,DQN策略在β=0.7时的跟踪精度与信息论基线相当,且最坏情况下的误差降低近十倍,展示了在准确性和鲁棒性之间的最佳权衡,显著提升了目标跟踪性能。

🎯 应用场景

该研究的潜在应用领域包括无人驾驶、智能监控和军事侦察等场景,能够在复杂环境中实现高效的目标跟踪。通过优化观察者控制策略,可以显著提升系统的自主性和可靠性,具有重要的实际价值和未来影响。

📄 摘要(原文)

This paper develops a deep reinforcement learning based observer control policy for autonomous bearings-only tracking of a moving target. The observer manoeuvre problem is formulated as a belief Markov decision process, where the belief state is represented by the posterior of a cubature Kalman filter (CKF). The reward function is designed to address two conflicting objectives: minimising the absolute target position estimation error (Euclidean distance) and maintaining CKF estimation consistency (Mahalanobis distance). The reward is formulated as a geometric interpolation between the two objectives on the Pareto front, parametrised by a weighting factor $β\in [0,1]$. The policy is implemented as a deep Q-network (DQN) trained over 50,000 episodes. Performance is evaluated over 5,000 Monte Carlo episodes and compared against two baselines: the perpendicular-to-bearing heuristic and the D-optimal Fisher information maximisation criterion. The results show that the DQN policy at $β= 0.7$ achieves the best trade-off between accuracy and robustness: it matches the information-theoretic baseline on mean tracking accuracy while reducing the worst-case error by nearly a factor of ten, owing to the implicit filter-consistency regularisation provided by the Mahalanobis term in the reward.