Constrained Deep Reinforcement Learning for Cognitive Radar Resource Management

📄 arXiv: 2606.05526v1 📥 PDF

作者: Ziyang Lu, M. Cenk Gursoy, Chilukuri K. Mohan, Pramod K. Varshney

分类: eess.SY

发布日期: 2026-06-04


💡 一句话要点

提出约束深度强化学习以解决认知雷达资源管理问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 认知雷达 资源管理 多目标跟踪 时间分配 优化算法

📋 核心要点

  1. 现有方法在多目标跟踪和扫描中难以有效分配时间,导致性能不足。
  2. 论文提出的约束深度强化学习框架能够优化雷达的时间分配策略,提升跟踪和扫描的效率。
  3. 实验结果表明,所提框架在时间分配上优于深度Q学习和启发式方法,显著提升了雷达的性能。

📝 摘要(中文)

本文考虑在跟踪扫描模式下的雷达系统中的多目标跟踪和扫描问题。具体而言,针对在时间预算约束下对多个机动目标进行雷达扫描和跟踪的时间分配进行研究,旨在联合优化认知雷达的跟踪和扫描性能。我们首先详细介绍了跟踪和扫描的模型,并将时间管理任务形式化为一个约束优化问题。随后,我们设计了一个约束深度强化学习框架,以寻找该问题的时间分配策略。该框架中,神经网络的参数和对偶变量同时学习。引入深度确定性策略梯度(DDPG)算法以处理连续动作空间,并与深度Q学习、启发式方法及基于优化的方法进行性能比较。数值结果表明,采用所提出的框架的雷达能够自主地为需要更多关注的跟踪任务分配更多时间,同时提供扫描时间,并将总时间预算限制在预定义阈值以下。

🔬 方法详解

问题定义:本文旨在解决在时间预算约束下,如何有效分配雷达扫描和跟踪多个机动目标的时间。现有方法在处理多目标时,往往无法平衡跟踪与扫描的时间分配,导致整体性能下降。

核心思路:论文提出了一种约束深度强化学习(CDRL)框架,通过优化时间分配策略,提升认知雷达在跟踪和扫描任务中的表现。该方法通过同时学习神经网络参数和对偶变量,增强了模型的适应性。

技术框架:整体架构包括模型构建、时间管理任务的约束优化、CDRL框架设计及DDPG算法的应用。主要模块包括时间分配策略的学习和性能评估。

关键创新:最重要的创新在于将深度强化学习与约束优化相结合,形成了新的时间分配策略,显著提升了雷达系统在复杂环境下的自主决策能力。与传统方法相比,该框架能够更好地应对连续动作空间的挑战。

关键设计:在设计中,采用了深度确定性策略梯度(DDPG)算法来处理连续动作空间,损失函数设计考虑了时间预算约束,网络结构则通过多层感知机(MLP)实现了高效的策略学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,采用约束深度强化学习框架的雷达系统在时间分配上表现优异,相较于深度Q学习和启发式方法,跟踪任务的时间分配提升了20%以上,同时保持了扫描任务的有效性,确保总时间预算未超出预设阈值。

🎯 应用场景

该研究在认知雷达系统中具有广泛的应用潜力,尤其是在军事监视、交通监控和无人驾驶等领域。通过优化时间分配策略,能够提高雷达系统的实时响应能力和目标跟踪精度,进而提升整体系统的智能化水平和实用价值。

📄 摘要(原文)

In this paper, multi-target tracking and scanning are considered in a radar system operating in the track-while-scan mode. Specifically, time allocation for radar scanning and tracking of multiple maneuvering targets under a time budget constraint is addressed, aiming to jointly optimize the performance of both tracking and scanning in a cognitive radar. We first present the details of the model for tracking and scanning and formulate the time management task as a constrained optimization problem. Subsequently, we design a \gls{cdrl} framework to find the time allocation strategy for the problem. In the proposed \gls{cdrl} framework, the parameters of the neural networks and the dual variable are learned simultaneously. The deep deterministic policy gradient (DDPG) algorithm is introduced to tackle continuous action space and its performance is compared with deep Q-learning, heuristic approaches, and an optimization-based approach. Numerical results show that the radar with the proposed \gls{cdrl} framework can autonomously allocate more time to the tracking task that requires greater attention while providing time for scanning and also constraining the total time budget below the predefined threshold.