Stone Soup Multi-Target Tracking Feature Extraction For Autonomous Search And Track In Deep Reinforcement Learning Environment
作者: Jan-Hendrik Ewers, Joe Gibbs, David Anderson
分类: cs.RO, cs.LG, eess.SY
发布日期: 2025-03-03
备注: Submitted to IEEE FUSION 2025
💡 一句话要点
利用Stone Soup特征提取,提出深度强化学习自主搜索跟踪方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 多目标跟踪 传感器管理 Stone Soup 自主搜索跟踪
📋 核心要点
- 未来军事空中资产需要管理异构传感器,而传感器资源管理是一个复杂的问题,现有方法面临挑战。
- 论文提出利用Stone Soup跟踪框架作为特征提取器,结合深度强化学习训练智能体,实现自主传感器管理。
- 实验表明,在Gymnasium和Stone Soup环境中训练的强化学习智能体,性能优于简单的搜索和跟踪策略。
📝 摘要(中文)
本文提出了一种深度强化学习(DRL)训练方法,该方法利用Stone Soup跟踪框架作为特征提取器,用于训练智能体执行传感器管理任务。文中介绍了一个通用框架,用于将Stone Soup跟踪器组件嵌入到Gymnasium环境中,从而能够使用Stable Baselines3进行快速且可配置的跟踪器部署,以进行RL训练。该方法在一个传感器管理任务中得到验证,其中智能体被训练为利用从Stone Soup跟踪器生成的跟踪列表来搜索和跟踪空域区域。一个在搜索和跟踪场景中使用三种神经网络架构的示例实现展示了该方法,并表明在Gymnasium和Stone Soup环境中训练的RL智能体可以优于简单的传感器搜索和跟踪策略。
🔬 方法详解
问题定义:论文旨在解决未来军事空中资产中异构传感器资源的管理问题。现有方法在复杂战场环境下,难以有效利用多种传感器信息进行目标搜索和跟踪,导致资源浪费和性能下降。深度强化学习方法虽然有潜力,但需要高保真训练环境和有效的特征提取器,而这两者都存在挑战。
核心思路:论文的核心思路是将Stone Soup跟踪框架作为特征提取器,为深度强化学习智能体提供高质量的跟踪信息。Stone Soup是一个灵活的多目标跟踪框架,可以处理来自不同传感器的异构数据。通过将Stone Soup集成到强化学习环境中,智能体可以学习如何根据跟踪信息优化传感器管理策略。
技术框架:整体框架包括三个主要部分:Gymnasium环境、Stone Soup跟踪器和深度强化学习智能体。Gymnasium环境模拟空域搜索和跟踪场景,Stone Soup跟踪器负责处理传感器数据并生成跟踪列表,深度强化学习智能体根据跟踪列表选择传感器动作。Stable Baselines3用于训练智能体。
关键创新:关键创新在于将Stone Soup跟踪框架无缝集成到深度强化学习训练环境中,并将其用作特征提取器。这使得智能体能够利用高质量的跟踪信息来学习更有效的传感器管理策略。此外,该框架具有通用性,可以轻松配置不同的Stone Soup跟踪器和深度强化学习算法。
关键设计:论文使用三种不同的神经网络架构(具体架构未知)作为深度强化学习智能体的策略网络。奖励函数的设计旨在鼓励智能体搜索和跟踪目标,同时避免不必要的传感器动作。具体的参数设置和损失函数细节在论文中可能有所描述,但摘要中未提及。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Gymnasium和Stone Soup环境中训练的强化学习智能体,在搜索和跟踪任务中优于简单的传感器搜索和跟踪策略。具体的性能数据和提升幅度在摘要中未给出,需要在论文中查找。
🎯 应用场景
该研究成果可应用于未来的军事空中资产,实现自主传感器管理,提高目标搜索和跟踪效率。此外,该方法也可推广到其他需要多传感器融合和资源管理的领域,如自动驾驶、机器人导航和环境监测等,具有重要的实际应用价值和潜在的未来影响。
📄 摘要(原文)
Management of sensing resources is a non-trivial problem for future military air assets with future systems deploying heterogeneous sensors to generate information of the battlespace. Machine learning techniques including deep reinforcement learning (DRL) have been identified as promising approaches, but require high-fidelity training environments and feature extractors to generate information for the agent. This paper presents a deep reinforcement learning training approach, utilising the Stone Soup tracking framework as a feature extractor to train an agent for a sensor management task. A general framework for embedding Stone Soup tracker components within a Gymnasium environment is presented, enabling fast and configurable tracker deployments for RL training using Stable Baselines3. The approach is demonstrated in a sensor management task where an agent is trained to search and track a region of airspace utilising track lists generated from Stone Soup trackers. A sample implementation using three neural network architectures in a search-and-track scenario demonstrates the approach and shows that RL agents can outperform simple sensor search and track policies when trained within the Gymnasium and Stone Soup environment.