RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

作者: Yanqiu Yu, Zhifan Jin, Sijia Chen, Tongfei Chu, En Yu, Liman Liu, Wenbing Tao

分类: cs.CV

发布日期: 2026-02-25

💡 一句话要点

提出RT-RMOT数据集与RTrack框架，解决全天候条件下的RGB-Thermal指称多目标跟踪问题。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: RGB-Thermal 指称多目标跟踪 多模态融合 强化学习 大数据集

📋 核心要点

现有指称多目标跟踪在夜间、烟雾等低可见度条件下存在局限性，无法有效利用热成像模态。
提出RTrack框架，融合RGB、热成像和文本特征，并采用分组序列策略优化(GSPO)来提升模型性能。
引入裁剪优势缩放(CAS)策略抑制梯度爆炸，并设计奖励函数平衡探索与利用，提升目标感知能力。

📝 摘要（中文）

本文提出了一种新的RGB-Thermal指称多目标跟踪(RT-RMOT)任务，旨在融合RGB外观特征和热成像的鲁棒性，实现全天候的指称多目标跟踪。为此，构建了首个RGB-Thermal模态下的指称多目标跟踪数据集RefRT，包含388个语言描述，1250个跟踪目标和166,147个L-RGB-T三元组。此外，提出了基于多模态大语言模型(MLLM)的RTrack框架，集成了RGB、热成像和文本特征。针对框架的改进空间，引入了分组序列策略优化(GSPO)策略，进一步挖掘模型潜力。为了缓解强化学习微调期间的训练不稳定性，引入了裁剪优势缩放(CAS)策略来抑制梯度爆炸。此外，设计了结构化输出奖励和综合检测奖励，以平衡探索和利用，从而提高目标感知的完整性和准确性。在RefRT数据集上的大量实验证明了所提出的RTrack框架的有效性。

🔬 方法详解

问题定义：现有指称多目标跟踪方法主要依赖RGB图像，在光照不足或恶劣天气条件下性能显著下降。缺乏同时利用RGB和热成像信息的数据集和方法，无法实现全天候的可靠跟踪。现有方法难以有效融合多模态信息，并且在强化学习微调过程中存在训练不稳定的问题。

核心思路：本文的核心思路是利用热成像模态对RGB模态进行补充，提高在低可见度条件下的目标检测和跟踪能力。通过构建RGB-Thermal指称多目标跟踪数据集RefRT，为相关研究提供数据支持。同时，设计RTrack框架，有效融合RGB、热成像和文本特征，并采用强化学习方法进行优化，提高跟踪的准确性和鲁棒性。

技术框架：RTrack框架基于多模态大语言模型(MLLM)，主要包含以下模块：1) 特征提取模块，分别提取RGB、热成像和文本特征；2) 特征融合模块，将多模态特征进行融合；3) 跟踪预测模块，基于融合后的特征进行目标跟踪预测。此外，还包括分组序列策略优化(GSPO)模块和裁剪优势缩放(CAS)模块，用于优化模型训练过程。

关键创新：本文的关键创新点在于：1) 提出了RGB-Thermal指称多目标跟踪(RT-RMOT)任务，并构建了相应的RefRT数据集；2) 设计了RTrack框架，有效融合RGB、热成像和文本特征；3) 提出了分组序列策略优化(GSPO)策略，进一步挖掘模型潜力；4) 引入了裁剪优势缩放(CAS)策略，缓解强化学习微调期间的训练不稳定性。

关键设计：在GSPO中，将目标序列分成多个组，分别进行策略优化，从而提高探索效率。在CAS中，通过裁剪优势函数的值，限制梯度的大小，从而抑制梯度爆炸。此外，设计了结构化输出奖励和综合检测奖励，以平衡探索和利用，提高目标感知的完整性和准确性。具体损失函数的设计和网络结构的细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

在RefRT数据集上的实验表明，所提出的RTrack框架能够有效提高RGB-Thermal指称多目标跟踪的性能。具体的性能数据、对比基线和提升幅度未在摘要中给出，属于未知信息。但摘要强调了RTrack框架的有效性。

🎯 应用场景

该研究成果可应用于智能安防、自动驾驶、搜救等领域。在智能安防中，可以实现全天候的监控和目标跟踪。在自动驾驶中，可以提高车辆在恶劣天气条件下的感知能力。在搜救领域，可以帮助搜救人员在夜间或烟雾环境中快速定位目标。

📄 摘要（原文）

Referring Multi-Object Tracking has attracted increasing attention due to its human-friendly interactive characteristics, yet it exhibits limitations in low-visibility conditions, such as nighttime, smoke, and other challenging scenarios. To overcome this limitation, we propose a new RGB-Thermal RMOT task, named RT-RMOT, which aims to fuse RGB appearance features with the illumination robustness of the thermal modality to enable all-day referring multi-object tracking. To promote research on RT-RMOT, we construct the first Referring Multi-Object Tracking dataset under RGB-Thermal modality, named RefRT. It contains 388 language descriptions, 1,250 tracked targets, and 166,147 Language-RGB-Thermal (L-RGB-T) triplets. Furthermore, we propose RTrack, a framework built upon a multimodal large language model (MLLM) that integrates RGB, thermal, and textual features. Since the initial framework still leaves room for improvement, we introduce a Group Sequence Policy Optimization (GSPO) strategy to further exploit the model's potential. To alleviate training instability during RL fine-tuning, we introduce a Clipped Advantage Scaling (CAS) strategy to suppress gradient explosion. In addition, we design Structured Output Reward and Comprehensive Detection Reward to balance exploration and exploitation, thereby improving the completeness and accuracy of target perception. Extensive experiments on the RefRT dataset demonstrate the effectiveness of the proposed RTrack framework.

RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理