A Dual-Stream Transformer Architecture for Illumination-Invariant TIR-LiDAR Person Tracking

作者: Yuki Minase, Kanji Tanaka

分类: cs.RO, cs.CV

发布日期: 2026-04-01

备注: 6 pages, 4 figures, technical report

💡 一句话要点

提出双流Transformer架构，实现光照不变的TIR-LiDAR行人跟踪

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 热红外图像 LiDAR 行人跟踪 Transformer 多模态融合

📋 核心要点

RGB-D跟踪在恶劣光照下性能显著下降，限制了自主机器人在复杂环境中的应用。
提出一种双流Transformer架构，融合热红外(TIR)和LiDAR数据，实现光照不变的行人跟踪。
采用序列知识迁移和细粒度差分学习率策略，有效利用预训练模型并适应几何深度信息，显著提升跟踪性能。

📝 摘要（中文）

在复杂多变环境中，稳健的行人跟踪是自主移动机器人的关键能力。虽然RGB-D跟踪精度较高，但在光照条件恶劣（如全黑或强烈逆光）下性能会严重下降。为了实现全天候的鲁棒性，本文提出了一种新的热红外和深度(TIR-D)跟踪架构，利用了SLAM机器人常用的传感器套件，即LiDAR和TIR相机。TIR-D跟踪的一个主要挑战是缺乏带注释的多模态数据集。为此，我们引入了一种序列知识迁移策略，将大规模热图像训练模型中的结构先验知识迁移到TIR-D领域。通过采用一种差分学习率策略（称为“细粒度差分学习率策略”），我们有效地保留了预训练的特征提取能力，同时实现了对几何深度线索的快速适应。实验结果表明，我们提出的TIR-D跟踪器实现了卓越的性能，平均重叠率(AO)为0.700，成功率(SR)为58.7%，显著优于传统的RGB迁移和单模态基线。我们的方法为全天候机器人应用中鲁棒的人员跟随提供了一种实用且资源高效的解决方案。

🔬 方法详解

问题定义：论文旨在解决在各种光照条件下，特别是光照条件恶劣的情况下，自主移动机器人进行鲁棒行人跟踪的问题。现有基于RGB-D的跟踪方法在全黑或强烈逆光等情况下性能会显著下降，无法满足全天候应用的需求。

核心思路：论文的核心思路是利用热红外(TIR)相机对光照不敏感的特性，结合LiDAR提供的深度信息，构建一个对光照变化具有鲁棒性的跟踪系统。通过融合这两种模态的信息，可以克服单一模态的局限性，提高跟踪的准确性和可靠性。

技术框架：该方法采用双流Transformer架构，分别处理TIR图像和LiDAR点云数据。首先，使用预训练的模型提取TIR图像的特征，并使用PointNet++提取LiDAR点云的特征。然后，将两种特征输入到Transformer编码器中进行融合，得到融合后的特征表示。最后，使用一个跟踪头预测目标的位置和大小。整个流程包括特征提取、特征融合和目标预测三个主要阶段。

关键创新：该方法的关键创新在于提出了一个序列知识迁移策略，将大规模热图像训练模型中的结构先验知识迁移到TIR-D领域。此外，还提出了一种细粒度差分学习率策略，有效地保留了预训练的特征提取能力，同时实现了对几何深度线索的快速适应。这种知识迁移策略解决了TIR-D数据集稀缺的问题。

关键设计：细粒度差分学习率策略是关键设计之一，它允许在训练过程中对不同的网络层使用不同的学习率。具体来说，对于预训练的特征提取层，使用较小的学习率，以保留其预训练的特征提取能力；对于新添加的层，使用较大的学习率，以便快速适应新的任务。损失函数方面，使用了IoU损失和L1损失来优化目标的位置和大小。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在TIR-D行人跟踪任务上取得了显著的性能提升。与传统的RGB迁移和单模态基线相比，该方法的平均重叠率(AO)提高了显著，达到了0.700，成功率(SR)也达到了58.7%。这些数据表明，该方法能够有效地利用TIR和LiDAR数据，实现光照不变的行人跟踪。

🎯 应用场景

该研究成果可广泛应用于自主移动机器人、智能监控、自动驾驶等领域。特别是在安防巡逻、搜救行动、夜间监控等光照条件不佳的场景下，该方法能够提供更可靠的行人跟踪能力，具有重要的实际应用价值和潜在的商业前景。未来，该技术有望进一步推广到其他多模态融合的机器人感知任务中。

📄 摘要（原文）

Robust person tracking is a critical capability for autonomous mobile robots operating in diverse and unpredictable environments. While RGB-D tracking has shown high precision, its performance severely degrades under challenging illumination conditions, such as total darkness or intense backlighting. To achieve all-weather robustness, this paper proposes a novel Thermal-Infrared and Depth (TIR-D) tracking architecture that leverages the standard sensor suite of SLAM-capable robots, namely LiDAR and TIR cameras. A major challenge in TIR-D tracking is the scarcity of annotated multi-modal datasets. To address this, we introduce a sequential knowledge transfer strategy that evolves structural priors from a large-scale thermal-trained model into the TIR-D domain. By employing a differential learning rate strategy -- referred to as ``Fine-grained Differential Learning Rate Strategy'' -- we effectively preserve pre-trained feature extraction capabilities while enabling rapid adaptation to geometric depth cues. Experimental results demonstrate that our proposed TIR-D tracker achieves superior performance, with an Average Overlap (AO) of 0.700 and a Success Rate (SR) of 58.7\%, significantly outperforming conventional RGB-transfer and single-modality baselines. Our approach provides a practical and resource-efficient solution for robust human-following in all-weather robotics applications.

A Dual-Stream Transformer Architecture for Illumination-Invariant TIR-LiDAR Person Tracking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理