RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation
作者: Kunyu Tan, Mingjian Liang
分类: cs.CV
发布日期: 2026-03-10
🔗 代码/项目: GITHUB
💡 一句话要点
提出RTFDNet,通过融合解耦实现鲁棒的RGB-T语义分割
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: RGB-T语义分割 多模态融合 解耦正则化 鲁棒性 机器人视觉
📋 核心要点
- 现有RGB-T语义分割方法过度强调模态平衡,在传感器数据缺失时鲁棒性差,性能下降。
- RTFDNet通过协同特征融合和跨模态解耦正则化,统一了模态融合和解耦,增强了单模态路径。
- 实验表明,RTFDNet在不同模态条件下表现出一致的性能,证明了其有效性和鲁棒性。
📝 摘要(中文)
RGB-Thermal (RGB-T) 语义分割对于在弱光或黑暗环境中运行的机器人系统至关重要。传统方法通常过度强调模态平衡,导致鲁棒性有限,并且在传感器信号部分缺失时性能严重下降。最近的进展,如跨模态知识蒸馏和模态自适应微调,试图增强跨模态交互,但它们通常将模态融合和模态适应解耦,需要使用冻结模型或师生框架进行多阶段训练。我们提出了RTFDNet,一个三分支编码器-解码器,它统一了融合和解耦,以实现鲁棒的RGB-T分割。协同特征融合 (SFF) 执行通道式门控交换和轻量级空间注意力,以注入互补线索。跨模态解耦正则化 (CMDR) 将模态特定组件与融合表示隔离,并通过停止梯度目标来监督单模态解码器。区域解耦正则化 (RDR) 在置信区域中强制执行类选择性预测一致性,同时阻止梯度流向融合分支。这种反馈循环增强了单模态路径,而不会降低融合流的性能,从而在测试时实现高效的独立推理。大量实验证明了RTFDNet的有效性,在不同的模态条件下表现出一致的性能。我们的实现将公开发布,以促进进一步的研究。我们的源代码可在https://github.com/curapima/RTFDNet公开获取。
🔬 方法详解
问题定义:RGB-T语义分割旨在融合RGB图像和热成像图像的信息,以实现更准确的场景理解,尤其是在光照条件不佳的情况下。然而,现有方法通常难以在模态信息缺失或质量不平衡时保持鲁棒性,过度依赖模态间的平衡导致泛化能力不足。此外,一些方法将模态融合和适应解耦,需要复杂的多阶段训练,效率较低。
核心思路:RTFDNet的核心思路是通过融合和解耦的协同作用,增强模型对不同模态信息的利用能力,并提高在模态缺失情况下的鲁棒性。通过协同特征融合,模型能够有效地整合互补信息。通过跨模态和区域解耦正则化,模型能够学习到模态特定的表示,并在融合过程中保持单模态信息的独立性,从而提高泛化能力。
技术框架:RTFDNet采用三分支编码器-解码器结构。一个分支负责融合RGB和Thermal信息,另外两个分支分别处理RGB和Thermal信息。协同特征融合模块(SFF)用于融合RGB和Thermal特征。跨模态解耦正则化(CMDR)和区域解耦正则化(RDR)用于解耦模态特定信息。在测试阶段,可以使用融合分支或单模态分支进行推理。
关键创新:RTFDNet的关键创新在于统一了融合和解耦过程。传统的融合方法通常直接将多模态信息融合在一起,而忽略了模态之间的差异性。RTFDNet通过解耦正则化,使得模型能够学习到模态特定的表示,从而提高了模型的鲁棒性。此外,RTFDNet采用单阶段训练,避免了多阶段训练的复杂性。
关键设计:协同特征融合模块(SFF)采用通道式门控交换和轻量级空间注意力机制,以有效地融合RGB和Thermal特征。跨模态解耦正则化(CMDR)通过停止梯度的方式,将融合分支的信息传递给单模态分支,同时阻止单模态分支的信息影响融合分支。区域解耦正则化(RDR)在置信区域内强制执行类选择性预测一致性,并阻止梯度流向融合分支。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RTFDNet在多个RGB-T语义分割数据集上取得了优异的性能。在模态完整的情况下,RTFDNet的性能与其他先进方法相当。在模态缺失的情况下,RTFDNet的性能显著优于其他方法,证明了其鲁棒性。例如,在一些数据集上,RTFDNet在Thermal模态缺失的情况下,仍然能够保持较高的分割精度。
🎯 应用场景
RTFDNet适用于需要在弱光或黑暗环境中运行的机器人系统,例如自动驾驶、安防监控、搜救机器人等。该方法能够提高这些系统在复杂环境下的感知能力,从而提高其安全性和可靠性。此外,该方法还可以应用于医学图像分析、遥感图像处理等领域。
📄 摘要(原文)
RGB-Thermal (RGB-T) semantic segmentation is essential for robotic systems operating in low-light or dark environments. However, traditional approaches often overemphasize modality balance, resulting in limited robustness and severe performance degradation when sensor signals are partially missing. Recent advances such as cross-modal knowledge distillation and modality-adaptive fine-tuning attempt to enhance cross-modal interaction, but they typically decouple modality fusion and modality adaptation, requiring multi-stage training with frozen models or teacher-student frameworks. We present RTFDNet, a three-branch encoder-decoder that unifies fusion and decoupling for robust RGB-T segmentation. Synergistic Feature Fusion (SFF) performs channel-wise gated exchange and lightweight spatial attention to inject complementary cues. Cross-Modal Decouple Regularization (CMDR) isolates modality-specific components from the fused representation and supervises unimodal decoders via stop-gradient targets. Region Decouple Regularization (RDR) enforces class-selective prediction consistency in confident regions while blocking gradients to the fusion branch. This feedback loop strengthens unimodal paths without degrading the fused stream, enabling efficient standalone inference at test time. Extensive experiments demonstrate the effectiveness of RTFDNet, showing consistent performance across varying modality conditions. Our implementation will be released to facilitate further research. Our source code are publicly available at https://github.com/curapima/RTFDNet.