SLGNet: Synergizing Structural Priors and Language-Guided Modulation for Multimodal Object Detection
作者: Xiantai Xiang, Guangyao Zhou, Zixiao Wen, Wenshuai Li, Ben Niu, Feng Wang, Lijia Huang, Qiantong Wang, Yuhan Liu, Zongxu Pan, Yuxin Hu
分类: cs.CV
发布日期: 2026-01-05
💡 一句话要点
SLGNet:融合结构先验与语言引导的多模态目标检测,提升全天候场景鲁棒性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态目标检测 红外图像 结构先验 语言引导 视觉Transformer 环境感知 参数高效
📋 核心要点
- 现有基于适配器的多模态目标检测方法,在跨模态结构一致性方面存在不足,导致在复杂场景下结构信息丢失。
- SLGNet通过结构感知适配器提取分层结构信息,并利用语言引导调制模块增强环境感知,从而提升检测性能。
- 实验表明,SLGNet在多个数据集上取得了SOTA结果,并在LLVIP数据集上以更少的参数实现了显著的性能提升。
📝 摘要(中文)
本文提出了一种名为SLGNet的参数高效框架,用于多模态目标检测,该框架结合了分层结构先验和语言引导调制,并嵌入到冻结的基于Vision Transformer (ViT) 的基础模型中。SLGNet旨在解决现有方法在RGB和红外(IR)图像融合时,因忽略跨模态结构一致性以及缺乏环境感知而导致性能受限的问题。具体来说,设计了一个结构感知适配器,用于提取两种模态的分层结构表示,并动态地注入到ViT中,以补偿ViT骨干网络固有的结构退化。此外,提出了一个语言引导调制模块,利用VLM驱动的结构化字幕来动态地重新校准视觉特征,从而使模型具有强大的环境感知能力。在LLVIP、FLIR、KAIST和DroneVehicle数据集上的大量实验表明,SLGNet建立了新的state-of-the-art性能。值得注意的是,在LLVIP基准测试中,我们的方法实现了66.1的mAP,同时与传统的完全微调相比,可训练参数减少了约87%。这证实了SLGNet是多模态感知的一种鲁棒且高效的解决方案。
🔬 方法详解
问题定义:多模态目标检测旨在利用RGB和红外图像提高全天候场景下的感知鲁棒性。现有方法,特别是基于适配器的方案,虽然参数效率高,但往往忽略了跨模态的结构一致性,导致在领域差异较大(如高对比度或夜间环境)时,关键的结构信息丢失。此外,传统的静态多模态融合机制缺乏环境感知能力,限制了在复杂动态场景下的适应性和检测性能。
核心思路:SLGNet的核心思路是通过结合分层结构先验和语言引导调制,增强模型对结构信息的利用和环境的感知能力。结构先验通过结构感知适配器提取,用于补偿ViT骨干网络的结构退化;语言引导调制则利用视觉语言模型(VLM)生成的结构化字幕,动态地调整视觉特征,使模型能够根据环境变化进行自适应调整。
技术框架:SLGNet的整体架构包括一个冻结的ViT骨干网络、结构感知适配器(Structure-Aware Adapter)和语言引导调制模块(Language-Guided Modulation)。首先,RGB和红外图像分别输入ViT提取特征。然后,结构感知适配器提取两种模态的分层结构表示,并将其注入到ViT的中间层。最后,语言引导调制模块利用VLM生成的字幕信息,动态地重新校准ViT提取的视觉特征。
关键创新:SLGNet的关键创新在于:1) 提出了结构感知适配器,能够有效地提取和利用多模态图像中的分层结构信息,弥补了ViT在结构信息建模方面的不足。2) 引入了语言引导调制模块,利用VLM的语义理解能力,增强了模型对环境的感知能力,使其能够根据环境变化动态地调整特征表示。
关键设计:结构感知适配器采用多层感知机(MLP)结构,用于提取分层结构特征,并使用残差连接将其注入到ViT的中间层。语言引导调制模块利用VLM生成图像的结构化字幕,然后使用注意力机制将字幕信息融合到视觉特征中。损失函数包括目标检测损失和对比学习损失,用于优化结构感知适配器和语言引导调制模块。
🖼️ 关键图片
📊 实验亮点
SLGNet在LLVIP数据集上取得了66.1%的mAP,超越了现有方法,并且在参数量上相比全参数微调减少了约87%。此外,在FLIR、KAIST和DroneVehicle数据集上也取得了SOTA结果,验证了SLGNet的有效性和泛化能力。实验结果表明,SLGNet能够在保持较高检测精度的同时,显著降低计算成本。
🎯 应用场景
SLGNet在自动驾驶、安防监控、机器人等领域具有广泛的应用前景。在自动驾驶中,可以提高车辆在恶劣天气和光照条件下的感知能力,从而增强驾驶安全性。在安防监控中,可以提升夜间或低照度环境下的目标检测精度,提高监控系统的有效性。在机器人领域,可以帮助机器人在复杂环境中更好地理解和感知周围环境。
📄 摘要(原文)
Multimodal object detection leveraging RGB and Infrared (IR) images is pivotal for robust perception in all-weather scenarios. While recent adapter-based approaches efficiently transfer RGB-pretrained foundation models to this task, they often prioritize model efficiency at the expense of cross-modal structural consistency. Consequently, critical structural cues are frequently lost when significant domain gaps arise, such as in high-contrast or nighttime environments. Moreover, conventional static multimodal fusion mechanisms typically lack environmental awareness, resulting in suboptimal adaptation and constrained detection performance under complex, dynamic scene variations. To address these limitations, we propose SLGNet, a parameter-efficient framework that synergizes hierarchical structural priors and language-guided modulation within a frozen Vision Transformer (ViT)-based foundation model. Specifically, we design a Structure-Aware Adapter to extract hierarchical structural representations from both modalities and dynamically inject them into the ViT to compensate for structural degradation inherent in ViT-based backbones. Furthermore, we propose a Language-Guided Modulation module that exploits VLM-driven structured captions to dynamically recalibrate visual features, thereby endowing the model with robust environmental awareness. Extensive experiments on the LLVIP, FLIR, KAIST, and DroneVehicle datasets demonstrate that SLGNet establishes new state-of-the-art performance. Notably, on the LLVIP benchmark, our method achieves an mAP of 66.1, while reducing trainable parameters by approximately 87% compared to traditional full fine-tuning. This confirms SLGNet as a robust and efficient solution for multimodal perception.