Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation
作者: Jiaqi Huang, Zunnan Xu, Ting Liu, Yong Liu, Haonan Han, Kehong Yuan, Xiu Li
分类: cs.CV
发布日期: 2025-01-15
备注: Accepted by AAAI2025
🔗 代码/项目: GITHUB
💡 一句话要点
DETRIS:面向Referring Image Segmentation,提出密集连接的参数高效微调框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Referring Image Segmentation 参数高效微调 跨模态特征融合 密集连接 文本适配器
📋 核心要点
- 现有参数高效微调方法主要针对单模态优化,在处理未对齐编码器的Referring Image Segmentation任务时性能不佳。
- DETRIS框架通过建立密集层间连接增强视觉特征传播,并结合文本适配器,有效对齐跨模态特征。
- 实验表明,DETRIS仅需更新少量参数,即可在Referring Image Segmentation任务上显著超越现有最佳方法。
📝 摘要(中文)
在计算机视觉领域,参数高效微调(PET)正日益取代传统的预训练后全微调范式。PET因其在大型基础模型中的有效性而备受青睐,因为它简化了迁移学习成本并优化了硬件利用率。然而,当前的PET方法主要为单模态优化而设计。虽然一些开创性研究已经进行了初步探索,但它们仍然停留在对齐编码器(例如,CLIP)的水平,并且缺乏对未对齐编码器的探索。这些方法在使用未对齐编码器时表现出次优性能,因为它们无法在微调期间有效地对齐多模态特征。在本文中,我们介绍DETRIS,一个参数高效的微调框架,旨在通过在每一层和所有先前层之间建立密集的互连来增强低秩视觉特征传播,从而实现有效的跨模态特征交互和对未对齐编码器的适应。我们还建议使用文本适配器来改进文本特征。我们的方法简单而有效,在具有挑战性的基准上评估,仅更新0.9%到1.8%的骨干参数,就大大超过了最先进的方法。
🔬 方法详解
问题定义:Referring Image Segmentation旨在根据给定的文本描述分割图像中对应的区域。现有参数高效微调方法在处理多模态数据时,特别是当视觉和文本编码器未对齐时,难以有效融合跨模态特征,导致分割精度下降。这些方法通常只关注单模态优化,忽略了模态间的复杂交互。
核心思路:DETRIS的核心思路是通过密集连接增强视觉特征的传播,使得每一层都能获取到前面所有层的特征信息,从而更好地进行跨模态特征融合和对齐。同时,引入文本适配器来提升文本特征的表达能力,进一步促进模态间的有效交互。这种设计旨在弥补现有方法在处理未对齐编码器时的不足。
技术框架:DETRIS框架主要包含视觉编码器、文本编码器、密集连接的视觉特征传播模块和文本适配器。首先,图像和文本分别通过各自的编码器提取特征。然后,视觉特征通过密集连接模块进行增强,该模块将每一层的输出连接到后续所有层,实现特征的充分交互。同时,文本特征通过文本适配器进行优化。最后,融合后的视觉和文本特征用于预测分割结果。
关键创新:DETRIS的关键创新在于密集连接的视觉特征传播模块。与传统的层间线性连接不同,DETRIS通过密集连接实现了更丰富的特征交互,使得模型能够更好地捕捉跨模态间的关联性。此外,结合文本适配器进一步提升了文本特征的质量,增强了模型对文本描述的理解能力。
关键设计:密集连接模块的具体实现方式是将每一层的输出与前面所有层的输出进行拼接,然后通过一个线性层进行降维和融合。文本适配器采用简单的MLP结构,用于学习文本特征的变换。损失函数采用标准的交叉熵损失函数,用于衡量预测分割结果与真实标签之间的差异。参数高效性通过低秩分解等技术实现,仅需更新少量参数即可达到良好的性能。
🖼️ 关键图片
📊 实验亮点
DETRIS在Referring Image Segmentation任务上取得了显著的性能提升。在具有挑战性的基准数据集上,DETRIS仅更新0.9%到1.8%的骨干参数,就超越了现有最先进的方法0.9%到1.8%。实验结果表明,DETRIS能够有效处理未对齐编码器带来的挑战,并实现高效的跨模态特征融合。
🎯 应用场景
DETRIS框架可应用于各种需要理解图像内容并根据文本描述进行分割的任务,例如智能图像编辑、视觉问答、人机交互等。该研究成果有助于提升计算机视觉系统对复杂场景的理解能力,并为开发更智能、更人性化的应用提供技术支持。未来,该方法有望扩展到其他多模态任务,如视频理解、语音识别等。
📄 摘要(原文)
In the domain of computer vision, Parameter-Efficient Tuning (PET) is increasingly replacing the traditional paradigm of pre-training followed by full fine-tuning. PET is particularly favored for its effectiveness in large foundation models, as it streamlines transfer learning costs and optimizes hardware utilization. However, the current PET methods are mainly designed for single-modal optimization. While some pioneering studies have undertaken preliminary explorations, they still remain at the level of aligned encoders (e.g., CLIP) and lack exploration of misaligned encoders. These methods show sub-optimal performance with misaligned encoders, as they fail to effectively align the multimodal features during fine-tuning. In this paper, we introduce DETRIS, a parameter-efficient tuning framework designed to enhance low-rank visual feature propagation by establishing dense interconnections between each layer and all preceding layers, which enables effective cross-modal feature interaction and adaptation to misaligned encoders. We also suggest using text adapters to improve textual features. Our simple yet efficient approach greatly surpasses state-of-the-art methods with 0.9% to 1.8% backbone parameter updates, evaluated on challenging benchmarks. Our project is available at \url{https://github.com/jiaqihuang01/DETRIS}.