Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification

📄 arXiv: 2512.20892v1 📥 PDF

作者: Tingfeng Xian, Wenlve Zhou, Zhiheng Zhou, Zhelin Li

分类: cs.CV

发布日期: 2025-12-24

🔗 代码/项目: GITHUB


💡 一句话要点

提出域表示注入(DRI)方法,解决跨模态船舶重识别中模态差异问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨模态重识别 船舶识别 视觉基础模型 领域自适应 特征空间学习

📋 核心要点

  1. 跨模态船舶重识别面临显著的模态差异挑战,现有方法依赖大规模配对数据进行预训练,成本高昂。
  2. 提出域表示注入(DRI)方法,通过冻结视觉基础模型并注入领域特定特征,有效利用预训练知识。
  3. 实验表明,DRI方法在HOSS-ReID数据集上取得了SOTA性能,且仅需少量可训练参数。

📝 摘要(中文)

跨模态船舶重识别(CMS Re-ID)对于实现全天候海上目标跟踪至关重要,但其根本挑战在于显著的模态差异。主流解决方案通常依赖于显式的模态对齐策略;然而,这种范式严重依赖于构建大规模配对数据集进行预训练。为了解决这个问题,基于柏拉图表征假设,我们探索了视觉基础模型(VFMs)在弥合模态差距方面的潜力。认识到现有的通用参数高效微调(PEFT)方法在权重空间内的次优性能,特别是在有限容量模型上,我们将优化视角转移到特征空间,并提出了一种新的PEFT策略,称为域表示注入(DRI)。具体来说,在保持VFM完全冻结以最大限度地保留通用知识的同时,我们设计了一个轻量级的、可学习的偏移编码器,从原始输入中提取富含模态和身份属性的领域特定表示。在不同层中间特征的上下文信息的指导下,一个调制器自适应地转换这些表示。随后,它们通过加性融合注入到中间层,动态地重塑特征分布以适应下游任务,而无需改变VFM的预训练权重。大量的实验结果表明了我们方法的优越性,以最少的训练参数实现了最先进(SOTA)的性能。例如,在HOSS-ReID数据集上,我们分别仅使用1.54M和7.05M参数就达到了57.9%和60.5%的mAP。

🔬 方法详解

问题定义:跨模态船舶重识别旨在解决可见光图像和红外图像等不同模态下同一艘船的匹配问题。现有方法主要依赖于模态对齐,需要大量配对数据进行预训练,且在小样本情况下泛化能力较弱。此外,直接微调视觉基础模型(VFMs)参数成本高昂,且可能破坏其通用知识。

核心思路:论文的核心思路是利用视觉基础模型强大的特征提取能力,同时避免直接修改其权重。通过学习一个轻量级的偏移编码器,提取领域特定的特征表示,并将其注入到VFM的中间层,从而在特征空间实现模态自适应。这种方法可以在保留VFM通用知识的同时,有效地适应下游的跨模态船舶重识别任务。

技术框架:整体框架包含三个主要模块:视觉基础模型(VFM)、偏移编码器和调制器。VFM负责提取图像的通用特征;偏移编码器从原始输入中提取领域特定表示,包含模态和身份信息;调制器根据VFM中间层的上下文信息,自适应地转换偏移编码器的输出。最后,通过加性融合将调制后的领域特定表示注入到VFM的中间层。

关键创新:最重要的创新点在于将优化目标从权重空间转移到特征空间,提出域表示注入(DRI)方法。与传统的参数高效微调(PEFT)方法不同,DRI不直接修改VFM的权重,而是通过注入领域特定特征来动态调整特征分布,从而更好地适应下游任务。这种方法既能利用VFM的通用知识,又能避免过拟合。

关键设计:偏移编码器采用轻量级网络结构,以减少计算量和参数量。调制器利用VFM中间层的上下文信息,自适应地调整领域特定表示的注入方式。加性融合方式简单有效,易于实现。论文还探索了不同层注入的影响,并选择了最佳的注入层。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DRI方法在HOSS-ReID数据集上取得了显著的性能提升,mAP分别达到了57.9%和60.5%(使用1.54M和7.05M参数)。与现有SOTA方法相比,DRI方法在参数量更少的情况下,取得了更好的性能。这证明了DRI方法在跨模态船舶重识别任务中的有效性和优越性。

🎯 应用场景

该研究成果可应用于智能航运、港口安防、海上搜救等领域。通过跨模态船舶重识别技术,可以实现全天候的目标跟踪和识别,提高海上交通的安全性和效率。未来,该技术还可扩展到其他跨模态识别任务,例如行人重识别、车辆重识别等。

📄 摘要(原文)

Cross-Modality Ship Re-Identification (CMS Re-ID) is critical for achieving all-day and all-weather maritime target tracking, yet it is fundamentally challenged by significant modality discrepancies. Mainstream solutions typically rely on explicit modality alignment strategies; however, this paradigm heavily depends on constructing large-scale paired datasets for pre-training. To address this, grounded in the Platonic Representation Hypothesis, we explore the potential of Vision Foundation Models (VFMs) in bridging modality gaps. Recognizing the suboptimal performance of existing generic Parameter-Efficient Fine-Tuning (PEFT) methods that operate within the weight space, particularly on limited-capacity models, we shift the optimization perspective to the feature space and propose a novel PEFT strategy termed Domain Representation Injection (DRI). Specifically, while keeping the VFM fully frozen to maximize the preservation of general knowledge, we design a lightweight, learnable Offset Encoder to extract domain-specific representations rich in modality and identity attributes from raw inputs. Guided by the contextual information of intermediate features at different layers, a Modulator adaptively transforms these representations. Subsequently, they are injected into the intermediate layers via additive fusion, dynamically reshaping the feature distribution to adapt to the downstream task without altering the VFM's pre-trained weights. Extensive experimental results demonstrate the superiority of our method, achieving State-of-the-Art (SOTA) performance with minimal trainable parameters. For instance, on the HOSS-ReID dataset, we attain 57.9\% and 60.5\% mAP using only 1.54M and 7.05M parameters, respectively. The code is available at https://github.com/TingfengXian/DRI.