ALADIN:Attribute-Language Distillation Network for Person Re-Identification

📄 arXiv: 2603.21482v1 📥 PDF

作者: Wang Zhou, Boran Duan, Haojun Ai, Ruiqi Lan, Ziyue Zhou

分类: cs.CV

发布日期: 2026-03-23

备注: 14pages, 3figures, 7charts


💡 一句话要点

提出ALADIN,通过属性-语言蒸馏网络提升行人重识别的细粒度特征学习能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 行人重识别 属性学习 知识蒸馏 跨模态对齐 视觉语言模型

📋 核心要点

  1. 现有CLIP引导的ReID方法难以捕捉细粒度属性特征,且对不同行人外观的适应性不足。
  2. ALADIN通过属性-语言蒸馏,将CLIP的知识迁移到轻量级ReID模型,实现细粒度属性局部对齐。
  3. 实验表明,ALADIN在多个数据集上超越了现有方法,并具有更好的泛化性和可解释性。

📝 摘要(中文)

本文提出了一种属性-语言蒸馏网络ALADIN,用于行人重识别。现有基于CLIP的ReID方法依赖全局特征和固定提示,限制了其捕获细粒度属性线索和适应多样外观的能力。ALADIN通过将知识从冻结的CLIP教师模型蒸馏到轻量级的ReID学生模型,引入了细粒度的属性局部对齐,以建立自适应的文本-视觉对应关系和鲁棒的表征学习。场景感知提示生成器产生图像特定的软提示,以促进自适应对齐。属性局部蒸馏强制文本属性和局部视觉特征之间的一致性,显著增强了遮挡下的鲁棒性。此外,我们采用跨模态对比和关系蒸馏来保留属性之间固有的结构关系。为了提供精确的监督,我们利用多模态LLM生成结构化的属性描述,然后通过CLIP将其转换为局部化的注意力图。推理时,仅使用学生模型。在Market-1501、DukeMTMC-reID和MSMT17上的实验表明,该方法优于基于CNN、Transformer和CLIP的方法,具有更好的泛化性和可解释性。

🔬 方法详解

问题定义:行人重识别旨在跨摄像头匹配同一行人。现有方法,特别是基于CLIP的方法,在处理细粒度属性和复杂场景(如遮挡)时存在局限性。它们通常依赖于全局特征和固定的文本提示,无法充分利用局部属性信息,导致在行人外观变化或存在遮挡时性能下降。

核心思路:ALADIN的核心思路是通过知识蒸馏,将CLIP强大的跨模态对齐能力迁移到轻量级的ReID模型中,同时引入属性级别的局部对齐,以增强模型对细粒度特征的感知能力和对遮挡的鲁棒性。通过属性-语言的对齐,模型能够学习到更具判别性的行人表征。

技术框架:ALADIN包含一个冻结的CLIP教师模型和一个可训练的ReID学生模型。整体流程如下:首先,使用场景感知提示生成器为每张图像生成特定的软提示。然后,利用CLIP将这些提示与图像特征进行对齐。接着,通过属性局部蒸馏,强制学生模型学习与文本属性相对应的局部视觉特征。此外,还使用跨模态对比和关系蒸馏来保持属性之间的结构关系。最后,利用多模态LLM生成结构化的属性描述,并将其转换为局部化的注意力图,以提供更精确的监督。

关键创新:ALADIN的关键创新在于引入了属性-语言的局部对齐机制。与以往依赖全局特征的方法不同,ALADIN能够将文本属性与图像的局部区域进行对应,从而更好地捕捉细粒度的属性信息。此外,使用多模态LLM生成结构化的属性描述,并将其转换为注意力图,为模型提供了更精确的监督信号。

关键设计:ALADIN的关键设计包括:1) 场景感知提示生成器,用于生成图像特定的软提示;2) 属性局部蒸馏损失,用于强制文本属性和局部视觉特征之间的一致性;3) 跨模态对比和关系蒸馏损失,用于保持属性之间的结构关系;4) 基于多模态LLM的属性描述生成和注意力图转换,用于提供精确的监督信号。具体的损失函数设计和网络结构参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ALADIN在Market-1501、DukeMTMC-reID和MSMT17等数据集上取得了显著的性能提升。例如,在Market-1501数据集上,ALADIN的mAP指标相比于现有最佳方法提升了X%(具体数值请参考原论文)。实验结果表明,ALADIN具有更好的泛化性和可解释性,尤其是在处理遮挡和行人外观变化等复杂场景时表现出色。

🎯 应用场景

ALADIN在智能安防、智慧城市等领域具有广泛的应用前景。例如,可以用于在复杂的监控环境中进行行人追踪和身份识别,提高公共安全水平。此外,该方法还可以应用于智能零售、人机交互等领域,例如通过识别顾客的衣着属性来提供个性化的推荐服务。

📄 摘要(原文)

Recent vision-language models such as CLIP provide strong cross-modal alignment, but current CLIP-guided ReID pipelines rely on global features and fixed prompts. This limits their ability to capture fine-grained attribute cues and adapt to diverse appearances. We propose ALADIN, an attribute-language distillation network that distills knowledge from a frozen CLIP teacher to a lightweight ReID student. ALADIN introduces fine-grained attribute-local alignment to establish adaptive text-visual correspondence and robust representation learning. A Scene-Aware Prompt Generator produces image-specific soft prompts to facilitate adaptive alignment. Attribute-local distillation enforces consistency between textual attributes and local visual features, significantly enhancing robustness under occlusions. Furthermore, we employ cross-modal contrastive and relation distillation to preserve the inherent structural relationships among attributes. To provide precise supervision, we leverage Multimodal LLMs to generate structured attribute descriptions, which are then converted into localized attention maps via CLIP. At inference, only the student is used. Experiments on Market-1501, DukeMTMC-reID, and MSMT17 show improvements over CNN-, Transformer-, and CLIP-based methods, with better generalization and interpretability.