MARS: Paying more attention to visual attributes for text-based person search

📄 arXiv: 2407.04287v1 📥 PDF

作者: Alex Ergasti, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati

分类: cs.CV, cs.AI

发布日期: 2024-07-05

DOI: 10.1145/3721482


💡 一句话要点

MARS:通过更关注视觉属性来改进基于文本的行人检索

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 文本行人检索 视觉属性 多模态学习 掩码自动编码器 属性损失

📋 核心要点

  1. 现有基于文本的行人检索方法易受文本描述模糊性和图像自身变化的干扰,导致检索精度下降。
  2. MARS模型通过引入视觉重建损失和属性损失,增强模型对视觉属性的理解和文本-视觉关系的建模能力。
  3. 在三个行人检索数据集上的实验表明,MARS模型显著提升了检索性能,尤其是在平均精度均值(mAP)指标上。

📝 摘要(中文)

基于文本的行人检索(TBPS)问题受到了研究界的广泛关注。该任务旨在根据文本描述检索特定个体的图像。任务的多模态性质要求学习能够弥合文本和图像数据在共享潜在空间中的表示。现有的TBPS系统面临两个主要挑战:一是由于文本描述固有的模糊性和不精确性造成的身份间噪声,表明视觉属性的描述通常可以与不同的人相关联;二是身份内变化,即姿势、光照等会改变给定对象的相同文本属性的视觉外观的干扰因素。为了解决这些问题,本文提出了一种名为MARS(Mae-Attribute-Relation-Sensitive)的新型TBPS架构,通过引入两个关键组件来增强当前最先进的模型:视觉重建损失和属性损失。前者采用掩码自动编码器,旨在借助文本描述重建随机掩盖的图像块,从而鼓励模型在潜在空间中学习更具表现力的表示和文本-视觉关系。后者则平衡了不同类型属性的贡献,这些属性被定义为文本的形容词-名词块。该损失确保在行人检索过程中考虑到每个属性。在三个常用数据集CUHK-PEDES、ICFG-PEDES和RSTPReid上的大量实验报告了性能改进,相对于当前最先进水平,平均精度均值(mAP)指标有显著提高。

🔬 方法详解

问题定义:论文旨在解决基于文本的行人检索任务中,由于文本描述的模糊性(身份间噪声)和行人图像的各种变化(身份内变化)导致的检索精度问题。现有方法难以有效提取和利用文本描述中的关键视觉属性信息,并且对图像中的噪声较为敏感。

核心思路:论文的核心思路是通过引入视觉重建损失和属性损失,使模型更加关注文本描述中的视觉属性,并增强模型对图像中各种变化的鲁棒性。视觉重建损失迫使模型学习文本描述和图像块之间的关联,属性损失则平衡不同属性的重要性,从而提高检索精度。

技术框架:MARS模型的整体架构包含以下几个主要模块:1) 图像编码器:用于提取图像的视觉特征。2) 文本编码器:用于提取文本描述的语义特征。3) 掩码自动编码器(MAE):用于重建被掩盖的图像块,并学习文本描述和图像块之间的关联。4) 属性损失模块:用于平衡不同属性的贡献。模型首先使用图像编码器和文本编码器分别提取图像和文本的特征,然后使用MAE重建被掩盖的图像块,并计算视觉重建损失。同时,模型计算属性损失,以平衡不同属性的贡献。最后,模型将图像和文本的特征映射到共享的潜在空间中,并使用相似度度量进行行人检索。

关键创新:MARS模型最重要的技术创新点在于同时引入了视觉重建损失和属性损失,从而增强了模型对视觉属性的理解和文本-视觉关系的建模能力。视觉重建损失迫使模型学习文本描述和图像块之间的关联,属性损失则平衡不同属性的重要性。这种结合使得模型能够更准确地提取和利用文本描述中的关键视觉属性信息,并提高检索精度。

关键设计:视觉重建损失采用掩码自动编码器(MAE),随机掩盖图像块,并使用文本描述作为辅助信息进行重建。属性损失通过计算每个属性的权重,并根据权重调整损失函数的贡献,从而平衡不同属性的重要性。具体的参数设置和网络结构细节在论文中有详细描述,例如MAE的掩码比例、属性权重的计算方法等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MARS模型在CUHK-PEDES、ICFG-PEDES和RSTPReid三个常用数据集上进行了大量实验,结果表明,MARS模型显著提升了检索性能,尤其是在平均精度均值(mAP)指标上。相对于当前最先进水平,mAP指标有显著提高,具体提升幅度在论文中有详细数据。

🎯 应用场景

该研究成果可应用于智能安防、智慧城市等领域,例如在监控视频中根据文本描述快速检索特定人员,提高安防效率。此外,该技术还可应用于电商领域,帮助用户根据文本描述找到符合要求的商品。未来,该技术有望与自然语言处理、计算机视觉等领域的技术进一步融合,实现更智能、更高效的行人检索。

📄 摘要(原文)

Text-based person search (TBPS) is a problem that gained significant interest within the research community. The task is that of retrieving one or more images of a specific individual based on a textual description. The multi-modal nature of the task requires learning representations that bridge text and image data within a shared latent space. Existing TBPS systems face two major challenges. One is defined as inter-identity noise that is due to the inherent vagueness and imprecision of text descriptions and it indicates how descriptions of visual attributes can be generally associated to different people; the other is the intra-identity variations, which are all those nuisances e.g. pose, illumination, that can alter the visual appearance of the same textual attributes for a given subject. To address these issues, this paper presents a novel TBPS architecture named MARS (Mae-Attribute-Relation-Sensitive), which enhances current state-of-the-art models by introducing two key components: a Visual Reconstruction Loss and an Attribute Loss. The former employs a Masked AutoEncoder trained to reconstruct randomly masked image patches with the aid of the textual description. In doing so the model is encouraged to learn more expressive representations and textual-visual relations in the latent space. The Attribute Loss, instead, balances the contribution of different types of attributes, defined as adjective-noun chunks of text. This loss ensures that every attribute is taken into consideration in the person retrieval process. Extensive experiments on three commonly used datasets, namely CUHK-PEDES, ICFG-PEDES, and RSTPReid, report performance improvements, with significant gains in the mean Average Precision (mAP) metric w.r.t. the current state of the art.