Data Augmentation for Text-based Person Retrieval Using Large Language Models
作者: Zheng Li, Lijia Si, Caili Guo, Yang Yang, Qiushi Cao
分类: cs.CV
发布日期: 2024-05-20
💡 一句话要点
提出基于大语言模型的数据增强方法LLM-DA,提升文本行人检索性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本行人检索 数据增强 大语言模型 文本生成 图像检索
📋 核心要点
- 文本行人检索依赖高质量数据,但标注成本高昂且涉及隐私问题,限制了数据集规模。
- 利用大语言模型重写文本进行数据增强,增加词汇和句式多样性,同时保留语义信息。
- 引入文本忠实度过滤器和平衡采样策略,缓解LLM幻觉并平衡原始数据与增强数据。
📝 摘要(中文)
本文提出了一种基于大语言模型(LLM)的数据增强方法(LLM-DA),用于文本行人检索(TPR)。TPR旨在根据文本查询检索匹配的行人图像。TPR模型的性能提升依赖于高质量的监督训练数据。然而,由于昂贵的标注成本和隐私保护,构建大规模、高质量的TPR数据集非常困难。LLM-DA利用LLM重写现有TPR数据集中的文本,从而简洁高效地实现数据集的高质量扩展。这些重写的文本能够增加词汇和句子结构的多样性,同时保留原始的关键概念和语义信息。为了减轻LLM的幻觉问题,LLM-DA引入了文本忠实度过滤器(TFF)来过滤掉不忠实的重写文本。为了平衡原始文本和增强文本的贡献,提出了一种平衡采样策略(BSS)来控制训练中使用的原始文本和增强文本的比例。LLM-DA是一种即插即用的方法,可以轻松集成到各种TPR模型中。在三个TPR基准数据集上的综合实验表明,LLM-DA可以提高当前TPR模型的检索性能。
🔬 方法详解
问题定义:文本行人检索(TPR)任务旨在根据给定的文本描述检索对应的行人图像。现有方法受限于大规模高质量数据集的缺乏,标注成本高昂,且涉及隐私保护问题,导致模型泛化能力不足。
核心思路:利用大语言模型(LLM)强大的文本生成能力,对现有数据集中的文本描述进行重写,从而在不增加人工标注成本的前提下,扩充数据集规模,提高模型对不同文本描述的鲁棒性。核心在于利用LLM生成语义一致但表达方式多样的文本。
技术框架:LLM-DA方法包含三个主要模块:1) LLM文本重写模块:使用LLM对原始文本进行重写,生成新的文本描述。2) 文本忠实度过滤器(TFF):过滤掉LLM生成的与原始文本语义不一致的文本,保证数据质量。3) 平衡采样策略(BSS):控制训练过程中原始文本和增强文本的比例,避免增强数据对模型训练产生负面影响。
关键创新:该方法的核心创新在于将大语言模型应用于文本行人检索的数据增强任务,利用LLM的生成能力高效地扩充数据集。同时,针对LLM可能产生的幻觉问题,提出了文本忠实度过滤器,保证了增强数据的质量。此外,平衡采样策略能够有效平衡原始数据和增强数据对模型训练的影响。
关键设计:文本忠实度过滤器(TFF)的具体实现方式未知,可能采用文本相似度计算或人工审核的方式。平衡采样策略(BSS)的具体采样比例需要根据实验结果进行调整,以达到最佳的性能提升。LLM的选择也可能影响最终效果,需要根据任务特点选择合适的LLM。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM-DA方法在三个文本行人检索基准数据集上均取得了显著的性能提升。具体提升幅度未知,但强调了该方法能够有效提高现有TPR模型的检索性能。该方法作为一种即插即用的数据增强策略,具有良好的通用性和易用性。
🎯 应用场景
该研究成果可应用于智能安防、智慧城市等领域,例如在监控视频中通过自然语言描述快速检索目标人物。通过扩充训练数据,可以提高行人检索系统的准确性和鲁棒性,使其能够适应更复杂的场景和更丰富的文本描述。该方法也为其他文本相关的图像检索任务提供了新的思路。
📄 摘要(原文)
Text-based Person Retrieval (TPR) aims to retrieve person images that match the description given a text query. The performance improvement of the TPR model relies on high-quality data for supervised training. However, it is difficult to construct a large-scale, high-quality TPR dataset due to expensive annotation and privacy protection. Recently, Large Language Models (LLMs) have approached or even surpassed human performance on many NLP tasks, creating the possibility to expand high-quality TPR datasets. This paper proposes an LLM-based Data Augmentation (LLM-DA) method for TPR. LLM-DA uses LLMs to rewrite the text in the current TPR dataset, achieving high-quality expansion of the dataset concisely and efficiently. These rewritten texts are able to increase the diversity of vocabulary and sentence structure while retaining the original key concepts and semantic information. In order to alleviate the hallucinations of LLMs, LLM-DA introduces a Text Faithfulness Filter (TFF) to filter out unfaithful rewritten text. To balance the contributions of original text and augmented text, a Balanced Sampling Strategy (BSS) is proposed to control the proportion of original text and augmented text used for training. LLM-DA is a plug-and-play method that can be easily integrated into various TPR models. Comprehensive experiments on three TPR benchmarks show that LLM-DA can improve the retrieval performance of current TPR models.