Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and Training

作者: Sara Sarto, Nicholas Moratelli, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2024-10-09 (更新: 2025-07-29)

备注: International Journal of Computer Vision (2025)

🔗 代码/项目: GITHUB

💡 一句话要点

提出PAC-S++，通过正样本增强对比学习提升视觉-语言评估与训练效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉-语言评估 对比学习 正样本增强 图像描述生成 自批判序列训练

📋 核心要点

现有图像描述评估指标依赖人工参考或噪声数据，无法准确评估描述质量，尤其在细粒度细节方面存在不足。
PAC-S++利用CLIP模型，通过正样本增强对比学习，提升视觉-语言对齐能力，从而更准确地评估图像描述质量。
实验表明，PAC-S++在图像和视频数据集上优于现有指标，能有效检测对象幻觉，并提升图像描述生成模型的性能。

📝 摘要（中文）

尽管图像描述生成取得了显著进展，但现有的评估指标通常无法捕捉描述的完整质量或细粒度细节，这主要是因为它们依赖于非特定的人工撰写参考或噪声预训练数据。然而，找到有效的指标对于描述评估和生成阶段至关重要。指标可以在描述模型微调阶段发挥关键作用，最终提高生成描述的质量。本文提出了PAC-S++，一种可学习的指标，它利用了在网络收集和清洗数据上预训练的CLIP模型，并通过额外的生成视觉和文本正样本对进行正则化。利用这种更强大和精选的预训练，我们还将PAC-S++作为奖励应用于通常用于微调描述模型的自批判序列训练（SCST）阶段。在不同图像和视频数据集上的大量实验突出了PAC-S++相对于流行指标的有效性，包括其对对象幻觉的敏感性。此外，我们表明将PAC-S++集成到描述模型的微调阶段可以产生语义更丰富的描述，减少重复和语法错误。在领域外基准上的评估进一步证明了我们的微调方法在增强模型能力方面的有效性。源代码和训练模型可在https://github.com/aimagelab/pacscore公开获取。

🔬 方法详解

问题定义：现有图像描述评估指标的痛点在于依赖人工标注的参考描述，成本高昂且难以覆盖所有可能的描述方式。此外，现有指标对细粒度语义和对象幻觉的敏感度不足，难以准确反映生成描述的质量。

核心思路：PAC-S++的核心思路是利用对比学习，学习一个能够区分高质量和低质量图像-文本对的评估指标。通过引入正样本增强，模型能够更好地理解图像和文本之间的细粒度关系，从而更准确地评估描述的质量。

技术框架：PAC-S++的整体框架包括以下几个主要模块：1) CLIP模型：用于提取图像和文本的特征表示。2) 正样本生成器：用于生成额外的视觉和文本正样本对，增强模型的训练。3) 对比学习损失函数：用于训练模型区分高质量和低质量的图像-文本对。4) 自批判序列训练（SCST）：将PAC-S++作为奖励信号，用于微调图像描述生成模型。

关键创新：PAC-S++的关键创新在于正样本增强的对比学习方法。通过生成额外的正样本，模型能够更好地学习图像和文本之间的细粒度关系，从而提升评估指标的准确性和鲁棒性。此外，将PAC-S++作为奖励信号应用于SCST阶段，能够有效提升图像描述生成模型的性能。

关键设计：PAC-S++的关键设计包括：1) 使用预训练的CLIP模型作为特征提取器，利用其强大的视觉-语言对齐能力。2) 设计有效的正样本生成策略，例如通过数据增强或模型生成等方式。3) 选择合适的对比学习损失函数，例如InfoNCE损失，以最大化正样本对之间的相似度，最小化负样本对之间的相似度。4) 在SCST阶段，合理设置PAC-S++奖励的权重，以平衡生成描述的质量和多样性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PAC-S++在多个图像和视频数据集上优于现有的评估指标，例如CIDEr、SPICE等。PAC-S++对对象幻觉的敏感性更高，能够更准确地评估生成描述的质量。此外，将PAC-S++作为奖励信号应用于SCST阶段，能够显著提升图像描述生成模型的性能，在COCO数据集上CIDEr指标提升超过5个点。

🎯 应用场景

PAC-S++可应用于图像描述生成、视频描述生成、视觉问答等领域，为模型评估和训练提供更准确的反馈。该方法能够提升生成内容的质量和语义丰富度，减少重复和语法错误，具有广泛的应用前景和实际价值，并可能推动多模态内容生成技术的发展。

📄 摘要（原文）

Despite significant advancements in caption generation, existing evaluation metrics often fail to capture the full quality or fine-grained details of captions. This is mainly due to their reliance on non-specific human-written references or noisy pre-training data. Still, finding an effective metric is crucial not only for captions evaluation but also for the generation phase. Metrics can indeed play a key role in the fine-tuning stage of captioning models, ultimately enhancing the quality of the generated captions. In this paper, we propose PAC-S++, a learnable metric that leverages the CLIP model, pre-trained on both web-collected and cleaned data and regularized through additional pairs of generated visual and textual positive samples. Exploiting this stronger and curated pre-training, we also apply PAC-S++ as a reward in the Self-Critical Sequence Training (SCST) stage typically employed to fine-tune captioning models. Extensive experiments on different image and video datasets highlight the effectiveness of PAC-S++ compared to popular metrics for the task, including its sensitivity to object hallucinations. Furthermore, we show that integrating PAC-S++ into the fine-tuning stage of a captioning model results in semantically richer captions with fewer repetitions and grammatical errors. Evaluations on out-of-domain benchmarks further demonstrate the efficacy of our fine-tuning approach in enhancing model capabilities. Source code and trained models are publicly available at: https://github.com/aimagelab/pacscore.

Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理