Captioning for Text-Video Retrieval via Dual-Group Direct Preference Optimization

📄 arXiv: 2509.16560v1 📥 PDF

作者: Ji Soo Lee, Byungoh Ko, Jaewon Cho, Howoong Lee, Jaewoon Byun, Hyunwoo J. Kim

分类: cs.CV

发布日期: 2025-09-20

备注: EMNLP 2025 Findings

🔗 代码/项目: GITHUB


💡 一句话要点

提出CaRe-DPO框架,通过双组直接偏好优化提升文本-视频检索中字幕生成质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本-视频检索 字幕生成 多模态学习 直接偏好优化 双组优化

📋 核心要点

  1. 现有MLLM生成的字幕在文本-视频检索中存在通用性问题,难以区分视觉相似的视频,限制了检索性能。
  2. CaRe-DPO框架通过双组直接偏好优化(DG-DPO)策略,利用检索相关性分数直接优化字幕生成过程。
  3. 实验结果表明,CaRe-DPO能有效利用辅助知识生成细粒度字幕,显著提升文本-视频检索性能。

📝 摘要(中文)

在文本-视频检索中,辅助字幕常用于增强视频理解,弥合模态间的差距。尽管多模态大型语言模型(MLLM)的最新进展实现了强大的零样本字幕生成,但我们观察到这些字幕往往是通用的,并且在视觉上相似的视频中难以区分,从而限制了它们在细粒度检索中的效用。此外,传统的字幕生成方法通常使用语言生成指标(如BLEU)进行评估,这些指标通常不是为需要区分候选者的检索任务量身定制的。为了解决这个问题,我们提出了$ extbf{CaRe-DPO}$,一个通过检索相关性分数直接优化字幕生成的检索框架。其核心是双组直接偏好优化(DG-DPO),这是一种新颖的学习策略,通过对不同视频和字幕对组之间的偏好进行建模来监督字幕生成。此外,我们提出了一个基于MLLM的检索模型,该模型结合了角色嵌入,以更好地区分具有不同功能角色的文本输入,例如辅助字幕和文本查询。通过广泛的实验,我们证明了CaRe-DPO通过有效地利用辅助知识来生成用于检索的细粒度字幕,从而显著提高了检索性能。

🔬 方法详解

问题定义:论文旨在解决文本-视频检索中,利用辅助字幕增强视频理解时,现有方法生成的字幕过于通用,无法有效区分视觉相似视频的问题。现有方法通常使用BLEU等语言生成指标评估字幕质量,但这些指标与检索任务的需求不匹配,无法保证生成的字幕有利于检索。

核心思路:论文的核心思路是直接利用检索相关性分数来优化字幕生成过程。通过学习不同视频和字幕对之间的偏好关系,使得生成的字幕能够更好地服务于检索任务,从而提高检索性能。这种方法避免了传统字幕生成方法中评估指标与检索任务目标不一致的问题。

技术框架:CaRe-DPO框架包含两个主要组成部分:字幕生成器和检索模型。字幕生成器负责生成辅助字幕,检索模型负责根据文本查询和视频(及其辅助字幕)进行检索。DG-DPO作为核心学习策略,用于指导字幕生成器的训练,使其生成的字幕更符合检索任务的需求。检索模型则利用角色嵌入来区分文本查询和辅助字幕,从而更有效地利用辅助信息。

关键创新:论文的关键创新在于提出了双组直接偏好优化(DG-DPO)策略。DG-DPO通过建模不同视频和字幕对组之间的偏好关系,直接优化字幕生成过程,使其生成的字幕更具区分性,更适合于检索任务。此外,角色嵌入的使用也增强了检索模型对不同文本输入的理解能力。

关键设计:DG-DPO策略的关键在于构建合适的偏好数据集。论文将不同的视频和字幕对分组,并根据检索相关性分数确定组内偏好关系。损失函数的设计旨在最大化正确字幕的偏好概率,同时最小化错误字幕的偏好概率。角色嵌入的具体实现方式未知,但其目的是区分文本查询和辅助字幕,可能通过不同的嵌入空间或注意力机制实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过大量实验验证了CaRe-DPO框架的有效性。实验结果表明,CaRe-DPO在多个文本-视频检索数据集上取得了显著的性能提升,优于现有的字幕生成方法。具体的性能数据和提升幅度在论文中给出,但此处未知。

🎯 应用场景

该研究成果可应用于视频搜索引擎、智能视频分析、视频内容推荐等领域。通过生成更具区分性的辅助字幕,可以提高视频检索的准确性和效率,改善用户体验。未来,该方法可以扩展到其他多模态检索任务中,例如图像-文本检索、音频-文本检索等。

📄 摘要(原文)

In text-video retrieval, auxiliary captions are often used to enhance video understanding, bridging the gap between the modalities. While recent advances in multi-modal large language models (MLLMs) have enabled strong zero-shot caption generation, we observe that such captions tend to be generic and indistinguishable across visually similar videos, limiting their utility for fine-grained retrieval. Moreover, conventional captioning approaches are typically evaluated using language generation metrics, such as BLEU, which are not typically tailored for retrieval tasks that require making discriminative distinctions between candidates. To address this, we propose $\textbf{CaRe-DPO}$, a retrieval framework that directly optimizes caption generation using retrieval relevance scores. At its core is Dual-Group Direct Preference Optimization (DG-DPO), a novel learning strategy that supervises captioning by modeling preferences across groups of distinct video and caption pairs. In addition, we present an MLLM-based retrieval model that incorporates role-embeddings to better distinguish between textual inputs with different functional roles, such as an auxiliary caption and a text query. Through extensive experiments, we demonstrate that CaRe-DPO significantly enhances retrieval performance by effectively leveraging auxiliary knowledge to generate fine-grained captions for retrieval. Code is available at https://github.com/mlvlab/CaReDPO.