Entity Re-identification in Visual Storytelling via Contrastive Reinforcement Learning

📄 arXiv: 2507.07340v2 📥 PDF

作者: Daniel A. P. Oliveira, David Martins de Matos

分类: cs.CV

发布日期: 2025-07-09 (更新: 2025-07-11)

备注: 7 pages


💡 一句话要点

提出对比强化学习方法,提升视觉故事叙述中实体指代的连贯性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉故事叙述 实体指代 对比学习 强化学习 直接偏好优化 多模态学习 视觉语言模型

📋 核心要点

  1. 现有视觉故事叙述模型难以维持跨帧实体身份一致性,导致指代错误和幻觉,缺乏显式实体连接训练是主要原因。
  2. 论文提出对比强化学习方法,通过区分连贯与不连贯的故事,学习正确的实体连接,提升模型对实体指代的理解。
  3. 实验结果表明,该方法显著提升了 grounding 精度、F1 值、代词 grounding 准确性以及跨帧实体持久性。

📝 摘要(中文)

视觉故事叙述系统,特别是大型视觉-语言模型,在跨帧图像中保持角色和对象身份一致性方面存在困难,常常无法识别不同图像中的实体是否代表相同个体或对象,导致不一致的引用和指代幻觉。这是因为模型缺乏在跨帧图像中建立实体连接的显式训练。我们提出了一种对比强化学习方法,训练模型区分连贯的图像序列和故事与不相关的图像。我们通过合成负样本扩展了故事推理数据集,以学习适当的实体连接行为。我们采用直接偏好优化,使用双组件奖励函数,该函数促进真实故事中实体的 grounding 和重新识别,同时惩罚合成上下文中不正确的实体连接。使用此对比框架,我们对 Qwen Storyteller (基于 Qwen2.5-VL 7B) 进行了微调。评估显示,grounding mAP 从 0.27 提高到 0.31 (+14.8%),F1 从 0.35 提高到 0.41 (+17.1%)。除了“its”之外,所有代词类型的代词 grounding 准确性都有所提高,并且跨帧角色和对象持久性在所有帧数上都有所提高,出现在 5 个或更多帧中的实体从 29.3% 提高到 33.3% (+13.7%)。包含思维链和 grounded 故事的结构良好的故事从 79.1% 增加到 97.5% (+23.3%)。

🔬 方法详解

问题定义:视觉故事叙述任务中,模型难以在不同图像帧之间保持实体身份的一致性,即无法判断不同帧中的实体是否为同一对象或角色。现有模型缺乏对实体间连接关系的明确训练,导致指代错误和幻觉,影响故事的连贯性和真实性。

核心思路:论文的核心思路是利用对比学习和强化学习相结合的方式,训练模型区分连贯的故事和由不相关图像组成的故事。通过奖励模型正确连接的实体,惩罚错误连接的实体,使模型学习到实体连接的先验知识,从而提高实体指代的准确性。

技术框架:整体框架包括以下几个主要步骤:1) 数据集构建:在现有故事推理数据集的基础上,通过合成负样本(即不连贯的故事)来扩充数据集。2) 模型训练:使用直接偏好优化(Direct Preference Optimization, DPO)方法,结合双组件奖励函数,对 Qwen Storyteller 模型进行微调。奖励函数包含 grounding 奖励和实体连接惩罚两部分。3) 模型评估:在多个指标上评估模型的性能,包括 grounding 精度、F1 值、代词 grounding 准确性以及跨帧实体持久性。

关键创新:该方法的主要创新在于将对比学习和强化学习相结合,用于解决视觉故事叙述中的实体指代问题。通过构建对比样本,并使用强化学习方法优化模型,使其能够学习到实体连接的先验知识。此外,双组件奖励函数的设计也至关重要,它既鼓励模型进行正确的 grounding,又惩罚错误的实体连接。

关键设计:论文使用了直接偏好优化(DPO)算法,这是一种无需显式策略梯度估计的强化学习方法,能够更稳定地训练模型。双组件奖励函数的设计是关键,它包含 grounding 奖励和实体连接惩罚两部分,分别用于鼓励模型进行正确的 grounding 和惩罚错误的实体连接。具体而言,grounding 奖励基于模型预测的实体边界框与真实边界框的 IoU 计算,实体连接惩罚则基于模型在负样本中连接错误实体的程度计算。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个指标上取得了显著提升。Grounding mAP 从 0.27 提高到 0.31 (+14.8%),F1 值从 0.35 提高到 0.41 (+17.1%)。跨帧实体持久性也得到了显著提升,出现在 5 个或更多帧中的实体从 29.3% 提高到 33.3% (+13.7%)。结构良好的故事比例从 79.1% 增加到 97.5% (+23.3%)。

🎯 应用场景

该研究成果可应用于各种视觉故事叙述系统,例如自动生成漫画、电影剧本等。通过提高模型对实体指代的理解,可以生成更连贯、更真实的视觉故事,提升用户体验。此外,该方法还可以扩展到其他需要保持实体一致性的多模态任务中,例如视频理解、机器人导航等。

📄 摘要(原文)

Visual storytelling systems, particularly large vision-language models, struggle to maintain character and object identity across frames, often failing to recognize when entities in different images represent the same individuals or objects, leading to inconsistent references and referential hallucinations. This occurs because models lack explicit training on when to establish entity connections across frames. We propose a contrastive reinforcement learning approach that trains models to discriminate between coherent image sequences and stories from unrelated images. We extend the Story Reasoning dataset with synthetic negative examples to teach appropriate entity connection behavior. We employ Direct Preference Optimization with a dual-component reward function that promotes grounding and re-identification of entities in real stories while penalizing incorrect entity connections in synthetic contexts. Using this contrastive framework, we fine-tune Qwen Storyteller (based on Qwen2.5-VL 7B). Evaluation shows improvements in grounding mAP from 0.27 to 0.31 (+14.8%), F1 from 0.35 to 0.41 (+17.1%). Pronoun grounding accuracy improved across all pronoun types except "its", and cross-frame character and object persistence increased across all frame counts, with entities appearing in 5 or more frames advancing from 29.3% to 33.3% (+13.7%). Well-structured stories, containing the chain-of-thought and grounded story, increased from 79.1% to 97.5% (+23.3%).