VCap: Hypergeometric Rewards for Weak-to-Strong Visual Captioning

📄 arXiv: 2605.28023v1 📥 PDF

作者: Xingyu Lu, Jinpeng Wang, Yi-Fan Zhang, Yankai Yang, Yancheng Long, Yiyang Fan, Xuanyu Zheng, Haonan Fan, Kaiyu Jiang, Tianke Zhang, Changyi Liu, Bin Wen, Fan Yang, Tingting Gao, Han Li, Chun Yuan

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2026-05-27

备注: 28 pages, 8 figures


💡 一句话要点

提出VCap,利用超几何奖励进行弱监督到强监督的视觉描述生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉描述生成 强化学习 超几何奖励 事实一致性 多模态学习

📋 核心要点

  1. 现有视觉描述生成方法缺乏细粒度且可靠的事实验证信号,限制了强化学习的有效性。
  2. VCap通过引入Witness-Adjudicator奖励机制,利用参考描述和视觉信号进行事实一致性验证,提供高精度奖励。
  3. 实验表明,使用VCap训练的模型在多个基准测试中超越了现有SOTA模型,并提高了感知能力。

📝 摘要(中文)

视觉描述生成要求模型忠实地捕捉视觉内容,同时最大限度地减少遗漏和幻觉。作为描述生成的主流范式,MLLM通过扩展规模和高质量数据取得了显著的性能。最近,强化学习(RL)已成为推动MLLM实现更高精度和更广覆盖范围的关键途径,然而,现有的描述生成奖励设计未能为事实验证提供细粒度和可靠的信号,限制了其有效性。为了解决这个问题,我们提出了VCap,一种Witness-Adjudicator奖励,它将参考描述(证人)与视觉信号(仲裁者)配对。通过显式地验证参考描述和策略生成的描述之间基于视觉信号的事实一致性,VCap为描述质量验证提供了具有超几何分布级别精度的奖励信号。这种设计使得即使从不完美的参考中也能进行有效的学习,从而促进了RL训练中从弱到强的泛化。在我们的实验中,一个用VCap训练的8B模型在多个图像和视频描述基准测试中优于开源和闭源的SOTA模型。人工评估进一步证实了其与事实正确性的高度一致性。此外,VCap提高了MLLM的感知能力,推广到各种任务,并超越了best-of-N蒸馏,挑战了先前关于RLVR的假设。

🔬 方法详解

问题定义:论文旨在解决视觉描述生成中,现有强化学习方法因奖励信号不足而导致的事实错误和幻觉问题。现有方法依赖的奖励函数无法准确评估生成描述的事实一致性,尤其是在参考描述不完美的情况下,导致模型难以学习到正确的视觉-文本对应关系。

核心思路:论文的核心思路是设计一种更精确的奖励函数,能够细粒度地评估生成描述的事实一致性。通过引入“证人-仲裁者”机制,将参考描述作为“证人”,视觉信号作为“仲裁者”,共同验证生成描述的事实正确性。这种设计允许模型从不完美的参考描述中学习,实现从弱到强的泛化。

技术框架:VCap的核心在于其奖励函数的设计。整体流程如下:首先,模型生成一个描述;然后,VCap将生成的描述与参考描述进行比较,并利用视觉信号作为仲裁,判断生成描述是否与视觉内容一致。奖励函数基于超几何分布,根据生成描述与参考描述在视觉信号下的重叠程度计算奖励。

关键创新:VCap的关键创新在于其基于超几何分布的奖励函数,它能够更精确地评估生成描述的事实一致性。与传统的奖励函数相比,VCap能够提供更细粒度的反馈,从而引导模型生成更准确的描述。此外,VCap的设计允许模型从不完美的参考描述中学习,提高了模型的鲁棒性和泛化能力。

关键设计:VCap的关键设计包括:1) 使用预训练的视觉-语言模型提取视觉特征和文本特征;2) 设计基于超几何分布的奖励函数,该函数考虑了生成描述、参考描述和视觉信号之间的关系;3) 使用强化学习算法(如PPO)训练模型,以最大化VCap奖励。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用VCap训练的8B模型在多个图像和视频描述基准测试中优于现有的SOTA模型。例如,在COCO图像描述数据集上,VCap模型取得了显著的性能提升。人工评估也证实,VCap模型生成的描述与事实正确性高度一致,优于其他基线模型。此外,VCap还超越了best-of-N蒸馏方法,证明了其在强化学习视觉描述生成方面的优越性。

🎯 应用场景

VCap技术可应用于各种视觉描述生成任务,例如图像和视频字幕生成、视觉问答、机器人导航等。该技术能够提高生成描述的准确性和可靠性,减少事实错误和幻觉,从而提升用户体验和应用效果。此外,VCap还可用于训练更强大的视觉-语言模型,促进跨模态理解和推理的发展。

📄 摘要(原文)

Visual captioning requires models to capture visual content faithfully while minimizing both omission and hallucination. As the dominant paradigm for captioning, MLLMs have achieved strong performance through scaling and high-quality data. Recently, RL has emerged as a key route to driving MLLMs toward higher precision and broader coverage, however, existing reward designs for captioning fail to provide fine-grained and reliable signals for factual verification, limiting their effectiveness. To address this, we propose VCap, a Witness-Adjudicator reward that pairs the reference caption (a witness) with the visual signal (an adjudicator). By explicitly verifying factual consistency between the reference and policy-generated captions grounded in the visual signal, VCap delivers a reward signal with hypergeometric-distribution-level precision for caption quality verification. This design enables effective learning even from imperfect references, facilitating weak-to-strong generalization in RL training. In our experiments, an 8B model trained with VCap outperforms open- and closed-source SOTA models on multiple image and video captioning benchmarks. Human evaluation further confirms its strong alignment with factual correctness. Additionally, VCap improves MLLM perceptual capability, generalizes across tasks, and surpasses best-of-N distillation, challenging prior assumptions about RLVR.