CapRL++: Unified Reinforcement Learning with Verifiable Rewards for Dense Image and Video Captioning
作者: Penghui Yang, Long Xing, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Yibin Wang, Yujie Zhou, Jiazi Bu, Jianze Liang, Qidong Huang, Jiaqi Wang, Feng Wu, Dahua Lin
分类: cs.CV
发布日期: 2026-06-08
备注: 26 pages, 10 figures. Project page: https://github.com/InternLM/CapRL. arXiv admin note: text overlap with arXiv:2509.22647
💡 一句话要点
提出CapRL++以解决图像和视频字幕生成中的奖励验证问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像字幕生成 视频字幕生成 强化学习 可验证奖励 多模态学习 视觉-语言模型 预训练 自然语言处理
📋 核心要点
- 现有的字幕生成模型依赖于昂贵的监督微调,导致模型容易记忆特定答案,限制了其泛化能力。
- 本文提出CapRL++,通过可验证奖励的强化学习框架,重新定义字幕质量,使其能够通过回答问题来评估。
- 在超过20个图像和视频基准上,CapRL++显著提升了字幕生成质量,并在下游任务中取得了显著的性能提升。
📝 摘要(中文)
图像和视频字幕生成是连接视觉与语言领域的基础任务,对大型视觉-语言模型(LVLMs)的预训练至关重要。现有的字幕生成模型通常依赖于昂贵且不可扩展的监督微调(SFT),这限制了模型的泛化能力和生成多样化描述的能力。为了解决这些问题,本文提出了一种新的无参考训练框架——Captioning Reinforcement Learning++(CapRL++),通过可验证奖励的强化学习方法来优化多模态字幕生成。CapRL++采用解耦的两阶段流程,首先由LVLM生成字幕,然后通过一个独立的非视觉语言模型回答与该字幕相关的多项选择题来获取奖励。实验结果表明,CapRL++在多个图像和视频基准上显著提升了字幕质量,并在空间和时间理解等任务中增强了基于字幕的预训练效果。
🔬 方法详解
问题定义:本文旨在解决现有图像和视频字幕生成模型在监督微调下的泛化能力不足和生成多样性缺乏的问题。现有方法依赖于昂贵的标注,导致模型容易记忆特定答案,限制了其在开放式任务中的表现。
核心思路:CapRL++通过引入可验证奖励的强化学习方法,重新定义了字幕的质量标准。高质量的字幕应能使非视觉语言模型准确回答与视觉内容相关的问题,从而提升生成的多样性和准确性。
技术框架:CapRL++采用解耦的两阶段流程。第一阶段,使用大型视觉-语言模型生成字幕;第二阶段,利用一个独立的非视觉语言模型根据生成的字幕回答多项选择题,以此获取奖励信号。
关键创新:CapRL++的主要创新在于引入了可验证奖励机制,使得字幕生成不仅依赖于传统的监督学习,而是通过回答问题的准确性来评估字幕质量。这一方法与现有的监督微调方法本质上不同,能够有效提升模型的泛化能力。
关键设计:在训练过程中,CapRL++设计了特定的损失函数,以优化生成字幕的质量,并通过多项选择题的准确性来反馈模型的表现。此外,模型架构采用了分阶段的设计,确保生成和评估过程的有效解耦。通过这种方式,模型能够在不同的任务中保持高效的性能。
🖼️ 关键图片
📊 实验亮点
在超过20个图像和视频基准的评估中,CapRL++显著提升了字幕生成质量,尤其是在空间和时间理解任务中表现突出。经过CapRL++预训练的紧凑模型,其密集字幕生成性能与更大规模模型(如Qwen2.5-VL-72B和Qwen3-VL-235B-A22B)相当,验证了该方法的有效性和实用性。
🎯 应用场景
该研究的潜在应用领域包括自动化内容生成、社交媒体平台的内容推荐、教育领域的智能辅导系统等。通过提升图像和视频的字幕生成质量,CapRL++能够为用户提供更准确和多样化的信息,增强用户体验。未来,该方法还可能推动更广泛的多模态学习研究,促进视觉和语言的深度融合。
📄 摘要(原文)
Image and video captioning are fundamental tasks that bridge the visual and linguistic domains, playing a critical role in pre-training Large Vision-Language Models (LVLMs). Current state-of-the-art captioning models are typically trained with Supervised Fine-Tuning (SFT), a paradigm that relies on expensive, non-scalable annotations and often causes models to memorize specific ground-truth answers, limiting their generality and ability to generate diverse, creative descriptions. To overcome these limitations, we propose applying Reinforcement Learning with Verifiable Rewards (RLVR) to the open-ended task of multimodal captioning. We introduce Captioning Reinforcement Learning++ (CapRL++), a novel reference-free training framework that redefines caption quality through its utility: a high-quality caption should enable a non-visual language model to accurately answer questions about the corresponding visual content. CapRL++ employs a decoupled two-stage pipeline where an LVLM generates a caption, and the objective reward is derived from the accuracy of a separate, vision-free LLM answering Multiple-Choice Questions based solely on that caption. Evaluations on more than 20 image and video benchmarks show that CapRL++ improves dense caption quality and strengthens caption-based pretraining across tasks such as spatial and temporal understanding. Pretraining on scalable image and video caption datasets annotated by CapRL++ yields substantial downstream gains. Furthermore, within the Prism Framework for caption quality evaluation, compact models trained with CapRL++ achieve dense captioning performance comparable to substantially larger models such as Qwen2.5-VL-72B and Qwen3-VL-235B-A22B. These results validate that CapRL++ effectively trains models to produce generalizable, high-fidelity descriptions, establishing a robust foundation beyond the limitations of traditional SFT.