RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

📄 arXiv: 2603.09160v1 📥 PDF

作者: Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-03-10


💡 一句话要点

RubiCap:一种基于规则引导的强化学习方法,用于密集图像描述生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 密集图像描述 强化学习 大型语言模型 规则引导 视觉-语言预训练

📋 核心要点

  1. 现有密集图像描述方法依赖昂贵的人工标注或监督蒸馏,导致泛化能力弱和多样性不足。
  2. RubiCap利用LLM生成细粒度的规则,为强化学习提供样本特定的奖励信号,指导模型生成高质量描述。
  3. 实验表明,RubiCap在多个基准测试中超越了监督蒸馏、现有强化学习方法和GPT-4V,并提升了预训练VLM的性能。

📝 摘要(中文)

密集图像描述对于视觉-语言预训练和文本到图像生成中的跨模态对齐至关重要,但专家级标注的扩展成本高昂。虽然通过强大的视觉-语言模型(VLMs)进行合成描述是一种可行的替代方案,但监督式知识蒸馏通常导致输出多样性有限和泛化能力较弱。强化学习(RL)可以克服这些限制,但其成功主要集中在依赖确定性检查器的可验证领域,而开放式描述中无法实现。我们提出了RubiCap,一种新颖的RL框架,它从LLM编写的规则中获得细粒度的、特定于样本的奖励信号。RubiCap首先组装一个由候选描述组成的多样化委员会,然后使用LLM规则编写器提取共识优势并诊断当前策略的缺陷。这些见解被转化为明确的评估标准,使LLM判断器能够分解整体质量评估,并用结构化的、多方面的评估取代粗略的标量奖励。在广泛的基准测试中,RubiCap在CapArena上实现了最高的胜率,优于监督式知识蒸馏、先前的RL方法、人类专家标注和GPT-4V增强输出。在CaptionQA上,它展示了卓越的单词效率:我们的7B模型与Qwen2.5-VL-32B-Instruct相匹配,而我们的3B模型超过了它的7B对应模型。值得注意的是,使用紧凑的RubiCap-3B作为描述器,可以产生比那些在专有模型生成的描述上训练的更强大的预训练VLM。

🔬 方法详解

问题定义:论文旨在解决密集图像描述任务中,现有方法依赖人工标注或监督蒸馏导致的泛化能力弱和多样性不足的问题。人工标注成本高昂,而监督蒸馏受限于教师模型的质量,难以生成新颖的描述。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成细粒度的、特定于样本的规则(Rubric),并将其作为强化学习的奖励信号,从而引导模型生成高质量且多样的图像描述。这种方法避免了对人工标注的依赖,并利用LLM的推理能力来评估描述的质量。

技术框架:RubiCap框架包含以下几个主要模块:1) 候选描述生成器:生成一组多样化的候选描述。2) LLM规则编写器:根据图像和候选描述,生成细粒度的评估规则(Rubric)。3) LLM判断器:根据规则评估每个候选描述的质量,并生成奖励信号。4) 强化学习代理:根据奖励信号优化描述生成策略。整体流程是,首先生成多个候选描述,然后利用LLM生成评估规则,再利用LLM根据规则评估描述并生成奖励,最后利用强化学习优化描述生成策略。

关键创新:最重要的技术创新点在于利用LLM生成细粒度的、样本特定的评估规则,并将其作为强化学习的奖励信号。与传统的强化学习方法中使用粗略的标量奖励不同,RubiCap使用LLM生成的规则来分解整体质量评估,并提供结构化的、多方面的评估。这种方法能够更准确地反映描述的质量,并引导模型生成更符合要求的描述。

关键设计:在候选描述生成阶段,可以使用不同的模型或采样策略来增加候选描述的多样性。LLM规则编写器的prompt设计至关重要,需要引导LLM生成全面、细致且客观的评估规则。LLM判断器的prompt设计也需要仔细考虑,以确保其能够准确地根据规则评估描述的质量。强化学习代理可以使用常见的策略梯度算法,例如PPO。奖励函数的设计需要平衡不同规则之间的权重,并避免奖励信号过于稀疏或过于密集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RubiCap在CapArena上取得了最高的胜率,超越了监督蒸馏、现有强化学习方法、人类专家标注和GPT-4V增强输出。在CaptionQA上,RubiCap-3B模型超越了Qwen2.5-VL-7B模型,展示了卓越的单词效率。使用RubiCap-3B作为描述器训练的预训练VLM,性能优于使用专有模型生成的描述训练的模型。

🎯 应用场景

RubiCap可应用于视觉-语言预训练、文本到图像生成、图像检索、视觉问答等领域。通过生成高质量的图像描述,可以提升跨模态理解能力,改善下游任务的性能。该方法降低了对人工标注的依赖,有望推动视觉-语言模型的快速发展。

📄 摘要(原文)

Dense image captioning is critical for cross-modal alignment in vision-language pretraining and text-to-image generation, but scaling expert-quality annotations is prohibitively expensive. While synthetic captioning via strong vision-language models (VLMs) is a practical alternative, supervised distillation often yields limited output diversity and weak generalization. Reinforcement learning (RL) could overcome these limitations, but its successes have so far been concentrated in verifiable domains that rely on deterministic checkers -- a luxury not available in open-ended captioning. We address this bottleneck with RubiCap, a novel RL framework that derives fine-grained, sample-specific reward signals from LLM-written rubrics. RubiCap first assembles a diverse committee of candidate captions, then employs an LLM rubric writer to extract consensus strengths and diagnose deficiencies in the current policy. These insights are converted into explicit evaluation criteria, enabling an LLM judge to decompose holistic quality assessment and replace coarse scalar rewards with structured, multi-faceted evaluations. Across extensive benchmarks, RubiCap achieves the highest win rates on CapArena, outperforming supervised distillation, prior RL methods, human-expert annotations, and GPT-4V-augmented outputs. On CaptionQA, it demonstrates superior word efficiency: our 7B model matches Qwen2.5-VL-32B-Instruct, and our 3B model surpasses its 7B counterpart. Remarkably, using the compact RubiCap-3B as a captioner produces stronger pretrained VLMs than those trained on captions from proprietary models.