RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction
作者: Yuchi Wang, Yishuo Cai, Shuhuai Ren, Sihan Yang, Linli Yao, Yuanxin Liu, Yuanxing Zhang, Pengfei Wan, Xu Sun
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-05-28
备注: code: https://github.com/wangyuchi369/RICO
🔗 代码/项目: GITHUB
💡 一句话要点
RICO:通过视觉重建提升图像重述的准确性和完整性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像重述 视觉重建 多模态学习 大型语言模型 文本到图像 DPO 标题生成 图像描述
📋 核心要点
- 现有图像重述方法依赖MLLM,但易出现幻觉和细节缺失,导致生成标题不准确和不完整。
- RICO框架通过文本到图像的视觉重建,迭代地对比原始图像与重建图像,从而优化标题。
- 实验表明,RICO在CapsBench和CompreCap上显著提升了标题的准确性和完整性,优于现有方法约10%。
📝 摘要(中文)
图像重述被广泛应用于生成高质量的训练数据集,以支持各种多模态任务。现有的重述方法通常依赖于强大的多模态大型语言模型(MLLM)来增强文本描述,但常常由于幻觉导致不准确,以及因遗漏细粒度细节导致不完整。为了解决这些局限性,我们提出了RICO,一种通过视觉重建来优化标题的新框架。具体来说,我们利用文本到图像模型将标题重建为参考图像,并提示MLLM识别原始图像和重建图像之间的差异,从而优化标题。这个过程迭代进行,进一步逐步促进生成更忠实和全面的描述。为了减轻迭代过程带来的额外计算成本,我们引入了RICO-Flash,它学习像RICO一样使用DPO生成标题。大量的实验表明,我们的方法显著提高了标题的准确性和完整性,在CapsBench和CompreCap上都比大多数基线提高了约10%。代码已在https://github.com/wangyuchi369/RICO发布。
🔬 方法详解
问题定义:论文旨在解决图像重述任务中,现有方法生成的标题不准确和不完整的问题。现有方法依赖于多模态大型语言模型(MLLM),但由于MLLM的固有缺陷,容易产生幻觉,导致标题与图像内容不符。此外,现有方法也容易忽略图像中的细粒度细节,导致标题不够全面。
核心思路:论文的核心思路是通过视觉重建来验证和修正标题。具体来说,将生成的标题通过文本到图像模型重建为图像,然后对比重建图像和原始图像,找出差异之处。这些差异之处可能表明原始标题存在错误或遗漏,从而指导标题的修正。
技术框架:RICO框架包含以下主要模块:1) 标题生成模块:使用MLLM生成初始标题。2) 视觉重建模块:使用文本到图像模型将标题重建为图像。3) 差异识别模块:使用MLLM识别原始图像和重建图像之间的差异。4) 标题修正模块:根据差异识别结果,修正原始标题。整个过程迭代进行,直到标题的准确性和完整性达到预定的标准。
关键创新:RICO的关键创新在于引入了视觉重建作为标题质量的评估和修正手段。与传统的仅依赖文本信息的标题生成方法不同,RICO利用视觉信息来验证标题的准确性和完整性,从而有效地减少了幻觉和细节遗漏。此外,RICO-Flash通过DPO学习RICO的生成方式,降低了迭代过程的计算成本。
关键设计:RICO的关键设计包括:1) 使用高质量的文本到图像模型进行视觉重建。2) 设计有效的提示工程,引导MLLM准确地识别原始图像和重建图像之间的差异。3) 设计合适的迭代停止条件,以平衡标题质量和计算成本。4) RICO-Flash使用DPO(Direct Preference Optimization)损失函数,直接优化模型的生成策略,使其更接近RICO的输出。
🖼️ 关键图片
📊 实验亮点
RICO在CapsBench和CompreCap两个图像重述基准测试中取得了显著的性能提升。具体来说,RICO在两个数据集上都比大多数基线方法提高了约10%。这表明RICO能够有效地提高标题的准确性和完整性。此外,RICO-Flash在保持性能的同时,显著降低了计算成本。
🎯 应用场景
RICO可应用于各种多模态任务,例如图像检索、视觉问答和图像编辑。通过生成更准确和完整的图像描述,RICO可以提高这些任务的性能。此外,RICO还可以用于自动生成高质量的训练数据集,从而降低训练多模态模型的成本。未来,RICO可以进一步扩展到视频重述等领域。
📄 摘要(原文)
Image recaptioning is widely used to generate training datasets with enhanced quality for various multimodal tasks. Existing recaptioning methods typically rely on powerful multimodal large language models (MLLMs) to enhance textual descriptions, but often suffer from inaccuracies due to hallucinations and incompleteness caused by missing fine-grained details. To address these limitations, we propose RICO, a novel framework that refines captions through visual reconstruction. Specifically, we leverage a text-to-image model to reconstruct a caption into a reference image, and prompt an MLLM to identify discrepancies between the original and reconstructed images to refine the caption. This process is performed iteratively, further progressively promoting the generation of more faithful and comprehensive descriptions. To mitigate the additional computational cost induced by the iterative process, we introduce RICO-Flash, which learns to generate captions like RICO using DPO. Extensive experiments demonstrate that our approach significantly improves caption accuracy and completeness, outperforms most baselines by approximately 10% on both CapsBench and CompreCap. Code released at https://github.com/wangyuchi369/RICO.