REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation
作者: Fulin Shi, Wenyi Xiao, Bin Chen, Liang Din, Leilei Gan
分类: cs.CV
发布日期: 2025-12-29
💡 一句话要点
REVEALER:提出基于强化学习引导的视觉推理框架,用于元素级文本-图像对齐评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本-图像对齐 视觉推理 强化学习 多模态学习 大语言模型
📋 核心要点
- 现有文本-图像对齐评估方法依赖粗粒度指标或静态QA流程,缺乏细粒度可解释性,难以反映人类偏好。
- REVEALER采用“grounding-reasoning-conclusion”范式,利用强化学习引导多模态LLM进行元素级对齐评估。
- 实验表明,REVEALER在多个基准测试中达到SOTA,优于专有模型和监督基线,并具有更高的推理效率。
📝 摘要(中文)
评估文本提示与生成图像之间的对齐对于确保文本到图像(T2I)模型的可靠性和可用性至关重要。然而,现有的大多数评估方法依赖于粗粒度的指标或静态的问答流程,缺乏细粒度的可解释性,并且难以反映人类偏好。为了解决这个问题,我们提出了REVEALER,一个统一的框架,用于基于强化学习引导的视觉推理进行元素级对齐评估。我们的方法采用结构化的“grounding-reasoning-conclusion”范式,使多模态大型语言模型(MLLM)能够显式地定位语义元素并得出可解释的对齐判断。我们使用包含结构格式、grounding准确性和对齐保真度的复合奖励函数,通过Group Relative Policy Optimization (GRPO)来优化模型。在四个基准数据集EvalMuse-40K、RichHF、MHaluBench和GenAI-Bench上的大量实验表明,REVEALER实现了最先进的性能。我们的方法始终优于强大的专有模型和监督基线,同时与现有的迭代视觉推理方法相比,展现出卓越的推理效率。
🔬 方法详解
问题定义:论文旨在解决文本到图像生成模型中,评估生成图像与文本描述之间对齐程度的问题。现有方法主要存在两个痛点:一是评估粒度粗糙,无法进行元素级别的对齐分析;二是可解释性差,难以理解模型做出对齐判断的依据。
核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)的视觉推理能力,结合强化学习,引导模型进行细粒度的元素级对齐评估。通过结构化的推理过程,使模型能够显式地定位图像中的语义元素,并根据文本描述进行推理判断,最终给出对齐结论。这种方法旨在提高评估的准确性和可解释性。
技术框架:REVEALER框架主要包含三个阶段:Grounding(定位语义元素)、Reasoning(视觉推理)和Conclusion(对齐结论)。首先,Grounding阶段利用MLLM定位图像中与文本描述相关的语义元素。然后,Reasoning阶段利用MLLM对定位到的元素进行视觉推理,判断其与文本描述是否一致。最后,Conclusion阶段根据推理结果给出最终的对齐判断。整个过程采用强化学习进行优化,目标是最大化奖励函数。
关键创新:REVEALER的关键创新在于将强化学习引入到文本-图像对齐评估中,并设计了一种结构化的“grounding-reasoning-conclusion”推理范式。通过强化学习,模型能够学习到更有效的视觉推理策略,从而提高对齐评估的准确性和可解释性。此外,使用Group Relative Policy Optimization (GRPO) 优化模型,提升了训练效率和效果。
关键设计:REVEALER的关键设计包括:1) 复合奖励函数,综合考虑了结构格式、grounding准确性和对齐保真度;2) Group Relative Policy Optimization (GRPO) 算法,用于优化强化学习过程;3) 结构化的“grounding-reasoning-conclusion”推理范式,保证了评估过程的可解释性。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
REVEALER在EvalMuse-40K、RichHF、MHaluBench和GenAI-Bench四个基准数据集上取得了SOTA性能,显著优于现有的专有模型和监督基线。同时,REVEALER展现出更高的推理效率,相比于现有的迭代视觉推理方法,能够更快地完成评估任务。具体的性能提升幅度未在摘要中给出,属于未知信息。
🎯 应用场景
REVEALER可应用于文本到图像生成模型的评估和改进,帮助开发者更好地理解模型的优缺点,并针对性地进行优化。此外,该方法还可用于图像检索、视觉问答等领域,提高多模态任务的性能和可解释性。未来,该研究有望推动多模态人工智能技术的发展。
📄 摘要(原文)
Evaluating the alignment between textual prompts and generated images is critical for ensuring the reliability and usability of text-to-image (T2I) models. However, most existing evaluation methods rely on coarse-grained metrics or static QA pipelines, which lack fine-grained interpretability and struggle to reflect human preferences. To address this, we propose REVEALER, a unified framework for element-level alignment evaluation based on reinforcement-guided visual reasoning. Adopting a structured "grounding-reasoning-conclusion" paradigm, our method enables Multimodal Large Language Models (MLLMs) to explicitly localize semantic elements and derive interpretable alignment judgments. We optimize the model via Group Relative Policy Optimization(GRPO) using a composite reward function that incorporates structural format, grounding accuracy, and alignment fidelity. Extensive experiments across four benchmarks-EvalMuse-40K, RichHF, MHaluBench, and GenAI-Bench-demonstrate that REVEALER achieves state-of-the-art performance. Our approach consistently outperforms both strong proprietary models and supervised baselines while demonstrating superior inference efficiency compared to existing iterative visual reasoning methods.