REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

作者: Fulin Shi, Wenyi Xiao, Bin Chen, Liang Din, Leilei Gan

分类: cs.CV

发布日期: 2025-12-29

💡 一句话要点

REVEALER：提出基于强化学习引导的视觉推理框架，用于元素级文本-图像对齐评估

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本-图像对齐 视觉推理 强化学习 多模态学习 大语言模型

📋 核心要点

现有文本-图像对齐评估方法依赖粗粒度指标或静态QA流程，缺乏细粒度可解释性，难以反映人类偏好。
REVEALER采用“grounding-reasoning-conclusion”范式，利用强化学习引导多模态LLM进行元素级对齐评估。
实验表明，REVEALER在多个基准测试中达到SOTA，优于专有模型和监督基线，并具有更高的推理效率。

📝 摘要（中文）

评估文本提示与生成图像之间的对齐对于确保文本到图像（T2I）模型的可靠性和可用性至关重要。然而，现有的大多数评估方法依赖于粗粒度的指标或静态的问答流程，缺乏细粒度的可解释性，并且难以反映人类偏好。为了解决这个问题，我们提出了REVEALER，一个统一的框架，用于基于强化学习引导的视觉推理进行元素级对齐评估。我们的方法采用结构化的“grounding-reasoning-conclusion”范式，使多模态大型语言模型（MLLM）能够显式地定位语义元素并得出可解释的对齐判断。我们使用包含结构格式、grounding准确性和对齐保真度的复合奖励函数，通过Group Relative Policy Optimization (GRPO)来优化模型。在四个基准数据集EvalMuse-40K、RichHF、MHaluBench和GenAI-Bench上的大量实验表明，REVEALER实现了最先进的性能。我们的方法始终优于强大的专有模型和监督基线，同时与现有的迭代视觉推理方法相比，展现出卓越的推理效率。

🔬 方法详解

问题定义：论文旨在解决文本到图像生成模型中，评估生成图像与文本描述之间对齐程度的问题。现有方法主要存在两个痛点：一是评估粒度粗糙，无法进行元素级别的对齐分析；二是可解释性差，难以理解模型做出对齐判断的依据。

核心思路：论文的核心思路是利用多模态大型语言模型（MLLM）的视觉推理能力，结合强化学习，引导模型进行细粒度的元素级对齐评估。通过结构化的推理过程，使模型能够显式地定位图像中的语义元素，并根据文本描述进行推理判断，最终给出对齐结论。这种方法旨在提高评估的准确性和可解释性。

技术框架：REVEALER框架主要包含三个阶段：Grounding（定位语义元素）、Reasoning（视觉推理）和Conclusion（对齐结论）。首先，Grounding阶段利用MLLM定位图像中与文本描述相关的语义元素。然后，Reasoning阶段利用MLLM对定位到的元素进行视觉推理，判断其与文本描述是否一致。最后，Conclusion阶段根据推理结果给出最终的对齐判断。整个过程采用强化学习进行优化，目标是最大化奖励函数。

关键创新：REVEALER的关键创新在于将强化学习引入到文本-图像对齐评估中，并设计了一种结构化的“grounding-reasoning-conclusion”推理范式。通过强化学习，模型能够学习到更有效的视觉推理策略，从而提高对齐评估的准确性和可解释性。此外，使用Group Relative Policy Optimization (GRPO) 优化模型，提升了训练效率和效果。

关键设计：REVEALER的关键设计包括：1) 复合奖励函数，综合考虑了结构格式、grounding准确性和对齐保真度；2) Group Relative Policy Optimization (GRPO) 算法，用于优化强化学习过程；3) 结构化的“grounding-reasoning-conclusion”推理范式，保证了评估过程的可解释性。具体参数设置和网络结构细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

REVEALER在EvalMuse-40K、RichHF、MHaluBench和GenAI-Bench四个基准数据集上取得了SOTA性能，显著优于现有的专有模型和监督基线。同时，REVEALER展现出更高的推理效率，相比于现有的迭代视觉推理方法，能够更快地完成评估任务。具体的性能提升幅度未在摘要中给出，属于未知信息。

🎯 应用场景

REVEALER可应用于文本到图像生成模型的评估和改进，帮助开发者更好地理解模型的优缺点，并针对性地进行优化。此外，该方法还可用于图像检索、视觉问答等领域，提高多模态任务的性能和可解释性。未来，该研究有望推动多模态人工智能技术的发展。

📄 摘要（原文）

Evaluating the alignment between textual prompts and generated images is critical for ensuring the reliability and usability of text-to-image (T2I) models. However, most existing evaluation methods rely on coarse-grained metrics or static QA pipelines, which lack fine-grained interpretability and struggle to reflect human preferences. To address this, we propose REVEALER, a unified framework for element-level alignment evaluation based on reinforcement-guided visual reasoning. Adopting a structured "grounding-reasoning-conclusion" paradigm, our method enables Multimodal Large Language Models (MLLMs) to explicitly localize semantic elements and derive interpretable alignment judgments. We optimize the model via Group Relative Policy Optimization(GRPO) using a composite reward function that incorporates structural format, grounding accuracy, and alignment fidelity. Extensive experiments across four benchmarks-EvalMuse-40K, RichHF, MHaluBench, and GenAI-Bench-demonstrate that REVEALER achieves state-of-the-art performance. Our approach consistently outperforms both strong proprietary models and supervised baselines while demonstrating superior inference efficiency compared to existing iterative visual reasoning methods.

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理