Self-Rewarded Multimodal Coherent Reasoning Across Diverse Visual Domains

作者: Jesen Zhang, Ningyuan Liu, Kaitong Cai, Sidi Liu, Jing Yang, Ziliang Chen, Xiaofei Sun, Keze Wang

分类: cs.CV, cs.AI

发布日期: 2025-12-27

💡 一句话要点

提出SR-MCR框架，通过自奖励机制提升多模态LLM在视觉领域的推理连贯性和准确性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉推理 自奖励学习 大型语言模型 过程监督

📋 核心要点

现有方法仅关注最终答案监督，忽略了多模态LLM中间推理过程的可靠性，导致推理连贯性和视觉基础不足。
SR-MCR框架利用模型自身输出的内在信号，通过自奖励机制对齐推理过程，无需额外标签。
SR-MCR在多个视觉基准测试中显著提升了答案准确性和推理连贯性，并在同等规模开源模型中达到领先水平。

📝 摘要（中文）

多模态大型语言模型（LLM）通常产生流畅但不甚可靠的推理结果，表现出较弱的逐步连贯性和不足的视觉基础。这主要是因为现有的对齐方法仅监督最终答案，而忽略了中间推理过程的可靠性。我们引入了SR-MCR，一个轻量级且无标签的框架，通过利用直接从模型输出中获得的内在过程信号来对齐推理。五个自参照线索——语义对齐、词汇保真度、非冗余性、视觉基础和步骤一致性——被整合到一个归一化的、可靠性加权的奖励中，从而提供细粒度的过程级指导。一种无评论家的GRPO目标，通过置信度感知的冷却机制增强，进一步稳定了训练并抑制了琐碎或过度自信的生成。基于Qwen2.5-VL，SR-MCR提高了各种视觉基准上的答案准确性和推理连贯性；在同等规模的开源模型中，SR-MCR-7B实现了最先进的性能，平均准确率为81.4%。消融研究证实了每个奖励项和冷却模块的独立贡献。

🔬 方法详解

问题定义：多模态大型语言模型在视觉推理任务中，虽然能够生成流畅的文本，但其推理过程往往缺乏连贯性，并且对视觉信息的理解不够深入。现有的对齐方法主要关注最终答案的正确性，而忽略了中间推理步骤的合理性和可靠性，导致模型容易产生“幻觉”或不准确的推理。

核心思路：SR-MCR的核心思想是利用模型自身生成的中间推理过程作为反馈信号，通过自奖励机制来引导模型进行更连贯、更可靠的推理。它假设一个好的推理过程应该具备语义对齐、词汇保真度、非冗余性、视觉基础和步骤一致性等特征。通过对这些特征进行量化，并将其转化为奖励信号，可以有效地监督模型的中间推理过程。

技术框架：SR-MCR框架主要包含以下几个模块：1) 多模态LLM：作为推理的主体，负责接收视觉输入并生成推理过程和最终答案。2) 自奖励模块：负责评估模型生成的推理过程，并根据五个自参照线索计算奖励信号。3) GRPO优化器：利用计算得到的奖励信号，对模型进行优化，使其能够生成更连贯、更可靠的推理过程。4) 置信度感知的冷却机制：用于稳定训练过程，并抑制模型生成过于自信或琐碎的答案。

关键创新：SR-MCR的关键创新在于提出了一个轻量级且无标签的自奖励框架，能够有效地监督多模态LLM的中间推理过程。与传统的监督学习方法相比，SR-MCR不需要人工标注的中间推理步骤，而是直接利用模型自身的输出作为反馈信号，从而降低了标注成本，并提高了模型的泛化能力。此外，SR-MCR还引入了置信度感知的冷却机制，进一步稳定了训练过程，并提高了模型的性能。

关键设计：SR-MCR的关键设计包括：1) 五个自参照线索的定义和量化方法，例如，语义对齐通过计算推理步骤与问题之间的语义相似度来衡量。2) 奖励信号的归一化和加权方法，确保不同线索的奖励信号能够有效地整合。3) GRPO优化器的具体实现，以及置信度感知的冷却机制的参数设置。例如，冷却系数的设置会影响训练的稳定性和收敛速度。

🖼️ 关键图片

📊 实验亮点

SR-MCR在多个视觉基准测试中取得了显著的性能提升。例如，在平均准确率方面，SR-MCR-7B达到了81.4%，在同等规模的开源模型中实现了最先进的性能。消融实验表明，每个奖励项和冷却模块都对最终性能有独立的贡献，验证了SR-MCR框架的有效性。

🎯 应用场景

SR-MCR框架可应用于各种需要多模态信息融合和复杂推理的场景，例如视觉问答、图像描述生成、机器人导航等。该研究有助于提升AI系统在理解和处理视觉信息方面的能力，使其能够更准确、更可靠地完成各种任务，具有广泛的应用前景。

📄 摘要（原文）

Multimodal LLMs often produce fluent yet unreliable reasoning, exhibiting weak step-to-step coherence and insufficient visual grounding, largely because existing alignment approaches supervise only the final answer while ignoring the reliability of the intermediate reasoning process. We introduce SR-MCR, a lightweight and label-free framework that aligns reasoning by exploiting intrinsic process signals derived directly from model outputs. Five self-referential cues -- semantic alignment, lexical fidelity, non-redundancy, visual grounding, and step consistency -- are integrated into a normalized, reliability-weighted reward that provides fine-grained process-level guidance. A critic-free GRPO objective, enhanced with a confidence-aware cooling mechanism, further stabilizes training and suppresses trivial or overly confident generations. Built on Qwen2.5-VL, SR-MCR improves both answer accuracy and reasoning coherence across a broad set of visual benchmarks; among open-source models of comparable size, SR-MCR-7B achieves state-of-the-art performance with an average accuracy of 81.4%. Ablation studies confirm the independent contributions of each reward term and the cooling module.

Self-Rewarded Multimodal Coherent Reasoning Across Diverse Visual Domains

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理