MR. Judge: Multimodal Reasoner as a Judge

作者: Renjie Pi, Felix Bai, Qibin Chen, Simon Wang, Jiulong Shan, Kieran Liu, Meng Cao

分类: cs.CL

发布日期: 2025-05-19

💡 一句话要点

提出MR. Judge，增强多模态大语言模型作为评判者的推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 评判模型 推理能力 强化学习 人类反馈 自动评估 选择题 数据增强

📋 核心要点

现有方法直接评分，缺乏推理过程，导致可解释性差，且难以有效评估复杂场景。
MR. Judge将评判转化为推理选择题，模型通过推理选择最佳响应，提升评判质量。
实验表明，MR. Judge在VL-RewardBench和MM-Vet上显著优于现有模型，验证了其有效性。

📝 摘要（中文）

本文提出了一种名为多模态推理器作为评判者（MR. Judge）的范例，旨在增强通用多模态大语言模型（MLLM）评判者的强大推理能力。与直接为每个响应分配分数不同，我们将评判过程形式化为一个受推理启发的选择题。具体来说，评判模型首先进行深思熟虑的推理，涵盖响应的不同方面，并最终从中选择最佳响应。这种推理过程不仅提高了评判的可解释性，而且极大地提高了MLLM评判者的性能。为了应对缺乏带有评分响应的问题，我们提出以下策略来实现自动标注：1) 反向响应候选合成：从监督微调（SFT）数据集开始，我们将原始响应视为最佳候选，并提示MLLM生成看似合理但有缺陷的负面候选。2) 基于文本的推理提取：我们精心设计了一个数据合成管道，用于从基于文本的推理模型中提取推理能力，该模型被用于使MLLM评判者能够通过预热监督微调重新获得复杂的推理能力。实验表明，我们的MR. Judge在各种任务中都是有效的。具体来说，我们的MR. Judge-7B在VL-RewardBench上超越了GPT-4o 9.9%，并在推理时缩放期间将MM-Vet的性能提高了高达7.7%。

🔬 方法详解

问题定义：现有的大语言模型（LLM）和多模态大语言模型（MLLM）作为评判者，在强化学习中的人类反馈（RLHF）和推理时缩放中被广泛应用。然而，直接对响应进行评分的方式缺乏推理过程，导致可解释性较差，并且难以有效评估复杂场景下的响应质量。现有的方法难以充分利用MLLM的推理能力，限制了其作为评判者的性能。

核心思路：MR. Judge的核心思路是将评判过程转化为一个受推理启发的选择题。模型不再直接为每个响应打分，而是通过对多个候选响应进行推理分析，最终选择出最佳的响应。这种方式模拟了人类的评判过程，增强了评判的可解释性和准确性。通过引入推理过程，模型可以更好地理解响应的优缺点，从而做出更合理的判断。

技术框架：MR. Judge的整体框架包含以下几个主要阶段：1) 反向响应候选合成：利用已有的监督微调（SFT）数据集，将原始响应作为最佳候选，并提示MLLM生成 plausible 但有缺陷的负面候选，构建多候选的评判数据集。2) 基于文本的推理提取：设计数据合成管道，从基于文本的推理模型中提取推理能力，用于预训练MLLM评判者，使其具备复杂的推理能力。3) 推理选择：将问题和多个候选响应输入到MLLM评判者中，模型通过推理分析，选择最佳响应。

关键创新：MR. Judge的关键创新在于将评判过程形式化为推理选择题，并引入了反向响应候选合成和基于文本的推理提取两种数据增强方法。这种方法充分利用了MLLM的推理能力，提高了评判的准确性和可解释性。与直接评分的方法相比，MR. Judge能够更好地理解响应的优缺点，从而做出更合理的判断。

关键设计：在反向响应候选合成中，需要精心设计提示语，引导MLLM生成高质量的负面候选。在基于文本的推理提取中，需要选择合适的推理模型，并设计有效的数据合成管道，保证提取的推理能力能够有效迁移到MLLM评判者。此外，损失函数的设计也至关重要，需要能够有效地训练MLLM评判者进行推理选择。

🖼️ 关键图片

📊 实验亮点

MR. Judge-7B在VL-RewardBench上超越了GPT-4o 9.9%，并在推理时缩放期间将MM-Vet的性能提高了高达7.7%。这些结果表明，MR. Judge能够显著提升MLLM作为评判者的性能，并在各种任务中表现出强大的竞争力。

🎯 应用场景

MR. Judge可应用于各种需要自动评估和排序的场景，例如：对话系统评估、图像生成质量评估、代码生成质量评估等。该研究有助于提升AI系统的可靠性和安全性，并促进人机协作。

📄 摘要（原文）

The paradigm of using Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) as evaluative judges has emerged as an effective approach in RLHF and inference-time scaling. In this work, we propose Multimodal Reasoner as a Judge (MR. Judge), a paradigm for empowering general-purpose MLLMs judges with strong reasoning capabilities. Instead of directly assigning scores for each response, we formulate the judgement process as a reasoning-inspired multiple-choice problem. Specifically, the judge model first conducts deliberate reasoning covering different aspects of the responses and eventually selects the best response from them. This reasoning process not only improves the interpretibility of the judgement, but also greatly enhances the performance of MLLM judges. To cope with the lack of questions with scored responses, we propose the following strategy to achieve automatic annotation: 1) Reverse Response Candidates Synthesis: starting from a supervised fine-tuning (SFT) dataset, we treat the original response as the best candidate and prompt the MLLM to generate plausible but flawed negative candidates. 2) Text-based reasoning extraction: we carefully design a data synthesis pipeline for distilling the reasoning capability from a text-based reasoning model, which is adopted to enable the MLLM judges to regain complex reasoning ability via warm up supervised fine-tuning. Experiments demonstrate that our MR. Judge is effective across a wide range of tasks. Specifically, our MR. Judge-7B surpasses GPT-4o by 9.9% on VL-RewardBench, and improves performance on MM-Vet during inference-time scaling by up to 7.7%.

MR. Judge: Multimodal Reasoner as a Judge

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理