MJ1: Multimodal Judgment via Grounded Verification

📄 arXiv: 2603.07990v1 📥 PDF

作者: Bhavesh Kumar, Dylan Feng, Leonard Tang

分类: cs.LG

发布日期: 2026-03-09


💡 一句话要点

提出MJ1以解决多模态判断中的视觉证据基础问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态判断 视觉证据 强化学习 扎根验证 一致性奖励

📋 核心要点

  1. 现有的多模态判断模型在将决策与视觉证据相结合时存在困难,导致判断准确性不足。
  2. MJ1通过强化学习和结构化的扎根验证链来解决这一问题,确保决策基于视觉证据。
  3. 实验结果显示,MJ1在MMRB2数据集上取得77.0%的准确率,显著超越了更大规模的模型,验证了其有效性。

📝 摘要(中文)

多模态判断面临在视觉证据中扎根决策的挑战。本文提出MJ1,这是一种通过强化学习训练的多模态判断模型,采用结构化的扎根验证链(观察→主张→验证→评估→评分)来强化视觉扎根,并引入反事实一致性奖励以惩罚位置偏差。即使在未训练的情况下,该机制也能在MMRB2数据集上提升基模型的准确率,图像编辑任务提升3.8个百分点,多模态推理任务提升1.7个百分点。经过训练后,MJ1在MMRB2上以仅3B参数实现77.0%的准确率,超越了如Gemini-3-Pro等规模更大的模型。这些结果表明,扎根验证和基于一致性的训练显著提升了多模态判断的性能,而无需增加模型规模。

🔬 方法详解

问题定义:本文旨在解决多模态判断中决策与视觉证据之间缺乏有效结合的问题。现有方法往往无法充分利用视觉信息,导致判断准确性不足。

核心思路:MJ1模型通过引入结构化的扎根验证链,确保每一步决策都能基于视觉证据进行验证,从而提高判断的准确性和可靠性。

技术框架:MJ1的整体架构包括观察、主张、验证、评估和评分五个阶段。每个阶段都通过强化学习进行优化,确保模型在每一步都能有效利用视觉信息。

关键创新:MJ1的主要创新在于引入了反事实一致性奖励机制,这一机制能够有效惩罚模型的偏差,特别是位置偏差,从而增强模型的判断能力。

关键设计:在模型设计中,MJ1使用了3B的参数量,结合了特定的损失函数和网络结构,以确保在保持较小规模的同时实现高准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MJ1在MMRB2数据集上实现了77.0%的准确率,相较于未训练的基模型,图像编辑任务提升了3.8个百分点,多模态推理任务提升了1.7个百分点,显著超越了如Gemini-3-Pro等更大规模的模型,展示了扎根验证和一致性训练的有效性。

🎯 应用场景

MJ1的研究成果在多模态理解、图像分析和智能问答等领域具有广泛的应用潜力。通过提高模型的判断准确性,该技术可以在自动驾驶、医疗影像分析和人机交互等实际场景中发挥重要作用,推动相关领域的发展。

📄 摘要(原文)

Multimodal judges struggle to ground decisions in visual evidence. We present MJ1, a multimodal judge trained with reinforcement learning that enforces visual grounding through a structured grounded verification chain (observations $\rightarrow$ claims $\rightarrow$ verification $\rightarrow$ evaluation $\rightarrow$ scoring) and a counterfactual consistency reward that penalizes position bias. Even without training, our mechanism improves base-model accuracy on MMRB2 by +3.8 points on Image Editing and +1.7 on Multimodal Reasoning. After training, MJ1, with only 3B active parameters, achieves 77.0% accuracy on MMRB2 and surpasses orders-of-magnitude larger models like Gemini-3-Pro. These results show that grounded verification and consistency-based training substantially improve multimodal judgment without increasing model scale.