OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration

📄 arXiv: 2605.28805v1 📥 PDF

作者: Xinchen Zhang, Bowei Liu, Jiale Liu, Chufan Shi, Yizhen Zhang, Junhong Liu, Youliang Zhang, Zhiheng Li, Yujiu Yang, Ling Yang

分类: cs.CL, cs.AI, cs.CV, cs.LG

发布日期: 2026-05-27

备注: ICML 2026. Project: https://github.com/Cominclip/OmniVerifier


💡 一句话要点

OmniVerifier-M1:利用结构化重校准的多模态元验证器,提升视觉验证的可靠性和可解释性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态验证 元验证 强化学习 符号推理 视觉验证

📋 核心要点

  1. 现有方法在多模态验证中缺乏细粒度,且依赖文本解释,效率和可靠性有待提升。
  2. 提出OmniVerifier-M1,利用符号验证器输出(如边界框)作为元验证理由,并采用解耦强化学习。
  3. OmniVerifier-M1实现了鲁棒的验证和细粒度的错误定位,并支持M1-TTS实现区域级自我校正。

📝 摘要(中文)

视觉输出在多模态大型语言模型中日益重要,因此可靠且细粒度的验证对于扩展通用基础模型至关重要。本文研究了多模态元验证,它利用验证器生成的理由而非仅决策信号,并探讨如何有效地将元验证反馈融入多模态验证器训练。我们发现了两个关键点:一是符号验证器输出(如边界框)优于文本解释,能够实现高效的基于规则的强化学习奖励,同时避免依赖来自辅助判断模型的基于模型的奖励;二是由于输出结构和学习动态的内在差异,解耦二元判断和元验证的强化学习目标明显优于联合奖励优化。基于这些见解,我们训练了OmniVerifier-M1,一个利用符号元验证和解耦强化学习的通用视觉验证器。OmniVerifier-M1提供强大的验证和细粒度的错误定位,并进一步支持M1-TTS,一个验证器驱动的agentic生成系统,实现动态区域级自我校正。这种方法为更可靠、可解释和细粒度的多模态验证铺平了道路,支持更安全和可控的基础模型部署。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型中视觉输出验证的可靠性和细粒度问题。现有方法通常依赖于文本解释或决策信号,缺乏细粒度的错误定位能力,并且文本解释的质量难以保证,影响验证的准确性。此外,训练验证器时,如何有效利用元验证的反馈信息也是一个挑战。

核心思路:论文的核心思路是利用符号验证器输出(例如边界框)作为元验证的理由,而不是文本解释。符号输出更精确、易于处理,并且可以用于构建基于规则的强化学习奖励,避免了对辅助判断模型的依赖。同时,论文将二元判断和元验证的强化学习目标解耦,分别进行优化,以更好地适应它们不同的输出结构和学习动态。

技术框架:OmniVerifier-M1的整体框架包含一个视觉验证器,该验证器接收图像和文本描述作为输入,并输出二元判断结果(真/假)以及符号元验证信息(例如,错误区域的边界框)。训练过程采用强化学习,奖励函数基于符号元验证信息构建。M1-TTS是一个基于OmniVerifier-M1的agentic生成系统,利用验证器进行动态区域级自我校正。

关键创新:论文的关键创新在于:1) 使用符号验证器输出作为元验证的理由,提高了验证的准确性和效率;2) 将二元判断和元验证的强化学习目标解耦,分别进行优化,显著提升了训练效果;3) 提出了OmniVerifier-M1,一个通用的视觉验证器,能够提供鲁棒的验证和细粒度的错误定位。

关键设计:论文的关键设计包括:1) 使用边界框作为符号元验证信息;2) 设计了基于规则的强化学习奖励函数,鼓励验证器输出准确的边界框;3) 采用解耦的强化学习目标,分别优化二元判断和边界框预测;4) M1-TTS系统利用OmniVerifier-M1进行动态区域级自我校正,提升生成质量。具体参数设置和网络结构等细节在论文中有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OmniVerifier-M1在多项视觉验证任务上取得了显著的性能提升(具体数据未知)。与传统的基于文本解释的验证方法相比,OmniVerifier-M1能够提供更准确和细粒度的错误定位。M1-TTS系统利用OmniVerifier-M1进行自我校正,显著提升了生成图像的质量(具体提升幅度未知)。

🎯 应用场景

该研究成果可应用于各种需要视觉验证的场景,例如自动驾驶、医疗影像分析、安全监控等。通过提供更可靠、可解释和细粒度的多模态验证,可以提高系统的安全性和可靠性,并支持更安全和可控的基础模型部署。此外,该方法还可以用于提升多模态生成模型的质量,例如图像描述生成、视频摘要等。

📄 摘要(原文)

Visual outcomes are increasingly central to multimodal large language models, making reliable and fine-grained verification essential for scaling generalist foundation models. In this work, we investigate multimodal meta-verification, which leverages verifier-generated rationales rather than decision-only signals, and explore how to effectively incorporate meta-verification feedback into multimodal verifier training. We identify two key findings. First, symbolic verifier outputs (e.g., bounding boxes) outperform textual explanations as meta-verification rationales, enabling efficient rule-based reinforcement learning rewards while avoiding reliance on model-based rewards from auxiliary judge models. Second, decoupling reinforcement learning objectives for binary judgment and meta-verification substantially outperforms joint reward optimization, due to intrinsic differences in output structure and learning dynamics. Based on these insights, we train OmniVerifier-M1, a generalist visual verifier leveraging symbolic meta-verification and decoupled reinforcement learning. OmniVerifier-M1 provides robust verification and fine-grained error localization, and further enables M1-TTS, a verifier-driven agentic generation system achieving dynamic region-level self-correction. This approach paves the way for more reliable, interpretable, and fine-grained multimodal verification, supporting safer and more controllable foundation model deployment.