MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification
作者: Linzhuang Sun, Hao Liang, Jingxuan Wei, Bihui Yu, Tianpeng Li, Fan Yang, Zenan Zhou, Wentao Zhang
分类: cs.CL, cs.CV, cs.LG
发布日期: 2025-02-19
💡 一句话要点
提出MM-Verify,通过思维链验证增强多模态推理能力,超越GPT-4o。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态推理 思维链 验证器 数据合成 大型语言模型 知识推理 MM-COT
📋 核心要点
- 大型语言模型在多轮推理中存在不足,尤其是在多模态领域缺乏有效的验证机制。
- 通过引入MM-Verifier和MM-Reasoner,利用思维链验证增强多模态推理的鲁棒性和准确性。
- 实验结果表明,该方法在多个基准测试中超越了现有大型模型,包括GPT-4o。
📝 摘要(中文)
本文提出MM-Verifier和MM-Reasoner,旨在通过更长的推理过程和更强大的验证机制来增强多模态推理能力。首先,提出了一种两步多模态验证数据合成方法,该方法结合了基于模拟的树搜索与验证,并使用拒绝采样来生成高质量的思维链(COT)数据。这些数据用于微调验证模型MM-Verifier。此外,还提出了一种更高效的MMCOT数据合成方法,弥合了基于文本和多模态推理之间的差距。合成的数据用于微调MM-Reasoner。实验表明,MM-Verifier在MathCheck、MathVista和MathVerse基准测试中优于所有更大的模型。此外,MM-Reasoner表现出强大的有效性和可扩展性,性能随着数据规模的增加而提高。最后,MM-Reasoner和MM-Verifier的结合取得了强大的性能,在MathVista上达到了65.3的准确率,超过了GPT-4o(63.8,12次rollout)。
🔬 方法详解
问题定义:当前的多模态大型语言模型在复杂推理任务中,尤其是在需要验证中间步骤正确性的场景下,表现出一定的局限性。现有的方法缺乏一个强大的多模态验证器,难以有效地识别和纠正推理过程中的错误,导致最终结果的准确性受到影响。
核心思路:本文的核心思路是借鉴Test-Time Scaling的思想,将外部慢思考与验证机制相结合,构建一个专门的多模态验证器(MM-Verifier)。通过对推理过程中的每一步进行验证,确保推理链的正确性,从而提高整体的推理性能。同时,提出MM-Reasoner进行更有效的推理。
技术框架:该方法包含两个主要模块:MM-Verifier和MM-Reasoner。MM-Verifier负责验证推理步骤的正确性,MM-Reasoner负责生成推理步骤。整个流程包括:1) 使用基于模拟的树搜索与验证,并结合拒绝采样生成高质量的MMCOT数据;2) 使用生成的数据分别微调MM-Verifier和MM-Reasoner;3) 在推理阶段,MM-Reasoner生成推理步骤,MM-Verifier验证这些步骤,如果验证失败,则重新生成,直到验证通过或达到最大迭代次数。
关键创新:主要的创新点在于:1) 提出了一个两步多模态验证数据合成方法,能够生成高质量的MMCOT数据,用于训练MM-Verifier;2) 设计了一个专门的多模态验证器MM-Verifier,能够有效地验证多模态推理步骤的正确性;3) 提出了一种更高效的MMCOT数据合成方法,弥合了基于文本和多模态推理之间的差距。
关键设计:在数据合成方面,采用了基于模拟的树搜索,并结合验证和拒绝采样,以确保生成的数据质量。在模型训练方面,使用了微调策略,利用合成的MMCOT数据来优化MM-Verifier和MM-Reasoner。具体的损失函数和网络结构细节在论文中未明确给出,属于未知信息。
🖼️ 关键图片
📊 实验亮点
MM-Verifier在MathCheck、MathVista和MathVerse等基准测试中,超越了所有更大的模型。MM-Reasoner表现出强大的有效性和可扩展性,性能随着数据规模的增加而提高。MM-Reasoner和MM-Verifier的结合在MathVista上达到了65.3%的准确率,超过了GPT-4o的63.8%(12次rollout)。
🎯 应用场景
该研究成果可应用于需要高精度和可靠性的多模态推理场景,例如自动驾驶、医疗诊断、金融分析等。通过增强多模态推理的准确性和鲁棒性,可以提高这些应用的安全性和效率,并为未来的多模态人工智能发展奠定基础。
📄 摘要(原文)
According to the Test-Time Scaling, the integration of External Slow-Thinking with the Verify mechanism has been demonstrated to enhance multi-round reasoning in large language models (LLMs). However, in the multimodal (MM) domain, there is still a lack of a strong MM-Verifier. In this paper, we introduce MM-Verifier and MM-Reasoner to enhance multimodal reasoning through longer inference and more robust verification. First, we propose a two-step MM verification data synthesis method, which combines a simulation-based tree search with verification and uses rejection sampling to generate high-quality Chain-of-Thought (COT) data. This data is then used to fine-tune the verification model, MM-Verifier. Additionally, we present a more efficient method for synthesizing MMCOT data, bridging the gap between text-based and multimodal reasoning. The synthesized data is used to fine-tune MM-Reasoner. Our MM-Verifier outperforms all larger models on the MathCheck, MathVista, and MathVerse benchmarks. Moreover, MM-Reasoner demonstrates strong effectiveness and scalability, with performance improving as data size increases. Finally, our approach achieves strong performance when combining MM-Reasoner and MM-Verifier, reaching an accuracy of 65.3 on MathVista, surpassing GPT-4o (63.8) with 12 rollouts.