M$^3$-ACE: Rectifying Visual Perception in Multimodal Math Reasoning via Multi-Agentic Context Engineering

📄 arXiv: 2603.08369v1 📥 PDF

作者: Peijin Xie, Zhen Xu, Bingquan Liu, Baoxun Wang

分类: cs.AI

发布日期: 2026-03-09


💡 一句话要点

提出M$^3$-ACE框架,通过多智能体上下文工程提升多模态数学推理中的视觉感知准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 视觉数学推理 多智能体系统 上下文工程 视觉感知 大型语言模型 知识整合

📋 核心要点

  1. 现有方法在多模态数学推理中面临视觉感知不准确的挑战,导致推理性能受限。
  2. M$^3$-ACE通过多智能体协作,动态维护视觉证据列表,解耦感知和推理过程,提升感知准确性。
  3. 实验表明,M$^3$-ACE在多个基准测试中显著提高了视觉数学推理性能,达到新的SOTA。

📝 摘要(中文)

多模态大型语言模型在视觉数学推理方面展现出潜力,但其性能常受限于不准确的视觉感知。分析表明,大部分失败源于不正确或不完整的视觉证据提取,而非推理能力不足。模型倾向于过度自信于初始感知,使得提示工程、多轮自反思或后验指导等策略难以可靠地纠正错误。为解决此问题,我们提出M$^3$-ACE,一个多智能体上下文工程框架,旨在纠正多模态数学推理中的视觉感知。该方法不直接聚合最终答案,而是通过动态维护一个以视觉证据列表为中心的共享上下文来解耦感知和推理。多个智能体协同贡献互补的观察结果,使系统能够暴露不一致性并恢复缺失的感知信息。为了支持稳定的多轮协作,我们进一步引入了两个轻量级工具:摘要工具,用于将来自不同智能体的证据组织成一致、互补和冲突的组件;以及精炼工具,用于过滤不可靠的样本并指导迭代校正。大量实验表明,M$^3$-ACE显著提高了多个基准测试中的视觉数学推理性能。我们的方法在MathVision基准测试中建立了新的最先进结果89.1,并在其他相关数据集(包括MathVista和MathVerse)上实现了持续改进。这些结果突出了以感知为中心的多智能体协作对于推进多模态推理系统的重要性。

🔬 方法详解

问题定义:论文旨在解决多模态数学推理中,由于视觉感知不准确导致的性能瓶颈问题。现有方法,如提示工程、多轮自反思等,难以有效纠正模型对初始视觉感知结果的过度自信,从而影响最终推理结果的准确性。现有方法缺乏对视觉证据的有效提取和整合机制,容易受到噪声和不完整信息的影响。

核心思路:论文的核心思路是通过多智能体协作,构建一个共享的视觉证据上下文,从而解耦感知和推理过程。每个智能体负责从不同角度观察和提取视觉信息,并通过共享上下文进行交流和整合。这种方式可以有效地暴露不一致性,恢复缺失的感知信息,并提高整体视觉感知的准确性。通过将感知和推理分离,可以更有效地利用大型语言模型的推理能力,避免因错误的视觉信息而导致的推理错误。

技术框架:M$^3$-ACE框架包含多个智能体,每个智能体负责从图像中提取视觉证据。所有智能体共享一个上下文,该上下文包含一个视觉证据列表。框架包含以下主要模块:1) 证据提取模块:每个智能体使用不同的视觉模型或策略从图像中提取视觉证据。2) 摘要工具:该工具将来自不同智能体的证据组织成一致、互补和冲突的组件,从而帮助智能体理解整体视觉场景。3) 精炼工具:该工具过滤不可靠的样本,并指导智能体进行迭代校正,以提高证据的质量。4) 推理模块:基于整合后的视觉证据,使用大型语言模型进行数学推理,并给出最终答案。

关键创新:M$^3$-ACE的关键创新在于其以感知为中心的多智能体协作机制。与现有方法直接聚合最终答案不同,M$^3$-ACE通过动态维护共享上下文,促进智能体之间的交流和协作,从而提高视觉感知的准确性。摘要工具和精炼工具的设计进一步增强了框架的稳定性和可靠性。这种多智能体协作的范式为解决多模态推理中的视觉感知问题提供了一种新的思路。

关键设计:摘要工具采用基于规则和语义相似度的匹配算法,将来自不同智能体的证据进行分类和整合。精炼工具使用置信度评分和一致性检查来过滤不可靠的样本。智能体的数量和类型可以根据具体任务进行调整。损失函数主要关注推理结果的准确性,并可以加入对证据质量的约束。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

M$^3$-ACE在MathVision基准测试中取得了89.1的SOTA结果,相较于之前的最佳方法有显著提升。此外,该方法在MathVista和MathVerse等数据集上也实现了持续改进,证明了其在不同视觉数学推理任务中的有效性和泛化能力。实验结果表明,多智能体协作和上下文工程能够显著提高视觉感知的准确性,从而提升整体推理性能。

🎯 应用场景

M$^3$-ACE框架可应用于各种需要视觉数学推理的场景,例如自动阅卷、智能教育、机器人导航等。该框架能够提高机器对复杂视觉场景的理解能力,并做出更准确的决策。未来,该研究可以扩展到其他多模态推理任务,例如视觉问答、图像描述等,具有广阔的应用前景。

📄 摘要(原文)

Multimodal large language models have recently shown promising progress in visual mathematical reasoning. However, their performance is often limited by a critical yet underexplored bottleneck: inaccurate visual perception. Through systematic analysis, we find that the most failures originate from incorrect or incomplete visual evidence extraction rather than deficiencies in reasoning capability. Moreover, models tend to remain overly confident in their initial perceptions, making standard strategies such as prompt engineering, multi-round self-reflection, or posterior guidance insufficient to reliably correct errors. To address this limitation, we propose M3-ACE, a multi-agentic context engineering framework designed to rectify visual perception in multimodal math reasoning. Instead of directly aggregating final answers, our approach decouples perception and reasoning by dynamically maintaining a shared context centered on visual evidence lists. Multiple agents collaboratively contribute complementary observations, enabling the system to expose inconsistencies and recover missing perceptual information. To support stable multi-turn collaboration, we further introduce two lightweight tools: a Summary Tool that organizes evidence from different agents into consistent, complementary, and conflicting components, and a Refine Tool that filters unreliable samples and guides iterative correction. Extensive experiments demonstrate that M3-ACE substantially improves visual mathematical reasoning performance across multiple benchmarks. Our method establishes new state-of-the-art results 89.1 on the MathVision benchmark and achieves consistent improvements on other related datasets, including MathVista and MathVerse. These results highlight the importance of perception-centric multi-agent collaboration for advancing multimodal reasoning systems.