Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs

📄 arXiv: 2501.06430v1 📥 PDF

作者: Shan Zhang, Aotian Chen, Yanpeng Sun, Jindong Gu, Yi-Yu Zheng, Piotr Koniusz, Kai Zou, Anton van den Hengel, Yuan Xue

分类: cs.CV

发布日期: 2025-01-11


💡 一句话要点

SVE-Math:通过几何感知增强视觉数学多模态大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉数学推理 几何感知 视觉基础 特征路由 视觉编码器 细粒度视觉理解

📋 核心要点

  1. 现有MLLM在视觉数学问题中表现不佳,主要原因是图像级预训练对几何图元感知不足,导致视觉识别错误。
  2. SVE-Math通过几何基础的视觉编码器和特征路由器,动态调整视觉特征贡献,提升模型对几何图元的识别精度。
  3. 实验表明,SVE-Math在MathVerse上优于其他7B模型15%,在GeoQA上与大数据集训练的模型性能相当。

📝 摘要(中文)

当前的多模态大语言模型(MLLMs)在需要细粒度视觉理解的数学问题解决任务中表现不佳。这种局限性主要归因于图像级对比预训练(如CLIP)中对几何图元的不充分感知。虽然最近改进数学MLLM的努力集中在扩大数学视觉指令数据集和采用更强的LLM骨干网络上,但它们往往忽略了视觉识别中持续存在的错误。本文系统地评估了最先进的MLLM的视觉基础能力,并揭示了视觉基础准确性与问题解决性能之间显著的负相关,突出了细粒度视觉理解的关键作用。值得注意的是,像GPT-4o这样的高级模型在识别几何实体时表现出70%的错误率,这仍然是视觉数学推理中的一个关键瓶颈。为了解决这个问题,我们提出了一种新的方法,SVE-Math(选择性视觉增强数学MLLM),它具有几何基础的视觉编码器和一个动态调整分层视觉特征图贡献的特征路由器。我们的模型识别精确的视觉图元,并生成为语言模型的推理需求量身定制的精确视觉提示。在实验中,SVE-Math-Qwen2.5-7B在MathVerse上优于其他7B模型15%,并且与MathVista上的GPT-4V兼容。尽管在较小的数据集上训练,SVE-Math-7B在GeoQA上取得了有竞争力的性能,与在更大的数据集上训练的模型相媲美。我们的研究结果强调了将细粒度视觉理解纳入MLLM的重要性,并为未来的研究提供了一个有希望的方向。

🔬 方法详解

问题定义:现有的多模态大语言模型在解决需要细粒度视觉理解的数学问题时,性能往往不尽如人意。尽管通过扩大数据集和增强LLM骨干网络可以提升性能,但模型在视觉识别方面仍然存在显著的错误,尤其是在识别几何图元时,例如GPT-4o的错误率高达70%。这些视觉识别错误严重阻碍了模型进行有效的数学推理。

核心思路:论文的核心思路是通过增强模型对细粒度视觉信息的理解,特别是几何图元的识别能力,来提升其在视觉数学问题上的表现。具体而言,论文提出了一种选择性视觉增强的方法,即SVE-Math,该方法旨在让模型能够更准确地识别视觉图元,并根据语言模型的推理需求生成精确的视觉提示。

技术框架:SVE-Math的核心框架包括一个几何基础的视觉编码器和一个特征路由器。视觉编码器负责提取图像中的视觉特征,并特别关注几何图元的识别。特征路由器则根据语言模型的推理需求,动态地调整不同层级视觉特征图的贡献。整个流程可以概括为:输入图像 -> 几何基础视觉编码器 -> 分层视觉特征图 -> 特征路由器 -> 视觉提示 -> 语言模型。

关键创新:SVE-Math的关键创新在于其几何基础的视觉编码器和特征路由器的设计。几何基础的视觉编码器能够更准确地识别图像中的几何图元,从而为后续的数学推理提供更可靠的视觉信息。特征路由器则能够根据语言模型的推理需求,动态地调整不同层级视觉特征图的贡献,从而使模型能够更有效地利用视觉信息。

关键设计:论文中关于几何基础视觉编码器的具体实现细节(例如,所使用的网络结构、损失函数等)以及特征路由器的具体实现方式(例如,如何根据语言模型的推理需求调整特征图的权重)在摘要中没有详细说明,属于未知信息。但是,可以推测,编码器可能使用了专门针对几何形状设计的卷积核或者注意力机制,而特征路由器可能使用了某种门控机制或者注意力机制来选择重要的特征图。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SVE-Math-Qwen2.5-7B在MathVerse数据集上超越了其他7B模型15%,并且在MathVista数据集上与GPT-4V的性能相当。此外,SVE-Math-7B在GeoQA数据集上取得了与在更大数据集上训练的模型相媲美的性能,这表明该方法在提升视觉数学推理能力方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种需要视觉理解的数学问题解决场景,例如自动几何题解答、工程图纸理解、科学图表分析等。通过提升模型对细粒度视觉信息的理解能力,可以显著提高相关任务的自动化水平和准确性,具有重要的实际应用价值和潜力。

📄 摘要(原文)

Current multimodal large language models (MLLMs) often underperform on mathematical problem-solving tasks that require fine-grained visual understanding. The limitation is largely attributable to inadequate perception of geometric primitives during image-level contrastive pre-training (e.g., CLIP). While recent efforts to improve math MLLMs have focused on scaling up mathematical visual instruction datasets and employing stronger LLM backbones, they often overlook persistent errors in visual recognition. In this paper, we systematically evaluate the visual grounding capabilities of state-of-the-art MLLMs and reveal a significant negative correlation between visual grounding accuracy and problem-solving performance, underscoring the critical role of fine-grained visual understanding. Notably, advanced models like GPT-4o exhibit a 70% error rate when identifying geometric entities, highlighting that this remains a key bottleneck in visual mathematical reasoning. To address this, we propose a novel approach, SVE-Math (Selective Vision-Enhanced Mathematical MLLM), featuring a geometric-grounded vision encoder and a feature router that dynamically adjusts the contribution of hierarchical visual feature maps. Our model recognizes accurate visual primitives and generates precise visual prompts tailored to the language model's reasoning needs. In experiments, SVE-Math-Qwen2.5-7B outperforms other 7B models by 15% on MathVerse and is compatible with GPT-4V on MathVista. Despite being trained on smaller datasets, SVE-Math-7B achieves competitive performance on GeoQA, rivaling models trained on significantly larger datasets. Our findings emphasize the importance of incorporating fine-grained visual understanding into MLLMs and provide a promising direction for future research.