Unveiling Fine-Grained Visual Traces: Evaluating Multimodal Interleaved Reasoning Chains in Multimodal STEM Tasks

📄 arXiv: 2604.19697v1 📥 PDF

作者: Jing Jin, Hao Liu, Yan Bai, Yihang Lou, Zhenke Wang, Tianrun Yuan, Juntong Chen, Yongkang Zhu, Fanhu Zeng, Xuanyu Zhu, Yige Xu

分类: cs.CV

发布日期: 2026-04-21

🔗 代码/项目: GITHUB


💡 一句话要点

提出StepSTEM基准,用于细粒度评估多模态LLM在STEM任务中的推理链

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 STEM推理 基准测试 跨模态评估

📋 核心要点

  1. 现有STEM推理基准测试存在模态冗余,允许模型通过单模态信息获得答案,忽略了跨模态推理能力。
  2. StepSTEM基准通过强制文本和视觉输入之间的互补性,并结合步骤级评估框架,实现对跨模态推理过程的细粒度评估。
  3. 实验结果表明,现有MLLM在跨模态STEM推理方面仍有很大提升空间,StepSTEM可作为未来研究的重要基准。

📝 摘要(中文)

多模态大型语言模型(MLLM)已展现出良好的推理能力,但评估其在专业领域的性能仍然具有挑战性。STEM推理是一个特别有价值的测试平台,因为它提供了高度可验证的反馈,但现有的基准测试通常由于模态冗余而允许单模态捷径,并且主要关注最终答案的准确性,忽略了推理过程本身。为了应对这一挑战,我们推出了StepSTEM:一个研究生级别的基准测试,包含数学、物理、化学、生物和工程等领域的283个问题,用于细粒度评估MLLM中的跨模态推理。StepSTEM是通过严格的管理流程构建的,该流程强制执行文本和视觉输入之间的严格互补性。我们进一步提出了一个通用的步骤级评估框架,用于纯文本的思维链和交错的图像-文本推理,使用动态规划将预测的推理步骤与多个参考解决方案对齐。对各种模型的实验表明,当前的MLLM仍然严重依赖文本推理,即使是Gemini 3.1 Pro和Claude Opus 4.6也仅达到38.29%的准确率。这些结果突出了真正的跨模态STEM推理的巨大空间,并将StepSTEM定位为细粒度评估多模态推理的基准。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在STEM领域进行跨模态推理能力评估的问题。现有基准测试存在模态冗余,导致模型可以通过单模态信息获得答案,无法有效评估其真正的跨模态推理能力。此外,现有方法主要关注最终答案的准确性,忽略了推理过程的评估。

核心思路:论文的核心思路是构建一个高质量的、具有严格模态互补性的STEM问题基准StepSTEM,并提出一个步骤级的评估框架,能够对MLLM的推理过程进行细粒度评估。通过强制文本和视觉信息之间的互补性,确保模型必须同时利用两种模态的信息才能解决问题。步骤级评估框架则能够追踪模型的推理过程,并与多个参考答案进行对齐,从而更全面地评估模型的推理能力。

技术框架:StepSTEM基准的构建流程包括:问题收集、模态互补性验证、多重参考答案生成等步骤。步骤级评估框架采用动态规划算法,将模型预测的推理步骤与多个参考答案进行对齐,计算模型的推理准确率。该框架可以应用于纯文本的思维链推理和交错的图像-文本推理。

关键创新:论文的关键创新在于:1) 构建了一个高质量的、具有严格模态互补性的STEM问题基准StepSTEM;2) 提出了一个步骤级的评估框架,能够对MLLM的推理过程进行细粒度评估。与现有方法相比,StepSTEM能够更有效地评估MLLM的跨模态推理能力,并为未来的研究提供了一个可靠的基准。

关键设计:StepSTEM基准中的问题涵盖数学、物理、化学、生物和工程等多个STEM领域,难度为研究生级别。模态互补性验证通过人工审核和自动化测试相结合的方式进行。步骤级评估框架中的动态规划算法采用编辑距离作为相似度度量,并设置了合适的阈值来控制对齐的精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是Gemini 3.1 Pro和Claude Opus 4.6等先进的MLLM,在StepSTEM基准上的准确率也仅为38.29%。这表明现有MLLM在跨模态STEM推理方面仍有很大的提升空间。StepSTEM的发布为未来研究提供了一个具有挑战性和细粒度的评估平台。

🎯 应用场景

该研究成果可应用于评估和提升多模态大型语言模型在科学、技术、工程和数学(STEM)领域的推理能力。StepSTEM基准可以作为未来MLLM研究的重要评估工具,推动模型在复杂科学问题解决方面的应用,例如自动化科学发现、智能教育辅导等。

📄 摘要(原文)

Multimodal large language models (MLLMs) have shown promising reasoning abilities, yet evaluating their performance in specialized domains remains challenging. STEM reasoning is a particularly valuable testbed because it provides highly verifiable feedback, but existing benchmarks often permit unimodal shortcuts due to modality redundancy and focus mainly on final-answer accuracy, overlooking the reasoning process itself. To address this challenge, we introduce StepSTEM: a graduate-level benchmark of 283 problems across mathematics, physics, chemistry, biology, and engineering for fine-grained evaluation of cross-modal reasoning in MLLMs. StepSTEM is constructed through a rigorous curation pipeline that enforces strict complementarity between textual and visual inputs. We further propose a general step-level evaluation framework for both text-only chain-of-thought and interleaved image-text reasoning, using dynamic programming to align predicted reasoning steps with multiple reference solutions. Experiments across a wide range of models show that current MLLMs still rely heavily on textual reasoning, with even Gemini 3.1 Pro and Claude Opus 4.6 achieving only 38.29% accuracy. These results highlight substantial headroom for genuine cross-modal STEM reasoning and position StepSTEM as a benchmark for fine-grained evaluation of multimodal reasoning. Source code is available at https://github.com/lll-hhh/STEPSTEM.