Unveiling Fine-Grained Visual Traces: Evaluating Multimodal Interleaved Reasoning Chains in Multimodal STEM Tasks

作者: Jing Jin, Hao Liu, Yan Bai, Yihang Lou, Zhenke Wang, Tianrun Yuan, Juntong Chen, Yongkang Zhu, Fanhu Zeng, Xuanyu Zhu, Yige Xu

分类: cs.CV

发布日期: 2026-04-21

🔗 代码/项目: GITHUB

💡 一句话要点

提出StepSTEM基准，用于细粒度评估多模态LLM在STEM任务中的推理链

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 STEM推理 基准测试 跨模态评估

📋 核心要点

现有STEM推理基准测试存在模态冗余，允许模型通过单模态信息获得答案，忽略了跨模态推理能力。
StepSTEM基准通过强制文本和视觉输入之间的互补性，并结合步骤级评估框架，实现对跨模态推理过程的细粒度评估。
实验结果表明，现有MLLM在跨模态STEM推理方面仍有很大提升空间，StepSTEM可作为未来研究的重要基准。

📝 摘要（中文）

多模态大型语言模型(MLLM)已展现出良好的推理能力，但评估其在专业领域的性能仍然具有挑战性。STEM推理是一个特别有价值的测试平台，因为它提供了高度可验证的反馈，但现有的基准测试通常由于模态冗余而允许单模态捷径，并且主要关注最终答案的准确性，忽略了推理过程本身。为了应对这一挑战，我们推出了StepSTEM：一个研究生级别的基准测试，包含数学、物理、化学、生物和工程等领域的283个问题，用于细粒度评估MLLM中的跨模态推理。StepSTEM是通过严格的管理流程构建的，该流程强制执行文本和视觉输入之间的严格互补性。我们进一步提出了一个通用的步骤级评估框架，用于纯文本的思维链和交错的图像-文本推理，使用动态规划将预测的推理步骤与多个参考解决方案对齐。对各种模型的实验表明，当前的MLLM仍然严重依赖文本推理，即使是Gemini 3.1 Pro和Claude Opus 4.6也仅达到38.29%的准确率。这些结果突出了真正的跨模态STEM推理的巨大空间，并将StepSTEM定位为细粒度评估多模态推理的基准。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型(MLLM)在STEM领域进行跨模态推理能力评估的问题。现有基准测试存在模态冗余，导致模型可以通过单模态信息获得答案，无法有效评估其真正的跨模态推理能力。此外，现有方法主要关注最终答案的准确性，忽略了推理过程的评估。

核心思路：论文的核心思路是构建一个高质量的、具有严格模态互补性的STEM问题基准StepSTEM，并提出一个步骤级的评估框架，能够对MLLM的推理过程进行细粒度评估。通过强制文本和视觉信息之间的互补性，确保模型必须同时利用两种模态的信息才能解决问题。步骤级评估框架则能够追踪模型的推理过程，并与多个参考答案进行对齐，从而更全面地评估模型的推理能力。

技术框架：StepSTEM基准的构建流程包括：问题收集、模态互补性验证、多重参考答案生成等步骤。步骤级评估框架采用动态规划算法，将模型预测的推理步骤与多个参考答案进行对齐，计算模型的推理准确率。该框架可以应用于纯文本的思维链推理和交错的图像-文本推理。

关键创新：论文的关键创新在于：1) 构建了一个高质量的、具有严格模态互补性的STEM问题基准StepSTEM；2) 提出了一个步骤级的评估框架，能够对MLLM的推理过程进行细粒度评估。与现有方法相比，StepSTEM能够更有效地评估MLLM的跨模态推理能力，并为未来的研究提供了一个可靠的基准。

关键设计：StepSTEM基准中的问题涵盖数学、物理、化学、生物和工程等多个STEM领域，难度为研究生级别。模态互补性验证通过人工审核和自动化测试相结合的方式进行。步骤级评估框架中的动态规划算法采用编辑距离作为相似度度量，并设置了合适的阈值来控制对齐的精度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是Gemini 3.1 Pro和Claude Opus 4.6等先进的MLLM，在StepSTEM基准上的准确率也仅为38.29%。这表明现有MLLM在跨模态STEM推理方面仍有很大的提升空间。StepSTEM的发布为未来研究提供了一个具有挑战性和细粒度的评估平台。

🎯 应用场景

该研究成果可应用于评估和提升多模态大型语言模型在科学、技术、工程和数学(STEM)领域的推理能力。StepSTEM基准可以作为未来MLLM研究的重要评估工具，推动模型在复杂科学问题解决方面的应用，例如自动化科学发现、智能教育辅导等。

📄 摘要（原文）

Multimodal large language models (MLLMs) have shown promising reasoning abilities, yet evaluating their performance in specialized domains remains challenging. STEM reasoning is a particularly valuable testbed because it provides highly verifiable feedback, but existing benchmarks often permit unimodal shortcuts due to modality redundancy and focus mainly on final-answer accuracy, overlooking the reasoning process itself. To address this challenge, we introduce StepSTEM: a graduate-level benchmark of 283 problems across mathematics, physics, chemistry, biology, and engineering for fine-grained evaluation of cross-modal reasoning in MLLMs. StepSTEM is constructed through a rigorous curation pipeline that enforces strict complementarity between textual and visual inputs. We further propose a general step-level evaluation framework for both text-only chain-of-thought and interleaved image-text reasoning, using dynamic programming to align predicted reasoning steps with multiple reference solutions. Experiments across a wide range of models show that current MLLMs still rely heavily on textual reasoning, with even Gemini 3.1 Pro and Claude Opus 4.6 achieving only 38.29% accuracy. These results highlight substantial headroom for genuine cross-modal STEM reasoning and position StepSTEM as a benchmark for fine-grained evaluation of multimodal reasoning. Source code is available at https://github.com/lll-hhh/STEPSTEM.

Unveiling Fine-Grained Visual Traces: Evaluating Multimodal Interleaved Reasoning Chains in Multimodal STEM Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理