MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

作者: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-02-13

备注: Project Page: https://mmecot.github.io/

💡 一句话要点

提出MME-CoT基准以评估多模态模型的推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 链式思维 多模态模型 推理能力 评估基准 反思机制 性能分析 鲁棒性 效率

📋 核心要点

现有方法对大型多模态模型的链式思维推理能力缺乏系统评估，导致推理质量和效率的挑战。
论文提出MME-CoT基准，专注于评估多模态模型在多个领域的推理性能，采用三种新颖指标进行细致评估。
实验结果显示，具备反思机制的模型在CoT质量上表现优异，但在感知密集型任务中性能下降，且效率较低。

📝 摘要（中文）

回答问题时，链式思维（CoT）显著提升了大型语言模型（LLMs）的推理能力，但其对大型多模态模型（LMMs）的影响尚缺乏系统评估。本文提出MME-CoT，一个专门的基准，评估LMMs在数学、科学、OCR、逻辑、时空和一般场景六个领域的CoT推理性能。作为该领域的首次综合研究，我们提出了一个评估套件，包含三种新颖的指标，细致评估推理质量、鲁棒性和效率。通过高质量数据和独特的评估策略，我们深入分析了最先进的LMMs，揭示了几个关键见解：反思机制的模型展现出更优的CoT质量，Kimi k1.5超越GPT-4o，表现出最高质量结果；CoT提示在感知密集型任务中常常降低LMM性能，暗示可能存在过度思考的行为；尽管CoT质量高，具备反思的LMM在正常响应和自我修正阶段表现出显著低效。我们希望MME-CoT能为推动LMMs中的多模态推理奠定基础。

🔬 方法详解

问题定义：本文旨在解决大型多模态模型在链式思维推理能力评估上的不足，现有方法缺乏系统性和全面性，无法有效比较不同模型的推理性能。

核心思路：提出MME-CoT基准，通过六个领域的评估，结合三种新颖指标，全面分析多模态模型的推理质量、鲁棒性和效率，提供更细致的评估框架。

技术框架：整体架构包括数据收集、指标设计和模型评估三个主要模块。数据收集阶段聚焦于高质量数据的整理，指标设计阶段则引入三种新指标，最后在模型评估阶段对多种LMMs进行系统测试。

关键创新：最重要的创新在于提出了MME-CoT基准及其评估指标，填补了多模态模型推理能力评估的空白，与现有方法相比，提供了更全面的评估视角。

关键设计：在指标设计上，论文引入了推理质量、鲁棒性和效率三个维度，具体参数设置和损失函数的选择经过多次实验验证，以确保评估结果的可靠性和有效性。

🖼️ 关键图片

📊 实验亮点

实验结果显示，具备反思机制的Kimi k1.5在CoT质量上超越GPT-4o，表现出最高质量结果。此外，尽管CoT质量较高，LMMs在感知密集型任务中性能下降，且在正常响应和自我修正阶段表现出显著低效，提示需要优化模型设计。

🎯 应用场景

该研究的潜在应用领域包括教育、自动化问答系统和智能助手等。通过提升多模态模型的推理能力，能够更好地处理复杂问题，提供更准确的答案，进而推动相关领域的技术进步和应用落地。

📄 摘要（原文）

Answering questions with Chain-of-Thought (CoT) has significantly enhanced the reasoning capabilities of Large Language Models (LLMs), yet its impact on Large Multimodal Models (LMMs) still lacks a systematic assessment and in-depth investigation. In this paper, we introduce MME-CoT, a specialized benchmark evaluating the CoT reasoning performance of LMMs, spanning six domains: math, science, OCR, logic, space-time, and general scenes. As the first comprehensive study in this area, we propose a thorough evaluation suite incorporating three novel metrics that assess the reasoning quality, robustness, and efficiency at a fine-grained level. Leveraging curated high-quality data and a unique evaluation strategy, we conduct an in-depth analysis of state-of-the-art LMMs, uncovering several key insights: 1) Models with reflection mechanism demonstrate a superior CoT quality, with Kimi k1.5 outperforming GPT-4o and demonstrating the highest quality results; 2) CoT prompting often degrades LMM performance on perception-heavy tasks, suggesting a potentially harmful overthinking behavior; and 3) Although the CoT quality is high, LMMs with reflection exhibit significant inefficiency in both normal response and self-correction phases. We hope MME-CoT serves as a foundation for advancing multimodal reasoning in LMMs. Project Page: https://mmecot.github.io/

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理