Think 360°: Evaluating the Width-centric Reasoning Capability of MLLMs Beyond Depth
作者: Mingrui Chen, Hexiong Yang, Haogeng Liu, Huaibo Huang, Ran He
分类: cs.CV
发布日期: 2026-03-24
备注: Accepted by CVPR 2026
💡 一句话要点
提出Think 360°基准,评估多模态大模型在推理宽度上的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 推理宽度 推理深度 基准测试 思维树 视觉问答 大语言模型
📋 核心要点
- 现有方法侧重于推理深度,忽略了推理宽度,导致模型在需要广泛探索和多约束优化的任务中表现不佳。
- 提出Think 360°基准,包含1200+多模态案例,并设计思维树评估协议,同时量化推理宽度和深度。
- 实验结果表明,现有模型在结合深度推理和宽度搜索方面存在不足,难以进行基于洞察力的推理。
📝 摘要(中文)
本文提出了一个全面的多模态基准,旨在评估多模态大模型(MLLM)的推理能力,特别关注推理宽度这一维度,它是对更常被研究的推理深度的补充。推理深度衡量模型执行长链式、顺序推理的能力,其中每一步都与下一步紧密相连。而推理宽度则侧重于模型进行广泛的试错搜索或多约束优化的能力:它必须系统地遍历许多可能的并行推理路径,应用各种约束来修剪没有希望的分支,并识别有效的解决方案路径以进行高效的迭代或回溯。为此,我们精心策划了1200多个跨越不同领域的高质量多模态案例,并提出了一个细粒度的思维树评估协议,共同量化推理宽度和深度。我们评估了12个主要模型家族(超过30个先进的MLLM),涵盖不同的难度等级、问题类型和所需技能。结果表明,虽然当前的模型在通用或常识性VQA任务上表现出色,但它们仍然难以将深度顺序思维链与广泛的探索性搜索相结合,以执行真正的基于洞察力的推理。最后,我们分析了特征性的失败模式,为构建不仅推理更深而且更广的MLLM提供了可能的方向。
🔬 方法详解
问题定义:现有的大型多模态模型(MLLM)在视觉问答(VQA)等任务中表现出色,但主要集中在推理深度,即模型进行长链式、顺序推理的能力。然而,现实世界的问题往往需要更广泛的探索和多约束优化,即推理宽度。现有方法缺乏对模型推理宽度的有效评估,导致模型在需要结合深度推理和宽度搜索的任务中表现不佳。
核心思路:本文的核心思路是设计一个专门用于评估MLLM推理宽度的基准测试,并提出相应的评估协议。通过构建包含多种约束和需要广泛搜索的测试用例,以及设计能够量化推理宽度和深度的评估指标,来全面评估MLLM的推理能力。这种方法旨在弥补现有评估方法对推理宽度关注不足的缺陷,从而推动MLLM在更复杂任务中的应用。
技术框架:Think 360°基准包含以下主要组成部分:1) 多样化的多模态案例:收集了1200+高质量的多模态案例,涵盖不同的领域和难度等级,旨在测试模型在不同场景下的推理能力。2) 思维树评估协议:设计了一种细粒度的思维树评估协议,用于量化模型的推理宽度和深度。该协议允许模型探索多个可能的推理路径,并根据约束条件进行筛选和优化。3) 模型评估:使用Think 360°基准评估了12个主要模型家族(超过30个先进的MLLM),分析了它们的性能表现和失败模式。
关键创新:该论文最重要的技术创新点在于:1) 提出了推理宽度的概念,并将其作为评估MLLM推理能力的重要维度。2) 设计了Think 360°基准,专门用于评估MLLM的推理宽度。3) 提出了思维树评估协议,能够同时量化模型的推理宽度和深度。与现有方法相比,该论文更全面地评估了MLLM的推理能力,并为未来的研究提供了新的方向。
关键设计:在思维树评估协议中,关键的设计包括:1) 如何定义和量化推理宽度和深度。2) 如何构建包含多种约束和需要广泛搜索的测试用例。3) 如何设计评估指标,以准确反映模型的推理能力。具体的技术细节包括:约束条件的设置、搜索空间的定义、评估指标的计算方法等。这些设计旨在确保基准测试的有效性和可靠性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有模型在Think 360°基准上的表现与在通用VQA任务上的表现存在显著差距,表明现有模型在结合深度推理和宽度搜索方面存在不足。具体而言,模型在需要进行广泛探索和多约束优化的任务中表现较差,表明其推理宽度能力有待提高。该研究还分析了模型的特征性失败模式,为未来的研究提供了有价值的参考。
🎯 应用场景
该研究成果可应用于开发更智能的机器人、自动驾驶系统和智能助手。通过提高模型在推理宽度上的能力,可以使其更好地处理复杂、不确定和多约束的现实世界问题,从而在医疗诊断、金融分析和科学研究等领域发挥重要作用。未来的研究可以进一步探索如何将深度推理和宽度搜索相结合,以构建更强大的通用人工智能系统。
📄 摘要(原文)
In this paper, we present a holistic multimodal benchmark that evaluates the reasoning capabilities of MLLMs with an explicit focus on reasoning width, a complementary dimension to the more commonly studied reasoning depth. Specifically, reasoning depth measures the model's ability to carry out long-chain, sequential reasoning in which each step is tightly and rigorously linked to the next. Reasoning width tends to focus more on the model's capacity for broad trial-and-error search or multi-constrained optimization: it must systematically traverse many possible and parallelized reasoning paths, apply diverse constraints to prune unpromising branches, and identify valid solution routes for efficient iteration or backtracking. To achieve it, we carefully curate 1200+ high-quality multimodal cases spanning heterogeneous domains, and propose a fine-grained tree-of-thought evaluation protocol that jointly quantifies reasoning width and depth. We evaluate 12 major model families (over 30 advanced MLLMs) across difficulty tiers, question types, and required skills. Results show that while current models exhibit strong performance on general or common-sense VQA tasks, they still struggle to combine deep sequential thought chains with wide exploratory search to perform genuine insight-based reasoning. Finally, we analyze characteristic failure modes to provide possible directions for building MLLMs that reason not only deeper but also wider.