Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs
作者: Chun-Hsiao Yeh, Chenyu Wang, Shengbang Tong, Ta-Ying Cheng, Ruoyu Wang, Tianzhe Chu, Yuexiang Zhai, Yubei Chen, Shenghua Gao, Yi Ma
分类: cs.CV, cs.CL
发布日期: 2025-04-21 (更新: 2025-04-27)
备注: Project page: https://danielchyeh.github.io/All-Angles-Bench/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
All-Angles Bench:评估多模态大语言模型在多视角理解中的能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多视角理解 多模态大语言模型 具身智能 基准测试 几何一致性
📋 核心要点
- 现有的多模态大语言模型在处理多视角几何一致性和跨视角对应关系时存在不足,限制了其在具身智能体中的应用。
- 论文提出了All-Angles Bench基准,包含2100+多视角问答对,涵盖计数、属性识别等六个任务,用于评估MLLM的多视角场景理解能力。
- 实验结果表明,当前MLLM在跨视角对应和相机姿态估计方面表现不佳,与人类水平存在显著差距,需要进一步改进。
📝 摘要(中文)
多视角理解,即整合来自不同视角的视觉信息以实现有效的导航、操作和3D场景理解的能力,是多模态大语言模型(MLLM)作为具身智能体所面临的一项根本挑战。尽管最近的MLLM在高层次推理和规划方面表现出令人印象深刻的进步,但在面对多视角几何一致性和跨视角对应关系时,它们经常表现不足。为了全面评估MLLM在多视角场景推理中的挑战,我们提出了All-Angles Bench,这是一个包含超过2100个人工精心标注的多视角问答对的基准,涵盖90个不同的真实场景。我们的六个任务(计数、属性识别、相对距离、相对方向、物体操作和相机姿态估计)专门测试模型的几何对应能力以及在不同视角之间一致地对齐信息的能力。我们对包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o在内的27个代表性MLLM进行的广泛实验表明,与人类评估者相比,存在显著的性能差距,表明当前的MLLM离人类水平的熟练程度还差得很远。通过深入分析,我们表明MLLM在两个方面表现尤其不佳:(1)部分遮挡视角的跨视角对应;(2)建立粗略的相机姿态。这些发现强调了领域特定的改进或嵌入更强的多视角感知模块的必要性。我们相信我们的All-Angles Bench提供了有价值的见解,并有助于弥合MLLM和人类水平的多视角理解之间的差距。该项目和基准可在https://danielchyeh.github.io/All-Angles-Bench/公开获取。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在多视角场景理解方面的不足。现有MLLM在处理来自不同视角的视觉信息时,难以保证几何一致性和跨视角对应关系,导致在导航、操作和3D场景理解等任务中表现不佳。现有方法缺乏一个系统性的评估基准来衡量MLLM在多视角理解方面的能力。
核心思路:论文的核心思路是构建一个高质量的多视角问答基准,用于全面评估MLLM在多视角场景推理方面的能力。通过设计涵盖不同任务和场景的问答对,可以系统地测试MLLM在几何对应、跨视角信息对齐等方面的性能,从而发现其不足之处并指导未来的研究方向。
技术框架:All-Angles Bench基准包含以下几个主要组成部分: 1. 数据集构建:收集了90个不同的真实场景,并为每个场景生成多个视角的图像。 2. 任务设计:设计了六个任务,包括计数、属性识别、相对距离、相对方向、物体操作和相机姿态估计,这些任务涵盖了多视角场景理解的关键方面。 3. 问答对标注:为每个场景和任务,人工标注了超过2100个问答对,确保问题具有挑战性,答案准确。 4. 评估指标:使用准确率等指标来评估MLLM在各个任务上的性能。
关键创新:该论文的关键创新在于构建了一个高质量、多样化的多视角问答基准All-Angles Bench。与现有的数据集相比,All-Angles Bench更加注重测试MLLM在几何对应和跨视角信息对齐方面的能力,能够更全面地评估MLLM在多视角场景理解方面的性能。此外,该基准还提供了详细的分析和评估结果,为未来的研究提供了有价值的参考。
关键设计:在数据集构建方面,论文选择了90个不同的真实场景,以保证数据集的多样性。在任务设计方面,论文选择了六个涵盖多视角场景理解关键方面的任务,以保证任务的全面性。在问答对标注方面,论文采用了人工标注的方式,以保证答案的准确性。此外,论文还使用了准确率作为评估指标,以保证评估结果的客观性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当前MLLM在All-Angles Bench基准上的性能与人类水平存在显著差距。具体来说,MLLM在跨视角对应和相机姿态估计方面表现不佳,尤其是在处理部分遮挡视角时。例如,在相机姿态估计任务上,MLLM的准确率远低于人类水平。这些结果表明,当前MLLM需要进一步改进,以提升其多视角理解能力。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、增强现实等领域。通过提升MLLM的多视角理解能力,可以使机器人更好地理解周围环境,从而实现更安全、更高效的导航和操作。在自动驾驶领域,可以提高车辆对复杂交通场景的感知能力,从而提高驾驶安全性。在增强现实领域,可以实现更自然的虚拟物体与真实环境的融合。
📄 摘要(原文)
Multi-view understanding, the ability to reconcile visual information across diverse viewpoints for effective navigation, manipulation, and 3D scene comprehension, is a fundamental challenge in Multi-Modal Large Language Models (MLLMs) to be used as embodied agents. While recent MLLMs have shown impressive advances in high-level reasoning and planning, they frequently fall short when confronted with multi-view geometric consistency and cross-view correspondence. To comprehensively evaluate the challenges of MLLMs in multi-view scene reasoning, we propose All-Angles Bench, a benchmark of over 2,100 human carefully annotated multi-view question-answer pairs across 90 diverse real-world scenes. Our six tasks (counting, attribute identification, relative distance, relative direction, object manipulation, and camera pose estimation) specifically test model's geometric correspondence and the capacity to align information consistently across views. Our extensive experiments, benchmark on 27 representative MLLMs including Gemini-2.0-Flash, Claude-3.7-Sonnet, and GPT-4o against human evaluators reveals a substantial performance gap, indicating that current MLLMs remain far from human-level proficiency. Through in-depth analysis, we show that MLLMs are particularly underperforming under two aspects: (1) cross-view correspondence for partially occluded views and (2) establishing the coarse camera poses. These findings highlight the necessity of domain-specific refinements or modules that embed stronger multi-view awareness. We believe that our All-Angles Bench offers valuable insights and contribute to bridging the gap between MLLMs and human-level multi-view understanding. The project and benchmark are publicly available at https://danielchyeh.github.io/All-Angles-Bench/.