ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models

📄 arXiv: 2410.04659v2 📥 PDF

作者: Ziyue Wang, Chi Chen, Fuwen Luo, Yurui Dong, Yuanchi Zhang, Yuzhuang Xu, Xiaolong Wang, Peng Li, Yang Liu

分类: cs.CV

发布日期: 2024-10-07 (更新: 2025-04-09)


💡 一句话要点

ActiView:提出多模态大语言模型主动感知能力评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 主动感知 多模态大语言模型 视觉问答 基准测试 受限感知 机器人 计算机视觉

📋 核心要点

  1. 现有MLLM评估忽略了主动感知能力,无法有效衡量模型在受限视野下通过主动探索解决问题的能力。
  2. ActiView基准通过限制模型感知范围,要求模型主动调整视野以回答视觉问题,从而评估主动感知能力。
  3. 实验结果表明,现有MLLM在主动感知方面存在显著差距,ActiView可促进相关方法的研究与发展。

📝 摘要(中文)

主动感知是人类的一项关键能力,它涉及基于对环境的当前理解来设定目标,并执行动作以实现该目标。尽管在评估多模态大语言模型(MLLM)方面已经做出了重大努力,但主动感知在很大程度上被忽视了。为了弥补这一差距,我们提出了一个名为ActiView的新基准,用于评估MLLM中的主动感知能力。我们专注于一种特殊的视觉问答(VQA)形式,它简化并量化了评估,但对现有的MLLM来说仍然具有挑战性。同时,我们也讨论了模型的中间推理行为。给定一张图像,我们限制了模型的感知范围,要求它基于推理主动缩放或移动其感知范围,以成功回答问题。我们对包括专有模型和开源模型在内的30个模型进行了广泛的评估,并观察到受限的感知范围在实现主动感知方面起着重要作用。结果表明,MLLM的主动感知能力存在显著差距,表明该领域值得更多关注。我们希望ActiView能够帮助开发MLLM以更自然和整体的方式理解多模态输入的方法。

🔬 方法详解

问题定义:现有的大型多模态模型(MLLM)评估方法,通常忽略了模型的主动感知能力。这意味着模型在面对视野受限或信息不完整的情况下,无法像人类一样主动调整视角或探索环境以获取所需信息。因此,如何有效评估MLLM在受限感知条件下的主动探索和问题解决能力是一个关键问题。

核心思路:ActiView的核心思路是通过限制MLLM的感知范围,迫使模型进行主动感知。具体来说,给定一张图像,模型只能看到图像的一部分,需要通过“zoom”或“shift”等动作来改变视野,从而获取足够的信息来回答问题。这种方式模拟了人类在现实世界中主动探索环境的过程,可以更真实地评估模型的主动感知能力。

技术框架:ActiView基准测试包含以下主要步骤:1)给定一张图像和一个需要回答的问题;2)限制MLLM的初始感知范围,使其只能看到图像的一部分;3)模型根据当前视野和问题进行推理,决定是否需要执行“zoom”或“shift”等动作来改变视野;4)模型在新的视野下再次进行推理,直到能够回答问题或达到最大动作次数;5)根据模型回答的正确性以及所执行的动作次数来评估其主动感知能力。

关键创新:ActiView的关键创新在于其评估范式的设计。它将主动感知能力与视觉问答任务相结合,通过限制感知范围并引入动作空间,使得评估过程更加可控和量化。与传统的VQA任务相比,ActiView更侧重于考察模型在信息不完整情况下的推理和决策能力。

关键设计:ActiView的关键设计包括:1)精心设计的视觉问答数据集,问题需要模型通过主动探索才能回答;2)定义了明确的动作空间,例如“zoom in”、“zoom out”、“shift left”、“shift right”等;3)设计了合理的评估指标,例如回答正确率、平均动作次数等,以全面衡量模型的主动感知能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在ActiView基准测试中,研究人员对30个MLLM进行了评估,结果表明现有模型在主动感知方面存在显著差距。即使是大型专有模型,在受限感知条件下也难以有效完成视觉问答任务。实验结果还表明,限制感知范围是激发模型主动感知能力的关键因素。ActiView为未来MLLM的研究提供了一个新的评估视角和发展方向。

🎯 应用场景

ActiView的研究成果可应用于机器人导航、自动驾驶、智能监控等领域。通过提升MLLM的主动感知能力,可以使机器人在复杂环境中更好地理解和交互,例如在未知环境中自主探索、在有限视野下完成目标定位等任务。此外,该研究也有助于开发更具通用性和鲁棒性的多模态智能系统。

📄 摘要(原文)

Active perception, a crucial human capability, involves setting a goal based on the current understanding of the environment and performing actions to achieve that goal. Despite significant efforts in evaluating Multimodal Large Language Models (MLLMs), active perception has been largely overlooked. To address this gap, we propose a novel benchmark named ActiView to evaluate active perception in MLLMs. We focus on a specialized form of Visual Question Answering (VQA) that eases and quantifies the evaluation yet challenging for existing MLLMs. Meanwhile, intermediate reasoning behaviors of models are also discussed. Given an image, we restrict the perceptual field of a model, requiring it to actively zoom or shift its perceptual field based on reasoning to answer the question successfully. We conduct extensive evaluation over 30 models, including proprietary and open-source models, and observe that restricted perceptual fields play a significant role in enabling active perception. Results reveal a significant gap in the active perception capability of MLLMs, indicating that this area deserves more attention. We hope that ActiView could help develop methods for MLLMs to understand multimodal inputs in more natural and holistic ways.