360° Image Perception with MLLMs: A Comprehensive Benchmark and a Training-Free Method

作者: Huyen T. T. Tran, Van-Quang Nguyen, Farros Alferro, Kang-Jun Liu, Takayuki Okatani

分类: cs.CV, cs.AI

发布日期: 2026-03-17

💡 一句话要点

提出Free360，一种无需训练的360°图像VQA框架，提升MLLM在全景图像理解能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 360°图像理解 视觉问答 多模态大语言模型 场景图 免训练学习

📋 核心要点

现有MLLM在360°图像理解方面存在不足，难以处理几何失真和复杂空间关系。
Free360通过场景图分解推理过程，并对360°图像进行自适应球形变换，无需训练即可提升性能。
实验表明，Free360能够有效提升基础MLLM在360° VQA任务上的表现，提供了一种有效的免训练解决方案。

📝 摘要（中文）

多模态大型语言模型(MLLM)在理解和推理传统图像方面表现出令人印象深刻的能力。然而，它们对360°图像的感知在很大程度上仍未被探索。与传统图像不同，360°图像捕获了整个周围环境，从而实现了整体空间推理，但也引入了几何失真和复杂空间关系等挑战。为了全面评估MLLM感知360°图像的能力，我们引入了360Bench，这是一个视觉问答(VQA)基准，包含7K分辨率的360°图像，以及由人工注释员精心策划的七个代表性(子)任务的注释。通过360Bench，我们系统地评估了七个MLLM和六种增强方法，揭示了它们在360°图像感知方面的缺点。为了应对这些挑战，我们提出Free360，一个无需训练的、基于场景图的框架，用于高分辨率360° VQA。Free360将推理过程分解为模块化步骤，对360°图像应用自适应球形图像变换，并无缝地将结果信息集成到统一的图表示中以生成答案。实验表明，Free360始终改进其基础MLLM，并为360° VQA任务提供强大的免训练解决方案。源代码和数据集将在接受后公开发布。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLMs）在理解360°全景图像时面临的挑战。现有方法在处理全景图像时，由于其固有的几何失真和复杂的空间关系，往往表现不佳。这些痛点限制了MLLMs在需要全面环境理解的应用中的潜力。

核心思路：Free360的核心思路是将复杂的360° VQA任务分解为更易于处理的模块化步骤。通过引入场景图表示，将图像中的对象及其关系显式地建模出来。此外，针对不同的推理步骤，自适应地应用球形图像变换，以减少几何失真带来的影响。这种模块化和自适应的方法使得模型能够更有效地利用360°图像中的信息。

技术框架：Free360框架主要包含以下几个模块：1) 场景图生成模块，用于检测图像中的对象并建立它们之间的关系；2) 自适应球形图像变换模块，根据不同的推理需求，对360°图像进行不同的投影变换；3) 信息融合模块，将场景图和变换后的图像信息融合在一起，形成统一的表示；4) 答案生成模块，利用MLLM根据融合后的信息生成答案。整个流程无需额外的训练，可以直接应用于现有的MLLMs。

关键创新：Free360最重要的技术创新在于其无需训练的特性以及自适应球形图像变换的应用。与需要大量训练数据的传统方法不同，Free360可以直接利用预训练的MLLMs，降低了部署成本。自适应球形图像变换能够有效地减少几何失真，提高模型对图像内容的理解。

关键设计：在场景图生成模块中，可以使用预训练的目标检测模型（如YOLO）来检测图像中的对象。关系预测可以使用现有的图神经网络。自适应球形图像变换可以根据不同的VQA任务选择不同的投影方式，例如等距圆柱投影、透视投影等。信息融合模块可以使用注意力机制来加权不同来源的信息。答案生成模块可以直接使用MLLM的文本生成能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Free360在360Bench基准测试中显著提升了基础MLLM的性能。例如，在某些子任务上，Free360可以将准确率提高10%以上。此外，Free360无需训练的特性使其具有很强的实用性，可以直接应用于现有的MLLM，降低了部署成本。

🎯 应用场景

该研究成果可广泛应用于机器人导航、虚拟现实、自动驾驶、安防监控等领域。通过提升MLLM对360°全景图像的理解能力，可以使机器人在复杂环境中更好地感知周围环境，从而实现更智能的决策和行为。未来，该技术有望应用于更广泛的场景，例如智能家居、智慧城市等。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have shown impressive abilities in understanding and reasoning over conventional images. However, their perception of 360° images remains largely underexplored. Unlike conventional images, 360° images capture the entire surrounding environment, enabling holistic spatial reasoning but introducing challenges such as geometric distortion and complex spatial relations. To comprehensively assess MLLMs' capabilities to perceive 360° images, we introduce 360Bench, a Visual Question Answering (VQA) benchmark featuring 7K-resolution 360° images, seven representative (sub)tasks with annotations carefully curated by human annotators. Using 360Bench, we systematically evaluate seven MLLMs and six enhancement methods, revealing their shortcomings in 360° image perception. To address these challenges, we propose Free360, a training-free scene-graph-based framework for high-resolution 360° VQA. Free360 decomposes the reasoning process into modular steps, applies adaptive spherical image transformations to 360° images tailored to each step, and seamlessly integrates the resulting information into a unified graph representation for answer generation. Experiments show that Free360 consistently improves its base MLLM and provides a strong training-free solution for 360° VQA tasks. The source code and dataset will be publicly released upon acceptance.

360° Image Perception with MLLMs: A Comprehensive Benchmark and a Training-Free Method

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理