UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios

作者: Baichuan Zhou, Haote Yang, Dairong Chen, Junyan Ye, Tianyi Bai, Jinhua Yu, Songyang Zhang, Dahua Lin, Conghui He, Weijia Li

分类: cs.CV, cs.AI

发布日期: 2024-08-30 (更新: 2025-03-09)

备注: 9 pages, 6 figures

💡 一句话要点

UrBench：一个综合性的多视角城市场景大模型评测基准

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 城市环境 benchmark 大模型 跨视角理解

📋 核心要点

现有城市基准测试主要集中在单一视角和区域级别，无法全面评估LMMs在复杂城市环境中的能力。
UrBench通过构建包含多视角、多任务的综合性基准，更全面地评估LMMs在城市环境中的表现。
实验结果表明，现有LMMs在城市环境中表现不佳，与人类水平存在显著差距，尤其是在跨视角理解方面。

📝 摘要（中文）

本文提出了UrBench，一个综合性的基准，用于评估大型多模态模型（LMMs）在复杂的多视角城市场景中的能力。现有的城市基准通常只关注单一视角下的区域级城市任务，对LMMs在城市环境中的能力评估不完整。UrBench包含1.16万个精心设计的问题，涵盖区域级和角色级两个层面，以及地理定位、场景推理、场景理解和对象理解四个任务维度，共计14种任务类型。UrBench利用现有数据集，并从11个城市收集数据，使用跨视角检测匹配方法创建新的标注。然后，整合基于LMM、基于规则和基于人工的方法来构建大规模高质量的问题。对21个LMMs的评估表明，当前的LMMs在城市环境中存在诸多不足。即使是表现最佳的GPT-4o在大多数任务中也落后于人类，平均性能差距为17.4%。该基准还揭示了LMMs在不同城市视角下表现出不一致的行为，尤其是在理解跨视角关系方面。

🔬 方法详解

问题定义：现有的大型多模态模型（LMMs）在城市环境中的评估benchmark存在不足，主要体现在两个方面：一是视角单一，通常只考虑单个视角下的城市场景；二是任务类型有限，主要集中在区域级别的简单任务。这导致无法全面评估LMMs在复杂城市环境下的真实能力，例如跨视角推理、细粒度对象理解等。因此，需要一个更全面、更具挑战性的benchmark来推动LMMs在城市理解方面的研究。

核心思路：UrBench的核心思路是构建一个多视角、多任务的城市环境benchmark，以更全面地评估LMMs的能力。具体来说，UrBench不仅包含区域级别的任务，还引入了角色级别的任务，模拟不同角色（如行人、司机）在城市环境中的感知需求。同时，UrBench覆盖了地理定位、场景推理、场景理解和对象理解四个任务维度，共计14种任务类型，从而更全面地考察LMMs的城市理解能力。

技术框架：UrBench的构建主要包含以下几个阶段：1) 数据收集：利用现有数据集，并从11个城市收集新的图像数据。2) 数据标注：使用跨视角检测匹配方法，为图像数据创建新的标注，包括对象位置、属性等信息。3) 问题生成：整合基于LMM、基于规则和基于人工的方法，生成大规模高质量的问题，涵盖不同的任务类型和难度级别。4) 模型评估：使用UrBench评估21个LMMs的性能，并与人类水平进行比较。

关键创新：UrBench的关键创新在于其综合性和多视角特性。与现有的城市benchmark相比，UrBench不仅覆盖了更多的任务类型和难度级别，还考虑了多视角城市场景，从而更全面地评估LMMs的城市理解能力。此外，UrBench还采用了跨视角检测匹配方法来创建新的标注，提高了标注的准确性和一致性。

关键设计：UrBench在问题生成方面采用了多种方法，包括基于LMM的方法、基于规则的方法和基于人工的方法。基于LMM的方法利用LMMs生成问题，然后进行人工筛选和修改。基于规则的方法根据预定义的规则生成问题。基于人工的方法则直接由人工编写问题。通过结合这三种方法，UrBench可以生成多样化、高质量的问题。

🖼️ 关键图片

📊 实验亮点

UrBench对21个LMMs进行了评估，结果表明，即使是表现最佳的GPT-4o在大多数任务中也落后于人类，平均性能差距为17.4%。此外，UrBench还揭示了LMMs在不同城市视角下表现出不一致的行为，尤其是在理解跨视角关系方面。这些结果表明，当前的LMMs在城市理解方面仍有很大的提升空间。

🎯 应用场景

UrBench的潜在应用领域包括自动驾驶、智能交通、城市规划、安防监控等。通过提高LMMs在城市环境中的理解能力，可以提升自动驾驶车辆的感知能力，优化交通流量，辅助城市规划决策，以及增强安防监控系统的智能化水平。未来，UrBench可以作为LMMs在城市环境应用的重要评估工具，推动相关技术的发展。

📄 摘要（原文）

Recent evaluations of Large Multimodal Models (LMMs) have explored their capabilities in various domains, with only few benchmarks specifically focusing on urban environments. Moreover, existing urban benchmarks have been limited to evaluating LMMs with basic region-level urban tasks under singular views, leading to incomplete evaluations of LMMs' abilities in urban environments. To address these issues, we present UrBench, a comprehensive benchmark designed for evaluating LMMs in complex multi-view urban scenarios. UrBench contains 11.6K meticulously curated questions at both region-level and role-level that cover 4 task dimensions: Geo-Localization, Scene Reasoning, Scene Understanding, and Object Understanding, totaling 14 task types. In constructing UrBench, we utilize data from existing datasets and additionally collect data from 11 cities, creating new annotations using a cross-view detection-matching method. With these images and annotations, we then integrate LMM-based, rule-based, and human-based methods to construct large-scale high-quality questions. Our evaluations on 21 LMMs show that current LMMs struggle in the urban environments in several aspects. Even the best performing GPT-4o lags behind humans in most tasks, ranging from simple tasks such as counting to complex tasks such as orientation, localization and object attribute recognition, with an average performance gap of 17.4%. Our benchmark also reveals that LMMs exhibit inconsistent behaviors with different urban views, especially with respect to understanding cross-view relations.

UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理