City-VLM: Towards Multidomain Perception Scene Understanding via Multimodal Incomplete Learning
作者: Penglei Sun, Yaoxian Song, Xiangru Zhu, Xiang Liu, Qiang Wang, Yue Liu, Changqun Xia, Tiefeng Li, Yang Yang, Xiaowen Chu
分类: cs.CV, cs.AI
发布日期: 2025-07-17
💡 一句话要点
City-VLM:通过多模态不完全学习实现多领域感知场景理解
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 场景理解 视觉-语言模型 室外场景 不完全学习
📋 核心要点
- 现有LVLMs主要关注室内场景,缺乏对室外大规模、多模态数据的有效处理能力,难以应对室外场景的复杂性和数据不完整性。
- City-VLM通过引入不完全多模态学习,构建联合概率分布空间进行多模态融合,从而在数据缺失的情况下也能有效理解室外场景。
- 实验结果表明,City-VLM在室外场景理解任务中显著优于现有LVLMs,尤其在问答任务中取得了18.14%的平均性能提升。
📝 摘要(中文)
场景理解使智能体能够解释和理解其环境。现有的用于场景理解的大型视觉-语言模型(LVLMs)主要集中于室内家庭任务,但在应用于室外大规模场景理解时面临两个显著的局限性。首先,室外场景通常包含通过来自多个视点的各种传感器观察到的大规模环境(例如,鸟瞰图和地面视图),而现有的室内LVLMs主要分析建筑物尺度上下的人形视点的单个视觉模态。其次,现有的LVLMs受到多领域感知室外数据缺失的影响,并且难以有效地整合2D和3D视觉信息。为了解决上述局限性,我们构建了第一个多领域感知室外场景理解数据集,名为SVM-City,它源自具有多尺度场景、多视角和多模态指令调整数据。它包含来自车辆、低空无人机、高空飞机和卫星的42万张图像和48.11亿个点云,以及56.7万个问答对。为了在缺少一种模态的情况下有效地融合多模态数据,我们引入了不完全多模态学习来建模室外场景理解,并设计了名为City-VLM的LVLM。多模态融合是通过构建联合概率分布空间来实现的,而不是直接实现显式的融合操作(例如,连接)。在三个典型的室外场景理解任务上的实验结果表明,City-VLM在问答任务中平均超过现有LVLMs 18.14%的性能。我们的方法展示了跨多个室外场景的实用性和泛化性能。
🔬 方法详解
问题定义:现有的大型视觉-语言模型(LVLMs)在室外场景理解方面存在局限性。它们主要针对室内环境设计,难以处理室外场景的大尺度、多视角和多模态数据。此外,室外场景中经常存在数据缺失的情况,例如某些传感器可能无法提供数据,这进一步增加了场景理解的难度。现有方法难以有效融合2D和3D视觉信息,并且缺乏针对室外场景的训练数据。
核心思路:City-VLM的核心思路是利用不完全多模态学习来解决室外场景数据缺失的问题。它通过构建一个联合概率分布空间,将不同模态的数据映射到该空间中,从而实现多模态融合。这种方法不需要显式地进行模态间的连接操作,因此可以有效地处理数据缺失的情况。此外,City-VLM还利用大规模的室外场景数据集进行训练,从而提高了模型在室外场景中的泛化能力。
技术框架:City-VLM的整体框架包括以下几个主要模块:1) 多模态数据编码器:用于将不同模态的数据(例如,图像、点云)编码成特征向量。2) 联合概率分布空间构建模块:用于构建一个联合概率分布空间,将不同模态的特征向量映射到该空间中。3) 场景理解模块:用于根据联合概率分布空间中的信息进行场景理解,例如,回答关于场景的问题。
关键创新:City-VLM最重要的技术创新点在于它使用了不完全多模态学习来处理室外场景数据缺失的问题。与传统的显式融合方法不同,City-VLM通过构建联合概率分布空间来实现多模态融合,从而避免了数据缺失带来的影响。此外,City-VLM还利用大规模的室外场景数据集进行训练,从而提高了模型在室外场景中的泛化能力。
关键设计:City-VLM的关键设计包括:1) 使用Transformer网络作为多模态数据编码器,以提取不同模态数据的特征。2) 使用变分自编码器(VAE)来构建联合概率分布空间,从而实现多模态融合。3) 使用对比学习来训练模型,以提高模型在室外场景中的泛化能力。损失函数包括重构损失和对比损失。
🖼️ 关键图片
📊 实验亮点
City-VLM在三个典型的室外场景理解任务上进行了评估,包括场景分类、目标检测和问答。实验结果表明,City-VLM在问答任务中平均超过现有LVLMs 18.14%的性能。此外,City-VLM在场景分类和目标检测任务中也取得了显著的性能提升,证明了其在室外场景理解方面的有效性。
🎯 应用场景
City-VLM在自动驾驶、城市规划、智能交通等领域具有广泛的应用前景。它可以帮助自动驾驶车辆更好地理解周围环境,从而提高驾驶安全性。在城市规划中,City-VLM可以用于分析城市的三维结构和交通流量,从而为城市规划提供决策支持。在智能交通领域,City-VLM可以用于监控交通状况,从而提高交通效率。
📄 摘要(原文)
Scene understanding enables intelligent agents to interpret and comprehend their environment. While existing large vision-language models (LVLMs) for scene understanding have primarily focused on indoor household tasks, they face two significant limitations when applied to outdoor large-scale scene understanding. First, outdoor scenarios typically encompass larger-scale environments observed through various sensors from multiple viewpoints (e.g., bird view and terrestrial view), while existing indoor LVLMs mainly analyze single visual modalities within building-scale contexts from humanoid viewpoints. Second, existing LVLMs suffer from missing multidomain perception outdoor data and struggle to effectively integrate 2D and 3D visual information. To address the aforementioned limitations, we build the first multidomain perception outdoor scene understanding dataset, named \textbf{\underline{SVM-City}}, deriving from multi\textbf{\underline{S}}cale scenarios with multi\textbf{\underline{V}}iew and multi\textbf{\underline{M}}odal instruction tuning data. It contains $420$k images and $4, 811$M point clouds with $567$k question-answering pairs from vehicles, low-altitude drones, high-altitude aerial planes, and satellite. To effectively fuse the multimodal data in the absence of one modality, we introduce incomplete multimodal learning to model outdoor scene understanding and design the LVLM named \textbf{\underline{City-VLM}}. Multimodal fusion is realized by constructing a joint probabilistic distribution space rather than implementing directly explicit fusion operations (e.g., concatenation). Experimental results on three typical outdoor scene understanding tasks show City-VLM achieves $18.14 \%$ performance surpassing existing LVLMs in question-answering tasks averagely. Our method demonstrates pragmatic and generalization performance across multiple outdoor scenes.