3DCity-LLM: Empowering Multi-modality Large Language Models for 3D City-scale Perception and Understanding
作者: Yiping Chen, Jinpeng Li, Wenyu Ke, Yang Luo, Jie Ouyang, Zhongjie He, Li Liu, Hongchao Fan, Hao Wu
分类: cs.CV, cs.AI
发布日期: 2026-03-24
备注: 24 pages, 11 figures, 12 tables
🔗 代码/项目: GITHUB
💡 一句话要点
提出3DCity-LLM,赋能多模态大语言模型进行3D城市级感知与理解
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D城市感知 多模态大语言模型 视觉-语言理解 空间推理 城市智能
📋 核心要点
- 现有方法难以将多模态大语言模型扩展到复杂的3D城市级环境,缺乏有效的感知和理解能力。
- 3DCity-LLM采用粗到精的特征编码策略,并行处理目标对象、对象关系和全局场景信息,实现统一的视觉-语言理解。
- 构建了包含120万样本的3DCity-LLM-1.2M数据集,并在两个基准测试中显著超越现有方法,提升空间推理能力。
📝 摘要(中文)
多模态大语言模型在以物体为中心或室内场景中表现出色,但将其扩展到3D城市级环境仍然是一个巨大的挑战。为了弥合这一差距,我们提出了3DCity-LLM,一个统一的框架,专为3D城市级视觉-语言感知和理解而设计。3DCity-LLM采用了一种由粗到精的特征编码策略,包括三个并行分支,分别针对目标对象、对象间关系和全局场景。为了促进大规模训练,我们引入了3DCity-LLM-1.2M数据集,该数据集包含约120万个高质量样本,涵盖七个代表性任务类别,从细粒度的对象分析到多方面的场景规划。这个经过严格质量控制的数据集集成了显式的3D数值信息和多样化的面向用户的模拟,丰富了城市场景的问答多样性和真实性。此外,我们应用了一种基于文本相似性指标和基于LLM的语义评估的多维协议,以确保所有方法的忠实和全面的评估。在两个基准上的大量实验表明,3DCity-LLM显著优于现有的最先进方法,为推进空间推理和城市智能提供了一个有希望且有意义的方向。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型在3D城市尺度场景下的感知和理解问题。现有方法在处理大规模、复杂的城市环境时,缺乏有效的特征提取和信息融合机制,难以进行准确的空间推理和场景理解。现有方法通常侧重于物体级别的理解,忽略了物体之间的关系以及全局场景的上下文信息,导致性能瓶颈。
核心思路:论文的核心思路是采用一种由粗到精的特征编码策略,将3D城市场景分解为目标对象、对象间关系和全局场景三个并行分支进行处理。这种分解方式能够更全面地捕捉场景中的各种信息,并利用多模态大语言模型进行有效的融合和推理。通过显式地建模对象关系和全局上下文,可以提高模型对复杂场景的理解能力。
技术框架:3DCity-LLM框架包含三个主要模块:目标对象特征编码分支、对象间关系特征编码分支和全局场景特征编码分支。每个分支分别提取场景中不同层面的特征信息。然后,这些特征被融合并输入到多模态大语言模型中,进行问答或其它相关任务。框架还包括一个大规模的3DCity-LLM-1.2M数据集,用于训练和评估模型。
关键创新:论文的关键创新在于提出了一个统一的框架,能够同时处理目标对象、对象间关系和全局场景信息,从而实现对3D城市场景的全面理解。此外,构建了大规模、高质量的3DCity-LLM-1.2M数据集,为训练和评估模型提供了充足的数据支持。多维评估协议也保证了评估的全面性和可靠性。
关键设计:目标对象分支可能使用PointNet++或类似的网络提取点云特征;对象间关系分支可能使用图神经网络(GNN)建模对象之间的关系;全局场景分支可能使用体素化或其它全局特征提取方法。损失函数可能包括交叉熵损失、对比损失等,用于优化模型的性能。数据集包含显式的3D数值信息和多样化的用户模拟,以增强模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,3DCity-LLM在两个基准测试中显著优于现有方法,证明了其在3D城市尺度场景下的感知和理解能力。具体性能提升数据未在摘要中给出,但强调了其超越现有SOTA方法的地位,为空间推理和城市智能提供了一个有希望的方向。
🎯 应用场景
该研究成果可应用于智慧城市建设、自动驾驶、城市规划、虚拟现实等领域。例如,可以利用该模型进行城市交通流量预测、建筑物安全评估、自动驾驶车辆的场景理解等。未来,该技术有望促进城市智能化发展,提升城市管理效率和居民生活质量。
📄 摘要(原文)
While multi-modality large language models excel in object-centric or indoor scenarios, scaling them to 3D city-scale environments remains a formidable challenge. To bridge this gap, we propose 3DCity-LLM, a unified framework designed for 3D city-scale vision-language perception and understanding. 3DCity-LLM employs a coarse-to-fine feature encoding strategy comprising three parallel branches for target object, inter-object relationship, and global scene. To facilitate large-scale training, we introduce 3DCity-LLM-1.2M dataset that comprises approximately 1.2 million high-quality samples across seven representative task categories, ranging from fine-grained object analysis to multi-faceted scene planning. This strictly quality-controlled dataset integrates explicit 3D numerical information and diverse user-oriented simulations, enriching the question-answering diversity and realism of urban scenarios. Furthermore, we apply a multi-dimensional protocol based on text-similarity metrics and LLM-based semantic assessment to ensure faithful and comprehensive evaluations for all methods. Extensive experiments on two benchmarks demonstrate that 3DCity-LLM significantly outperforms existing state-of-the-art methods, offering a promising and meaningful direction for advancing spatial reasoning and urban intelligence. The source code and dataset are available at https://github.com/SYSU-3DSTAILab/3D-City-LLM.