3DCity-LLM: Empowering Multi-modality Large Language Models for 3D City-scale Perception and Understanding

作者: Yiping Chen, Jinpeng Li, Wenyu Ke, Yang Luo, Jie Ouyang, Zhongjie He, Li Liu, Hongchao Fan, Hao Wu

分类: cs.CV, cs.AI

发布日期: 2026-03-24

备注: 24 pages, 11 figures, 12 tables

🔗 代码/项目: GITHUB

💡 一句话要点

提出3DCity-LLM，赋能多模态大语言模型进行3D城市级感知与理解

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D城市感知 多模态大语言模型 视觉-语言理解 空间推理 城市智能

📋 核心要点

现有方法难以将多模态大语言模型扩展到复杂的3D城市级环境，缺乏有效的感知和理解能力。
3DCity-LLM采用粗到精的特征编码策略，并行处理目标对象、对象关系和全局场景信息，实现统一的视觉-语言理解。
构建了包含120万样本的3DCity-LLM-1.2M数据集，并在两个基准测试中显著超越现有方法，提升空间推理能力。

📝 摘要（中文）

多模态大语言模型在以物体为中心或室内场景中表现出色，但将其扩展到3D城市级环境仍然是一个巨大的挑战。为了弥合这一差距，我们提出了3DCity-LLM，一个统一的框架，专为3D城市级视觉-语言感知和理解而设计。3DCity-LLM采用了一种由粗到精的特征编码策略，包括三个并行分支，分别针对目标对象、对象间关系和全局场景。为了促进大规模训练，我们引入了3DCity-LLM-1.2M数据集，该数据集包含约120万个高质量样本，涵盖七个代表性任务类别，从细粒度的对象分析到多方面的场景规划。这个经过严格质量控制的数据集集成了显式的3D数值信息和多样化的面向用户的模拟，丰富了城市场景的问答多样性和真实性。此外，我们应用了一种基于文本相似性指标和基于LLM的语义评估的多维协议，以确保所有方法的忠实和全面的评估。在两个基准上的大量实验表明，3DCity-LLM显著优于现有的最先进方法，为推进空间推理和城市智能提供了一个有希望且有意义的方向。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型在3D城市尺度场景下的感知和理解问题。现有方法在处理大规模、复杂的城市环境时，缺乏有效的特征提取和信息融合机制，难以进行准确的空间推理和场景理解。现有方法通常侧重于物体级别的理解，忽略了物体之间的关系以及全局场景的上下文信息，导致性能瓶颈。

核心思路：论文的核心思路是采用一种由粗到精的特征编码策略，将3D城市场景分解为目标对象、对象间关系和全局场景三个并行分支进行处理。这种分解方式能够更全面地捕捉场景中的各种信息，并利用多模态大语言模型进行有效的融合和推理。通过显式地建模对象关系和全局上下文，可以提高模型对复杂场景的理解能力。

技术框架：3DCity-LLM框架包含三个主要模块：目标对象特征编码分支、对象间关系特征编码分支和全局场景特征编码分支。每个分支分别提取场景中不同层面的特征信息。然后，这些特征被融合并输入到多模态大语言模型中，进行问答或其它相关任务。框架还包括一个大规模的3DCity-LLM-1.2M数据集，用于训练和评估模型。

关键创新：论文的关键创新在于提出了一个统一的框架，能够同时处理目标对象、对象间关系和全局场景信息，从而实现对3D城市场景的全面理解。此外，构建了大规模、高质量的3DCity-LLM-1.2M数据集，为训练和评估模型提供了充足的数据支持。多维评估协议也保证了评估的全面性和可靠性。

关键设计：目标对象分支可能使用PointNet++或类似的网络提取点云特征；对象间关系分支可能使用图神经网络（GNN）建模对象之间的关系；全局场景分支可能使用体素化或其它全局特征提取方法。损失函数可能包括交叉熵损失、对比损失等，用于优化模型的性能。数据集包含显式的3D数值信息和多样化的用户模拟，以增强模型的泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，3DCity-LLM在两个基准测试中显著优于现有方法，证明了其在3D城市尺度场景下的感知和理解能力。具体性能提升数据未在摘要中给出，但强调了其超越现有SOTA方法的地位，为空间推理和城市智能提供了一个有希望的方向。

🎯 应用场景

该研究成果可应用于智慧城市建设、自动驾驶、城市规划、虚拟现实等领域。例如，可以利用该模型进行城市交通流量预测、建筑物安全评估、自动驾驶车辆的场景理解等。未来，该技术有望促进城市智能化发展，提升城市管理效率和居民生活质量。

📄 摘要（原文）

While multi-modality large language models excel in object-centric or indoor scenarios, scaling them to 3D city-scale environments remains a formidable challenge. To bridge this gap, we propose 3DCity-LLM, a unified framework designed for 3D city-scale vision-language perception and understanding. 3DCity-LLM employs a coarse-to-fine feature encoding strategy comprising three parallel branches for target object, inter-object relationship, and global scene. To facilitate large-scale training, we introduce 3DCity-LLM-1.2M dataset that comprises approximately 1.2 million high-quality samples across seven representative task categories, ranging from fine-grained object analysis to multi-faceted scene planning. This strictly quality-controlled dataset integrates explicit 3D numerical information and diverse user-oriented simulations, enriching the question-answering diversity and realism of urban scenarios. Furthermore, we apply a multi-dimensional protocol based on text-similarity metrics and LLM-based semantic assessment to ensure faithful and comprehensive evaluations for all methods. Extensive experiments on two benchmarks demonstrate that 3DCity-LLM significantly outperforms existing state-of-the-art methods, offering a promising and meaningful direction for advancing spatial reasoning and urban intelligence. The source code and dataset are available at https://github.com/SYSU-3DSTAILab/3D-City-LLM.

3DCity-LLM: Empowering Multi-modality Large Language Models for 3D City-scale Perception and Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理