ArchGPT: Understanding the World's Architectures with Large Multimodal Models

📄 arXiv: 2509.20858v1 📥 PDF

作者: Yuze Wang, Luo Yang, Junyi Wang, Yue Qi

分类: cs.GR, cs.CV, cs.MM

发布日期: 2025-09-25


💡 一句话要点

ArchGPT:利用大型多模态模型理解世界建筑

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 建筑视觉问答 多模态学习 大型语言模型 数据集构建 知识蒸馏

📋 核心要点

  1. 现有VR/MR/AR系统在建筑领域的应用缺乏通用性,依赖硬编码和特定任务交互,难以扩展。
  2. ArchGPT提出了一种多模态建筑视觉问答模型,并构建了可扩展的数据流程,用于生成高质量的建筑VQA注释。
  3. 通过在Arch-300K数据集上微调ShareGPT4V-7B,ArchGPT在建筑理解方面取得了显著进展。

📝 摘要(中文)

建筑体现了美学、文化和历史价值,是人类文明的切实证明。研究人员长期以来利用虚拟现实(VR)、混合现实(MR)和增强现实(AR)来实现对建筑的沉浸式探索和解读,从而提高建筑在教育、遗产保护和专业设计实践中的可访问性、公众理解和创意工作流程。然而,现有的VR/MR/AR系统通常是针对特定案例开发的,依赖于硬编码的注释和特定于任务的交互,无法跨越不同的建筑环境进行扩展。本文提出了ArchGPT,一种多模态建筑视觉问答(VQA)模型,以及一个可扩展的数据构建流程,用于管理高质量的、特定于建筑的VQA注释。该流程生成了Arch-300K,一个包含约315,000个图像-问题-答案三元组的领域专用数据集。Arch-300K通过一个多阶段过程构建:首先,我们从维基共享资源中管理建筑场景,并使用一种新颖的由粗到精的策略过滤非约束的游客照片集,该策略集成了3D重建和语义分割,以选择无遮挡的、结构一致的建筑图像。为了减轻原始文本元数据中的噪声和不一致性,我们提出了一种由LLM引导的文本验证和知识蒸馏流程,以生成可靠的、特定于建筑的问题-答案对。使用这些精心策划的图像和精炼的元数据,我们进一步综合形式分析注释——包括详细的描述和方面引导的对话——以提供更丰富的语义多样性,同时保持对数据的忠实性。我们在Arch-300K上对开源多模态骨干网络ShareGPT4V-7B进行监督微调,从而得到ArchGPT。

🔬 方法详解

问题定义:论文旨在解决现有建筑领域VR/MR/AR系统缺乏通用性和可扩展性的问题。现有方法依赖于人工标注和特定任务的交互,无法适应多样化的建筑环境,限制了其在教育、遗产保护和专业设计等领域的应用。

核心思路:论文的核心思路是构建一个大规模、高质量的建筑视觉问答(VQA)数据集Arch-300K,并在此基础上微调一个大型多模态模型ArchGPT。通过数据驱动的方式,使模型能够理解和回答关于建筑图像的问题,从而实现更通用和智能的建筑理解能力。

技术框架:ArchGPT的构建流程主要包含以下几个阶段:1) 数据收集:从维基共享资源等渠道收集建筑图像。2) 数据清洗:利用3D重建和语义分割技术,过滤掉遮挡严重和结构不一致的图像。3) 数据标注:利用大型语言模型(LLM)生成高质量的问题-答案对,并进行文本验证和知识蒸馏,以保证标注的准确性和一致性。4) 模型训练:在Arch-300K数据集上微调开源多模态模型ShareGPT4V-7B,得到ArchGPT。

关键创新:论文的关键创新在于:1) 提出了一个可扩展的数据构建流程,能够自动生成大规模、高质量的建筑VQA数据集。2) 利用LLM进行文本验证和知识蒸馏,有效降低了数据标注的噪声和不一致性。3) 通过综合形式分析注释,丰富了数据的语义多样性。

关键设计:在数据清洗阶段,采用了由粗到精的策略,首先利用3D重建筛选出结构合理的图像,然后利用语义分割去除遮挡严重的区域。在数据标注阶段,利用LLM生成问题-答案对,并人工进行验证和修正。在模型训练阶段,采用了监督微调的方式,并针对建筑领域的特点,调整了模型的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了包含315,000个图像-问题-答案三元组的Arch-300K数据集,并通过在ShareGPT4V-7B上进行微调,得到了ArchGPT模型。实验结果表明,ArchGPT在建筑视觉问答任务上取得了显著的性能提升,能够准确理解和回答关于建筑图像的各种问题,证明了该方法的有效性。

🎯 应用场景

ArchGPT具有广泛的应用前景,包括:建筑教育,可以帮助学生更深入地理解建筑设计原理;遗产保护,可以用于建筑的数字化记录和修复;专业设计,可以辅助建筑师进行方案设计和评估;以及VR/AR应用,可以提供更智能和交互性更强的建筑体验。该研究的成果将推动建筑领域的智能化发展。

📄 摘要(原文)

Architecture embodies aesthetic, cultural, and historical values, standing as a tangible testament to human civilization. Researchers have long leveraged virtual reality (VR), mixed reality (MR), and augmented reality (AR) to enable immersive exploration and interpretation of architecture, enhancing accessibility, public understanding, and creative workflows around architecture in education, heritage preservation, and professional design practice. However, existing VR/MR/AR systems are often developed case-by-case, relying on hard-coded annotations and task-specific interactions that do not scale across diverse built environments. In this work, we present ArchGPT, a multimodal architectural visual question answering (VQA) model, together with a scalable data-construction pipeline for curating high-quality, architecture-specific VQA annotations. This pipeline yields Arch-300K, a domain-specialized dataset of approximately 315,000 image-question-answer triplets. Arch-300K is built via a multi-stage process: first, we curate architectural scenes from Wikimedia Commons and filter unconstrained tourist photo collections using a novel coarse-to-fine strategy that integrates 3D reconstruction and semantic segmentation to select occlusion-free, structurally consistent architectural images. To mitigate noise and inconsistency in raw textual metadata, we propose an LLM-guided text verification and knowledge-distillation pipeline to generate reliable, architecture-specific question-answer pairs. Using these curated images and refined metadata, we further synthesize formal analysis annotations-including detailed descriptions and aspect-guided conversations-to provide richer semantic variety while remaining faithful to the data. We perform supervised fine-tuning of an open-source multimodal backbone ,ShareGPT4V-7B, on Arch-300K, yielding ArchGPT.