HouseTour: A Virtual Real Estate A(I)gent
作者: Ata Çelen, Marc Pollefeys, Daniel Barath, Iro Armeni
分类: cs.CV, cs.CL
发布日期: 2025-10-20
备注: Published on ICCV 2025
💡 一句话要点
HouseTour:提出一种利用扩散模型生成空间感知三维相机轨迹和自然语言摘要的方法,用于房地产场景。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 三维重建 相机轨迹生成 扩散模型 视觉-语言模型 自然语言生成 房地产 3D高斯溅射
📋 核心要点
- 现有视觉-语言模型在处理需要几何推理的任务时存在不足,尤其是在理解和描述3D空间关系方面。
- HouseTour利用扩散过程生成平滑的相机轨迹,并将其与视觉-语言模型集成,从而实现3D空间感知的描述生成。
- 实验结果表明,该方法在生成高质量房地产视频和描述方面优于现有方法,并提出了新的联合评估指标。
📝 摘要(中文)
本文介绍了一种名为HouseTour的方法,该方法能够从描绘现有3D空间的图像集合中生成具有空间感知的三维相机轨迹和自然语言摘要。与现有的视觉-语言模型(VLM)在几何推理方面表现不佳不同,我们的方法通过受已知相机姿态约束的扩散过程生成平滑的视频轨迹,并将此信息集成到VLM中以生成3D接地的描述。我们使用3D高斯溅射合成最终视频,以渲染沿轨迹的新视角。为了支持这项任务,我们提出了HouseTour数据集,其中包括超过1,200个带有相机姿势、3D重建和房地产描述的房屋巡游视频。实验表明,将3D相机轨迹整合到文本生成过程中可以提高性能,优于独立处理每个任务的方法。我们评估了单个和端到端性能,并引入了一种新的联合指标。我们的工作无需专业知识或设备,即可为房地产和旅游应用自动创建专业质量的视频。
🔬 方法详解
问题定义:现有视觉-语言模型(VLM)在处理需要几何推理的任务时表现不佳,难以生成流畅且具有空间感知的三维相机轨迹和自然语言描述,尤其是在房地产等场景中。现有方法通常独立处理相机轨迹生成和文本描述,忽略了两者之间的内在联系,导致生成质量不高。
核心思路:HouseTour的核心思路是将三维空间信息(相机姿态)融入到视觉-语言模型中,通过扩散过程生成平滑的相机轨迹,并利用该轨迹引导文本描述的生成。这种方法能够使生成的描述更加符合空间布局,提高整体的真实感和流畅性。
技术框架:HouseTour包含以下主要模块:1) 相机姿态估计:利用SfM等技术估计输入图像的相机姿态;2) 轨迹生成:使用扩散模型,以相机姿态为约束条件,生成平滑的三维相机轨迹;3) 场景渲染:使用3D高斯溅射技术,根据生成的相机轨迹渲染出新的视角;4) 文本描述生成:将相机轨迹信息输入到视觉-语言模型中,生成与场景相关的自然语言描述。
关键创新:HouseTour的关键创新在于将扩散模型应用于三维相机轨迹生成,并将其与视觉-语言模型相结合,实现了空间感知的文本描述生成。与现有方法相比,该方法能够更好地利用三维空间信息,生成更真实、更流畅的视频和描述。
关键设计:在轨迹生成阶段,使用条件扩散模型,以相机姿态作为条件,约束扩散过程,保证生成的轨迹与场景几何结构一致。在文本描述生成阶段,将相机轨迹信息(例如,相机位置、朝向)编码成向量,并将其作为视觉-语言模型的输入,引导模型生成与空间布局相关的描述。此外,还设计了一种新的联合评估指标,用于评估视频和描述的整体质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HouseTour在生成高质量房屋巡游视频和描述方面优于现有方法。通过将3D相机轨迹整合到文本生成过程中,性能得到了显著提升。此外,该论文还提出了一个新的联合评估指标,能够更全面地评估视频和描述的整体质量。HouseTour数据集的发布也为相关研究提供了宝贵的数据资源。
🎯 应用场景
HouseTour具有广泛的应用前景,例如:1) 房地产行业:自动生成房屋巡游视频和描述,提高房产展示效果;2) 旅游行业:创建虚拟旅游体验,让用户身临其境地了解旅游景点;3) 游戏行业:生成游戏场景中的相机轨迹和环境描述,增强游戏的沉浸感。该研究能够降低视频制作成本,提高内容生成效率,推动相关行业的发展。
📄 摘要(原文)
We introduce HouseTour, a method for spatially-aware 3D camera trajectory and natural language summary generation from a collection of images depicting an existing 3D space. Unlike existing vision-language models (VLMs), which struggle with geometric reasoning, our approach generates smooth video trajectories via a diffusion process constrained by known camera poses and integrates this information into the VLM for 3D-grounded descriptions. We synthesize the final video using 3D Gaussian splatting to render novel views along the trajectory. To support this task, we present the HouseTour dataset, which includes over 1,200 house-tour videos with camera poses, 3D reconstructions, and real estate descriptions. Experiments demonstrate that incorporating 3D camera trajectories into the text generation process improves performance over methods handling each task independently. We evaluate both individual and end-to-end performance, introducing a new joint metric. Our work enables automated, professional-quality video creation for real estate and touristic applications without requiring specialized expertise or equipment.