HouseTour: A Virtual Real Estate A(I)gent
作者: Ata Çelen, Marc Pollefeys, Daniel Barath, Iro Armeni
分类: cs.CV, cs.CL
发布日期: 2025-10-20
备注: Published on ICCV 2025
💡 一句话要点
HouseTour:提出一种利用扩散模型生成空间感知三维相机轨迹和自然语言摘要的方法,用于房地产场景。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 三维重建 相机轨迹生成 扩散模型 视觉-语言模型 自然语言生成 房地产 空间感知
📋 核心要点
- 现有视觉-语言模型在几何推理方面存在不足,难以生成高质量的房地产场景漫游视频。
- HouseTour利用扩散过程生成平滑的相机轨迹,并将其融入视觉-语言模型,实现3D感知的描述生成。
- 通过HouseTour数据集的实验验证,该方法在生成空间感知的视频和描述方面优于现有方法。
📝 摘要(中文)
本文介绍了一种名为HouseTour的方法,该方法能够从描绘现有3D空间的图像集合中生成具有空间感知的三维相机轨迹和自然语言摘要。与现有的视觉-语言模型(VLM)在几何推理方面表现不佳不同,我们的方法通过受已知相机姿态约束的扩散过程生成平滑的视频轨迹,并将此信息集成到VLM中以生成基于3D的描述。我们使用3D高斯溅射合成最终视频,以渲染沿轨迹的新视角。为了支持这项任务,我们提出了HouseTour数据集,其中包括超过1200个带有相机姿态、3D重建和房地产描述的房屋漫游视频。实验表明,将3D相机轨迹整合到文本生成过程中,可以提高独立处理每个任务的方法的性能。我们评估了单个和端到端性能,并引入了一种新的联合指标。我们的工作无需专业知识或设备,即可为房地产和旅游应用自动创建专业质量的视频。
🔬 方法详解
问题定义:现有视觉-语言模型(VLMs)在处理需要几何推理的任务时表现不佳,尤其是在生成房地产或旅游场景的漫游视频时,难以保证相机轨迹的平滑性和描述的准确性。现有方法通常独立处理相机轨迹生成和文本描述生成,忽略了两者之间的空间关联性。
核心思路:HouseTour的核心思路是将3D空间信息(相机姿态)融入到视觉-语言模型的文本生成过程中,从而提高生成描述的准确性和空间一致性。通过扩散过程生成平滑的相机轨迹,并将其作为先验知识引导VLM生成更符合场景几何结构的描述。
技术框架:HouseTour包含以下主要模块:1) 相机姿态估计:利用SfM或SLAM等技术估计输入图像的相机姿态;2) 轨迹生成:使用扩散模型,以估计的相机姿态为约束,生成平滑的相机轨迹;3) 3D重建与渲染:使用3D高斯溅射技术对场景进行重建,并根据生成的相机轨迹渲染新的视角;4) 文本生成:将相机轨迹信息融入到视觉-语言模型中,生成与场景内容和相机运动相对应的自然语言描述。
关键创新:HouseTour的关键创新在于:1) 将扩散模型应用于相机轨迹生成,保证了轨迹的平滑性和自然性;2) 将3D相机轨迹信息融入到视觉-语言模型中,实现了3D感知的文本描述生成;3) 提出了一个包含大量房屋漫游视频、相机姿态、3D重建和房地产描述的HouseTour数据集。
关键设计:在轨迹生成阶段,使用条件扩散模型,以相机姿态作为条件,引导扩散过程生成符合空间约束的轨迹。在文本生成阶段,将相机轨迹信息(例如,相机位置、朝向、运动速度等)编码成向量,并将其与视觉特征一起输入到视觉-语言模型中。损失函数包括文本生成损失和轨迹平滑性损失,以保证生成文本的准确性和轨迹的自然性。
📊 实验亮点
实验结果表明,HouseTour在生成空间感知的视频和描述方面优于现有方法。通过将3D相机轨迹整合到文本生成过程中,HouseTour在文本描述的准确性和空间一致性方面取得了显著提升。此外,该论文还提出了一个新的联合指标,用于评估端到端的性能,为相关研究提供了参考。
🎯 应用场景
HouseTour具有广泛的应用前景,包括:1) 房地产行业:自动生成高质量的房屋漫游视频和描述,提高房产展示效果;2) 旅游行业:创建虚拟旅游体验,让用户足不出户即可游览世界各地的景点;3) 游戏行业:生成逼真的游戏场景和角色动画;4) 教育行业:制作交互式教学内容,提高学习效果。该研究有望降低专业视频制作的门槛,促进相关产业的智能化升级。
📄 摘要(原文)
We introduce HouseTour, a method for spatially-aware 3D camera trajectory and natural language summary generation from a collection of images depicting an existing 3D space. Unlike existing vision-language models (VLMs), which struggle with geometric reasoning, our approach generates smooth video trajectories via a diffusion process constrained by known camera poses and integrates this information into the VLM for 3D-grounded descriptions. We synthesize the final video using 3D Gaussian splatting to render novel views along the trajectory. To support this task, we present the HouseTour dataset, which includes over 1,200 house-tour videos with camera poses, 3D reconstructions, and real estate descriptions. Experiments demonstrate that incorporating 3D camera trajectories into the text generation process improves performance over methods handling each task independently. We evaluate both individual and end-to-end performance, introducing a new joint metric. Our work enables automated, professional-quality video creation for real estate and touristic applications without requiring specialized expertise or equipment.