InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement

作者: Nikita Kister, Pradyumna YM, István Sárándi, Jiayi Wang, Anna Khoreva, Gerard Pons-Moll

分类: cs.CV

发布日期: 2026-04-21

💡 一句话要点

InHabit：利用图像基础模型实现可扩展的3D人体放置

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱四：生成式动作 (Generative Motion) 支柱五：交互与反应 (Interaction & Reaction) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D人体放置 图像基础模型 数据生成 具身智能体 场景理解

📋 核心要点

现有3D人体场景交互数据稀缺，真实数据采集成本高，合成数据缺乏真实场景上下文。
InHabit利用2D图像基础模型学习的人类-环境交互知识，自动生成逼真的3D人体场景交互数据。
实验表明，使用InHabit生成的数据增强训练，可显著提升3D人体场景重建和接触估计的性能。

📝 摘要（中文）

为了训练具身智能体像人类一样理解3D场景，需要大量人类与各种环境交互的数据，但此类数据稀缺。真实世界的动作捕捉成本高昂且仅限于受控环境，而现有的合成数据集依赖于简单的几何启发式方法，忽略了丰富的场景上下文。相比之下，在互联网规模数据上训练的2D基础模型已经隐式地获得了人类-环境交互的常识知识。为了将这种知识转移到3D，我们引入了InHabit，这是一个全自动且可扩展的数据生成器，用于用交互的人类填充3D场景。InHabit遵循渲染-生成-提升原则：给定一个渲染的3D场景，视觉-语言模型提出上下文相关的动作，图像编辑模型插入一个人，优化程序将编辑后的结果提升为与场景几何体对齐的、物理上合理的SMPL-X人体。应用于Habitat-Matterport3D，InHabit生成了第一个大规模的逼真3D人类-场景交互数据集，包含800个建筑规模场景中的78K个样本，具有完整的3D几何体、SMPL-X人体和RGB图像。使用我们的样本增强标准训练数据可以改善基于RGB的3D人类-场景重建和接触估计，并且在感知用户研究中，我们的数据在78%的情况下优于现有技术。

🔬 方法详解

问题定义：论文旨在解决缺乏大规模、高质量3D人体场景交互数据的问题。现有方法要么依赖昂贵的真实数据采集，要么使用简单的几何规则生成合成数据，无法捕捉真实世界中人类与环境的复杂交互。

核心思路：论文的核心思路是利用在海量图像数据上训练的2D图像基础模型所蕴含的人类-环境交互知识，将其迁移到3D场景中，从而自动生成逼真且具有上下文相关性的3D人体场景交互数据。这种方法避免了对昂贵真实数据的依赖，并能生成更符合真实世界规律的数据。

技术框架：InHabit框架遵循“渲染-生成-提升”的流程。首先，从3D场景中渲染图像；然后，使用视觉-语言模型（VLM）根据场景上下文生成合理的动作描述，并使用图像编辑模型将人体插入到渲染图像中；最后，通过优化过程将编辑后的2D图像“提升”为物理上合理的3D SMPL-X人体模型，并使其与场景几何体对齐。

关键创新：该方法最重要的创新在于利用2D图像基础模型来指导3D人体放置。与传统方法依赖几何规则不同，InHabit利用VLM和图像编辑模型，能够根据场景上下文生成更合理、更逼真的人体姿态和位置。这种方法能够有效地将2D图像基础模型中的知识迁移到3D场景中。

关键设计：在“生成”阶段，论文使用了预训练的视觉-语言模型（如CLIP）来生成与场景相关的动作描述，并使用图像编辑模型（如Stable Diffusion）将人体插入到图像中。在“提升”阶段，论文使用优化算法来调整SMPL-X模型的参数，使其与编辑后的图像对齐，并满足物理约束（如避免穿透场景几何体）。损失函数包括图像对齐损失、物理约束损失和正则化项。

🖼️ 关键图片

📊 实验亮点

InHabit在Habitat-Matterport3D数据集上生成了包含78K样本的大规模3D人体场景交互数据集。实验表明，使用InHabit生成的数据增强训练，可以显著提升RGB-based 3D人体场景重建和接触估计的性能。在用户感知研究中，InHabit生成的数据在78%的情况下优于现有技术，表明其生成的3D人体场景交互数据更符合人类的感知。

🎯 应用场景

InHabit生成的3D人体场景交互数据集可广泛应用于机器人、虚拟现实、增强现实等领域。例如，可以用于训练具身智能体，使其能够更好地理解和与3D环境交互；也可以用于改进3D人体姿态估计、人体行为识别等算法的性能。此外，该方法还可以用于生成虚拟角色，并将其放置在3D场景中，从而创建更逼真的虚拟环境。

📄 摘要（原文）

Training embodied agents to understand 3D scenes as humans do requires large-scale data of people meaningfully interacting with diverse environments, yet such data is scarce. Real-world motion capture is costly and limited to controlled settings, while existing synthetic datasets rely on simple geometric heuristics that ignore rich scene context. In contrast, 2D foundation models trained on internet-scale data have implicitly acquired commonsense knowledge of human-environment interactions. To transfer this knowledge into 3D, we introduce InHabit, a fully automatic and scalable data generator for populating 3D scenes with interacting humans. InHabit follows a render-generate-lift principle: given a rendered 3D scene, a vision-language model proposes contextually meaningful actions, an image-editing model inserts a human, and an optimization procedure lifts the edited result into physically plausible SMPL-X bodies aligned with the scene geometry. Applied to Habitat-Matterport3D, InHabit produces the first large-scale photorealistic 3D human-scene interaction dataset, containing 78K samples across 800 building-scale scenes with complete 3D geometry, SMPL-X bodies, and RGB images. Augmenting standard training data with our samples improves RGB-based 3D human-scene reconstruction and contact estimation, and in a perceptual user study our data is preferred in 78% of cases over the state of the art.

InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理