Revisit Human-Scene Interaction via Space Occupancy

作者: Xinpeng Liu, Haowen Hou, Yanchao Yang, Yong-Lu Li, Cewu Lu

分类: cs.CV, cs.AI, cs.GR

发布日期: 2023-12-05 (更新: 2024-07-12)

备注: To appear in ECCV 2024. The first two authors contributed equally. Yong-Lu Li is the corresponding author. Project page: https://foruck.github.io/occu-page/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出基于空间占据的人-场景交互新视角，利用运动数据增强交互生成。

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction)

关键词: 人-场景交互 空间占据 运动生成 深度学习 人机交互

📋 核心要点

人-场景交互数据匮乏，高质量的3D场景和人物同步数据难以获取，限制了模型性能。
将人-场景交互视为人与场景空间占据的交互，利用大量无场景的运动数据进行训练。
构建运动占据库(MOB)，训练运动控制器，在复杂场景中表现良好，并能泛化到普通场景。

📝 摘要（中文）

人-场景交互(HSI)生成是一项具有挑战性的任务，对各种下游任务至关重要。然而，主要障碍之一是其有限的数据规模。高质量的、同时捕获人类和3D环境的数据难以获取，导致数据多样性和复杂性受限。本文提出，与场景的交互本质上是从抽象物理角度与场景的空间占据进行交互，从而引出人-占据交互的统一新视角。通过将纯运动序列视为人类与不可见场景占据交互的记录，可以将仅运动数据聚合到大规模配对的人-占据交互数据库：运动占据库(MOB)。因此，可以大大减轻对具有高质量场景扫描的昂贵的配对运动-场景数据集的需求。基于这种人-占据交互的新视角，提出了一个运动控制器，以在给定周围占据的情况下达到目标状态。一旦在具有复杂占据布局的MOB上进行训练，该布局对人类运动是严格的，则该控制器可以处理拥挤的场景，并且可以很好地推广到复杂度有限的通用场景，例如常规起居室。在没有用于训练的GT 3D场景的情况下，我们的方法可以在各种场景（包括静态和动态场景）中生成逼真且稳定的人-场景交互运动。

🔬 方法详解

问题定义：人-场景交互(HSI)生成任务面临数据规模有限的挑战。现有方法依赖于同时捕获高质量的人体运动和3D场景的数据集，但此类数据集的获取成本高昂，导致数据多样性和复杂性不足，限制了模型的泛化能力。

核心思路：论文的核心思路是将人-场景交互抽象为人类与场景空间占据的交互。这意味着，即使没有显式的3D场景信息，人类的运动轨迹也蕴含了与周围环境交互的信息。通过将纯运动序列视为人类与“不可见”场景占据的交互记录，可以利用大量的无场景运动数据来增强模型的训练。

技术框架：该方法主要包含两个关键部分：运动占据库(MOB)的构建和运动控制器的训练。首先，利用大量的纯运动数据构建MOB，其中每个运动序列都与一个虚拟的空间占据相关联。然后，训练一个运动控制器，该控制器以周围的空间占据为输入，预测人类的运动轨迹。该控制器在MOB上进行训练，使其能够理解不同空间占据对人类运动的约束。

关键创新：该方法最重要的创新点在于提出了人-占据交互的统一视角，从而能够利用大量的纯运动数据来解决人-场景交互数据匮乏的问题。与现有方法相比，该方法无需依赖昂贵的配对运动-场景数据集，大大降低了数据获取的成本。

关键设计：运动控制器采用深度神经网络结构，具体网络结构未知。损失函数的设计目标是使预测的运动轨迹与目标状态尽可能接近，同时考虑到空间占据的约束。MOB的构建方式未知，但需要保证其包含足够多样化的空间占据布局，以提高控制器的泛化能力。具体参数设置未知。

📊 实验亮点

该方法在没有GT 3D场景用于训练的情况下，能够在各种场景（包括静态和动态场景）中生成逼真且稳定的人-场景交互运动。通过在MOB上进行训练，该控制器能够处理拥挤的场景，并且可以很好地推广到复杂度有限的通用场景，例如常规起居室。具体性能指标未知，但项目主页提供了可视化结果。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏、机器人等领域。例如，可以用于生成更逼真的人机交互动画，使虚拟角色能够自然地与虚拟环境进行交互。在机器人领域，可以帮助机器人更好地理解和适应周围环境，从而实现更安全、更高效的导航和操作。

📄 摘要（原文）

Human-scene Interaction (HSI) generation is a challenging task and crucial for various downstream tasks. However, one of the major obstacles is its limited data scale. High-quality data with simultaneously captured human and 3D environments is hard to acquire, resulting in limited data diversity and complexity. In this work, we argue that interaction with a scene is essentially interacting with the space occupancy of the scene from an abstract physical perspective, leading us to a unified novel view of Human-Occupancy Interaction. By treating pure motion sequences as records of humans interacting with invisible scene occupancy, we can aggregate motion-only data into a large-scale paired human-occupancy interaction database: Motion Occupancy Base (MOB). Thus, the need for costly paired motion-scene datasets with high-quality scene scans can be substantially alleviated. With this new unified view of Human-Occupancy interaction, a single motion controller is proposed to reach the target state given the surrounding occupancy. Once trained on MOB with complex occupancy layout, which is stringent to human movements, the controller could handle cramped scenes and generalize well to general scenes with limited complexity like regular living rooms. With no GT 3D scenes for training, our method can generate realistic and stable HSI motions in diverse scenarios, including both static and dynamic scenes. The project is available at https://foruck.github.io/occu-page/.

Revisit Human-Scene Interaction via Space Occupancy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册