Physics-based Scene Layout Generation from Human Motion

作者: Jianan Li, Tao Huang, Qingxu Zhu, Tien-Tsin Wong

分类: cs.CV, cs.GR

发布日期: 2024-05-21

备注: SIGGRAPH conference

💡 一句话要点

提出基于物理的场景布局生成方法，实现逼真的人机交互动画

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱四：生成式动作 (Generative Motion) 支柱五：交互与反应 (Interaction & Reaction) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 场景布局生成 物理模拟 强化学习 人机交互 运动捕捉

📋 核心要点

现有方法缺乏物理约束，易产生穿透和漂浮等伪影，且泛化性不足。
提出基于物理的场景布局生成方法，通过物理模拟和强化学习实现人机交互。
实验表明，该方法能生成物理上合理的场景布局，优于基于运动学的方法。

📝 摘要（中文）

本文提出了一种基于物理的场景布局生成方法，旨在为捕获的人体运动创建逼真的场景，实现真实的人机交互。由于角色运动通常在蓝幕工作室中捕获，缺乏真实的家具或物体，导致计划运动与捕获运动之间存在差异。为了减轻选择和定位家具及物体的负担，本文方法同时优化场景布局生成器，并在物理模拟器中模拟运动的人体。为了获得合理逼真的交互运动，该方法显式地引入了物理约束。为了自动恢复和生成场景布局，最小化运动跟踪误差以识别可交互的物体。使用强化学习对角色运动模仿控制器和场景布局生成器进行双重优化。为了促进优化，重塑了跟踪奖励，并设计了从估计的伪接触标签获得的姿势先验指导。使用来自SAMP和PROX的运动评估了该方法，并证明了与先前的基于运动学的方法相比，物理上合理的场景布局重建。

🔬 方法详解

问题定义：该论文旨在解决从人体运动中自动生成逼真场景布局的问题。现有方法主要基于运动学，缺乏物理约束，容易出现穿透、漂浮等不真实的现象。此外，一些方法依赖于特定数据集学习接触关系，泛化能力较差。因此，需要一种能够自动生成符合物理规律且泛化性强的场景布局方法。

核心思路：该论文的核心思路是将场景布局生成问题转化为一个优化问题，通过物理模拟来保证生成布局的物理合理性。同时，利用强化学习来优化场景布局生成器和人体运动模仿控制器，使得生成的布局能够支持人体进行自然的交互。通过最小化运动跟踪误差来确定可交互的物体，并利用伪接触标签提供姿势先验指导，加速优化过程。

技术框架：该方法包含以下几个主要模块：1) 场景布局生成器：负责生成场景中的物体布局。2) 物理模拟器：用于模拟人体在生成场景中的运动，并计算物理约束。3) 运动模仿控制器：控制人体在物理模拟器中模仿给定的运动。4) 强化学习优化器：用于优化场景布局生成器和运动模仿控制器，使得人体能够更好地与生成的场景进行交互。整体流程是：首先，利用场景布局生成器生成一个初始场景布局；然后，利用运动模仿控制器控制人体在物理模拟器中进行运动；接着，计算运动跟踪误差和物理约束；最后，利用强化学习优化器更新场景布局生成器和运动模仿控制器，重复以上步骤直到收敛。

关键创新：该论文的关键创新在于：1) 显式地引入了物理约束，保证了生成布局的物理合理性。2) 利用强化学习同时优化场景布局生成器和运动模仿控制器，实现了人机交互的协同优化。3) 提出了利用伪接触标签提供姿势先验指导的方法，加速了优化过程。

关键设计：在强化学习中，使用了重塑的跟踪奖励，鼓励人体更好地模仿给定的运动。同时，利用估计的伪接触标签，为人体姿势提供先验指导，加速了优化过程。具体而言，损失函数包括运动跟踪误差、物理约束损失和姿势先验损失。网络结构方面，场景布局生成器可以采用不同的网络结构，例如生成对抗网络（GAN）或变分自编码器（VAE）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法能够生成物理上合理的场景布局，避免了穿透和漂浮等伪影。与基于运动学的方法相比，该方法能够更好地模拟人机交互，生成更加逼真的动画。在SAMP和PROX数据集上的实验结果验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于电影、视频游戏等领域，自动生成与角色运动相匹配的场景布局，减轻人工设计的负担，提高内容创作效率。此外，该方法还可用于虚拟现实、增强现实等应用中，创建更加逼真和沉浸式的交互体验。未来，该技术有望扩展到更复杂的场景和更多样化的人体运动，实现更智能化的场景生成。

📄 摘要（原文）

Creating scenes for captured motions that achieve realistic human-scene interaction is crucial for 3D animation in movies or video games. As character motion is often captured in a blue-screened studio without real furniture or objects in place, there may be a discrepancy between the planned motion and the captured one. This gives rise to the need for automatic scene layout generation to relieve the burdens of selecting and positioning furniture and objects. Previous approaches cannot avoid artifacts like penetration and floating due to the lack of physical constraints. Furthermore, some heavily rely on specific data to learn the contact affordances, restricting the generalization ability to different motions. In this work, we present a physics-based approach that simultaneously optimizes a scene layout generator and simulates a moving human in a physics simulator. To attain plausible and realistic interaction motions, our method explicitly introduces physical constraints. To automatically recover and generate the scene layout, we minimize the motion tracking errors to identify the objects that can afford interaction. We use reinforcement learning to perform a dual-optimization of both the character motion imitation controller and the scene layout generator. To facilitate the optimization, we reshape the tracking rewards and devise pose prior guidance obtained from our estimated pseudo-contact labels. We evaluate our method using motions from SAMP and PROX, and demonstrate physically plausible scene layout reconstruction compared with the previous kinematics-based method.

Physics-based Scene Layout Generation from Human Motion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理