CLoSD: Closing the Loop between Simulation and Diffusion for multi-task character control

📄 arXiv: 2410.03441v1 📥 PDF

作者: Guy Tevet, Sigal Raab, Setareh Cohan, Daniele Reda, Zhengyi Luo, Xue Bin Peng, Amit H. Bermano, Michiel van de Panne

分类: cs.CV

发布日期: 2024-10-04

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

CLoSD:结合模拟与扩散模型,实现多任务角色控制的闭环方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation)

关键词: 角色控制 运动扩散模型 强化学习 物理模拟 多任务学习

📋 核心要点

  1. 现有方法在角色控制中,运动扩散模型缺乏物理交互,强化学习难以生成多样化运动。
  2. CLoSD利用运动扩散模型作为强化学习控制器的通用规划器,实现文本驱动的多任务控制。
  3. 实验表明,CLoSD能够流畅完成导航、击打物体、坐下和站起等复杂任务序列。

📝 摘要(中文)

本文提出了一种名为CLoSD的方法,它结合了运动扩散模型和基于强化学习(RL)的物理模拟控制,以实现更强大的人体运动生成。运动扩散模型擅长生成各种运动,并能响应文本等直观控制,而RL则提供物理上合理的运动以及与环境的直接交互。CLoSD是一个文本驱动的RL物理控制器,由扩散生成引导,适用于各种任务。核心思想是,运动扩散可以作为鲁棒RL控制器的即时通用规划器。CLoSD维护了两个模块之间的闭环交互——扩散规划器(DiP)和跟踪控制器。DiP是一个快速响应的自回归扩散模型,受文本提示和目标位置控制。控制器是一个简单而鲁棒的运动模仿器,持续接收来自DiP的运动计划,并提供来自环境的反馈。CLoSD能够无缝地执行一系列不同的任务,包括导航到目标位置、用手或脚击打文本提示中指定的物体、坐下和站起。

🔬 方法详解

问题定义:现有的角色控制方法要么依赖于运动扩散模型,但缺乏与物理环境的交互能力;要么依赖于强化学习,但难以生成多样化的、符合用户意图的运动。因此,如何结合两者的优势,实现既能响应用户指令,又能与环境进行物理交互的多任务角色控制是一个挑战。

核心思路:CLoSD的核心思路是将运动扩散模型作为强化学习控制器的“规划器”。运动扩散模型能够根据文本提示生成各种运动轨迹,而强化学习控制器则负责将这些轨迹转化为物理上可行的动作,并与环境进行交互。通过闭环反馈,扩散模型可以根据环境反馈不断调整运动计划,从而实现鲁棒的多任务控制。

技术框架:CLoSD包含两个主要模块:扩散规划器(DiP)和跟踪控制器。DiP是一个自回归扩散模型,接收文本提示和目标位置作为输入,生成运动轨迹。跟踪控制器是一个基于强化学习的运动模仿器,接收来自DiP的运动计划,并将其转化为角色的动作。控制器将环境反馈传递给DiP,DiP根据反馈调整运动计划,形成闭环控制。

关键创新:CLoSD的关键创新在于将运动扩散模型和强化学习控制器结合成一个闭环系统。运动扩散模型作为规划器,负责生成运动轨迹,而强化学习控制器作为执行器,负责将轨迹转化为物理动作。这种闭环结构使得CLoSD能够同时利用运动扩散模型的多样性和强化学习的物理合理性。

关键设计:DiP使用自回归扩散模型,通过文本提示和目标位置控制运动生成。控制器使用简单的运动模仿器,通过最小化模仿损失来跟踪DiP生成的运动计划。具体参数设置和网络结构在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CLoSD在多个任务上进行了评估,包括导航到目标位置、用手或脚击打物体、坐下和站起。实验结果表明,CLoSD能够流畅地完成这些任务,并且能够根据文本提示生成不同的运动。具体性能数据和对比基线在论文中未详细说明,属于未知信息。

🎯 应用场景

CLoSD具有广泛的应用前景,例如虚拟现实、游戏开发、机器人控制等。它可以用于创建更加逼真和智能的虚拟角色,这些角色能够根据用户的指令执行各种复杂的任务,并与环境进行自然的交互。此外,CLoSD还可以用于训练机器人,使其能够在复杂环境中完成各种任务。

📄 摘要(原文)

Motion diffusion models and Reinforcement Learning (RL) based control for physics-based simulations have complementary strengths for human motion generation. The former is capable of generating a wide variety of motions, adhering to intuitive control such as text, while the latter offers physically plausible motion and direct interaction with the environment. In this work, we present a method that combines their respective strengths. CLoSD is a text-driven RL physics-based controller, guided by diffusion generation for various tasks. Our key insight is that motion diffusion can serve as an on-the-fly universal planner for a robust RL controller. To this end, CLoSD maintains a closed-loop interaction between two modules -- a Diffusion Planner (DiP), and a tracking controller. DiP is a fast-responding autoregressive diffusion model, controlled by textual prompts and target locations, and the controller is a simple and robust motion imitator that continuously receives motion plans from DiP and provides feedback from the environment. CLoSD is capable of seamlessly performing a sequence of different tasks, including navigation to a goal location, striking an object with a hand or foot as specified in a text prompt, sitting down, and getting up. https://guytevet.github.io/CLoSD-page/