Enhancing Motion Variation in Text-to-Motion Models via Pose and Video Conditioned Editing

作者: Clayton Leite, Yu Xiao

分类: cs.LG

发布日期: 2024-10-11

💡 一句话要点

提出姿态与视频条件编辑方法，增强文本到动作模型中的动作多样性

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 文本到动作 动作生成 视频条件 姿态估计 动作编辑

📋 核心要点

现有文本到动作模型受限于训练数据不足，无法生成训练集中未包含的动作。
该方法利用视频或图像作为条件，修改现有动作，从而生成新的、未见过的动作。
用户研究表明，该方法生成的动作真实感与常见动作相当，有效扩展了动作范围。

📝 摘要（中文）

本文提出了一种新颖的方法，利用短视频片段或图像作为条件来修改现有的基本动作，从而增强文本到动作模型生成人体姿态序列的能力。由于数据稀缺，现有的文本到动作模型生成的动作范围有限。该方法利用模型对某一动作（如踢）的理解作为先验，而足球踢的视频或图像作为后验，从而生成所需的动作。通过结合这些额外的模态作为条件，该方法能够创建训练集中不存在的动作，克服了文本-动作数据集的局限性。一项包含26名参与者的用户研究表明，该方法生成的未见过的动作的真实感与文本-动作数据集中常见的动作（如行走、跑步、下蹲和踢腿）相当。

🔬 方法详解

问题定义：文本到动作模型受限于训练数据的规模和多样性，难以生成训练集中未包含的复杂或特定动作。例如，模型可能无法生成用脚背踢足球的动作，因为训练数据中只包含武术踢腿动作。现有方法难以有效利用外部信息来扩展动作范围。

核心思路：利用模型已有的对基本动作的理解作为先验知识，然后通过引入视频或图像等额外模态的信息作为后验条件，对现有动作进行编辑和修改，从而生成新的、目标动作。这种方法结合了先验知识和后验信息，能够有效地生成训练集中未见过的动作。

技术框架：该方法的核心在于将视频或图像信息融入到文本到动作的生成流程中。具体流程可能包含以下几个阶段：1) 文本编码：将文本描述转换为特征向量。2) 动作先验：利用文本特征生成一个初始的动作序列（例如，一个基本的踢腿动作）。3) 视频/图像编码：将输入的视频或图像转换为特征向量，捕捉目标动作的视觉信息。4) 动作编辑：将文本特征、初始动作序列和视频/图像特征融合，通过一个编辑网络对初始动作序列进行修改，生成最终的、符合目标动作的姿态序列。

关键创新：该方法的核心创新在于利用视频或图像作为条件来编辑和修改现有的动作，从而生成新的动作。与传统的文本到动作模型相比，该方法能够有效地利用外部信息，克服了数据稀缺的限制，扩展了动作的生成范围。

关键设计：具体的网络结构和损失函数设计未知，但可以推测一些关键设计：1) 视频/图像编码器：可以使用预训练的视觉模型（如ResNet、Transformer）来提取视频或图像的特征。2) 动作编辑网络：可以使用循环神经网络（RNN）或Transformer来建模动作序列的时序关系，并利用注意力机制来融合文本和视觉信息。3) 损失函数：可以使用重构损失（保证生成动作与视频/图像一致）、对抗损失（提高生成动作的真实感）等。

🖼️ 关键图片

📊 实验亮点

论文通过用户研究验证了该方法的有效性。结果表明，该方法生成的未见过的动作的真实感与HumanML3D数据集中常见的动作（如行走、跑步、下蹲和踢腿）相当。这表明该方法不仅能够生成新的动作，而且能够保证生成动作的质量和真实感。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、动画制作等领域。例如，用户可以通过文本描述和一段参考视频，生成特定风格或特定技巧的动作，从而丰富虚拟角色的行为。此外，该技术还可以用于运动分析和康复训练，通过分析患者的运动视频，生成标准的运动姿态，辅助医生进行诊断和治疗。

📄 摘要（原文）

Text-to-motion models that generate sequences of human poses from textual descriptions are garnering significant attention. However, due to data scarcity, the range of motions these models can produce is still limited. For instance, current text-to-motion models cannot generate a motion of kicking a football with the instep of the foot, since the training data only includes martial arts kicks. We propose a novel method that uses short video clips or images as conditions to modify existing basic motions. In this approach, the model's understanding of a kick serves as the prior, while the video or image of a football kick acts as the posterior, enabling the generation of the desired motion. By incorporating these additional modalities as conditions, our method can create motions not present in the training set, overcoming the limitations of text-motion datasets. A user study with 26 participants demonstrated that our approach produces unseen motions with realism comparable to commonly represented motions in text-motion datasets (e.g., HumanML3D), such as walking, running, squatting, and kicking.

Enhancing Motion Variation in Text-to-Motion Models via Pose and Video Conditioned Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理