FineXtrol: Controllable Motion Generation via Fine-Grained Text
作者: Keming Shen, Bizhu Wu, Junliang Chen, Xiaoqin Wang, Linlin Shen
分类: cs.CV
发布日期: 2025-11-24
备注: 20 pages, 14 figures, AAAI 2026
💡 一句话要点
FineXtrol:通过细粒度文本控制实现可控的运动生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 运动生成 文本控制 细粒度控制 对比学习 人机交互
📋 核心要点
- 现有文本驱动运动生成方法在细节对齐和时间控制上存在不足,且基于坐标的控制方法计算成本高昂。
- FineXtrol通过细粒度、时间感知的文本控制信号,精确描述身体部位的运动,实现高效可控的运动生成。
- 论文设计了分层对比学习模块,提升文本编码器对控制信号的区分能力,实验证明了FineXtrol的优越性能。
📝 摘要(中文)
为了提升文本驱动的运动生成的可控性和精确性,现有方法或利用大型语言模型(LLM)生成更详细的文本,或结合全局3D坐标序列作为额外的控制信号。然而,前者常引入错位的细节且缺乏显式的时间线索,后者在将坐标转换为标准运动表示时会产生巨大的计算成本。为了解决这些问题,我们提出了FineXtrol,一种新颖的控制框架,它通过时间感知、精确、用户友好和细粒度的文本控制信号来指导高效的运动生成,这些信号描述了特定身体部位随时间的运动。为了支持这个框架,我们设计了一个分层对比学习模块,鼓励文本编码器为我们的新控制信号生成更具区分性的嵌入,从而提高运动可控性。定量结果表明,FineXtrol在可控运动生成方面取得了强大的性能,而定性分析则证明了其在指导特定身体部位运动方面的灵活性。
🔬 方法详解
问题定义:现有文本驱动运动生成方法难以实现对运动细节的精确控制,尤其是在时间和空间上对齐文本描述和运动。基于LLM的方法容易引入与运动不符的细节,而基于3D坐标的方法计算复杂度高,难以应用。因此,需要一种更有效、更精确的方法来控制运动生成。
核心思路:FineXtrol的核心思路是利用细粒度的文本描述来控制身体特定部位的运动,并结合时间信息,使得生成的运动能够精确地反映文本描述。通过设计一种新的控制信号表示方式,并采用分层对比学习,使得模型能够更好地理解和利用这些控制信号。
技术框架:FineXtrol框架主要包含以下几个模块:1) 细粒度文本控制信号生成模块:用于生成描述身体部位运动的文本信号,并包含时间信息。2) 文本编码器:将文本控制信号编码成向量表示。3) 运动生成器:根据文本编码生成运动序列。4) 分层对比学习模块:用于训练文本编码器,使其能够生成更具区分性的嵌入。
关键创新:FineXtrol的关键创新在于:1) 提出了细粒度、时间感知的文本控制信号,能够更精确地描述运动。2) 设计了分层对比学习模块,提升了文本编码器对控制信号的理解和区分能力。3) 整体框架实现了高效且可控的运动生成。
关键设计:分层对比学习模块包含全局对比损失和局部对比损失。全局对比损失用于区分不同的运动序列,局部对比损失用于区分同一运动序列中不同时间步的运动。损失函数的设计旨在使文本编码器能够捕捉到运动序列的全局和局部特征。具体的网络结构和参数设置在论文中有详细描述。
📊 实验亮点
实验结果表明,FineXtrol在可控运动生成方面取得了显著的性能提升。定量评估显示,FineXtrol在运动精度和文本对齐度等指标上优于现有方法。定性分析表明,FineXtrol能够根据细粒度的文本控制信号,精确地控制身体特定部位的运动,生成符合用户意图的运动序列。
🎯 应用场景
FineXtrol可应用于虚拟现实、游戏开发、动画制作等领域,例如,用户可以通过自然语言精确控制虚拟角色的动作,创建更加生动逼真的动画。该研究成果有助于提升人机交互的自然性和可控性,并为运动生成领域带来新的发展方向。
📄 摘要(原文)
Recent works have sought to enhance the controllability and precision of text-driven motion generation. Some approaches leverage large language models (LLMs) to produce more detailed texts, while others incorporate global 3D coordinate sequences as additional control signals. However, the former often introduces misaligned details and lacks explicit temporal cues, and the latter incurs significant computational cost when converting coordinates to standard motion representations. To address these issues, we propose FineXtrol, a novel control framework for efficient motion generation guided by temporally-aware, precise, user-friendly, and fine-grained textual control signals that describe specific body part movements over time. In support of this framework, we design a hierarchical contrastive learning module that encourages the text encoder to produce more discriminative embeddings for our novel control signals, thereby improving motion controllability. Quantitative results show that FineXtrol achieves strong performance in controllable motion generation, while qualitative analysis demonstrates its flexibility in directing specific body part movements.