FlowCoMotion: Text-to-Motion Generation via Token-Latent Flow Modeling
作者: Dawei Guan, Di Yang, Chengjie Jin, Jiangtao Wang
分类: cs.CV, cs.AI
发布日期: 2026-04-13
备注: 23 pages, 14 figures
💡 一句话要点
FlowCoMotion:通过Token-Latent流建模实现文本到动作生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 文本到动作生成 运动表示学习 Token-Latent耦合 多视角蒸馏 ODE求解器
📋 核心要点
- 现有文本到动作生成方法在连续和离散运动表示上存在局限,前者易纠缠语义与动态,后者损失细节。
- FlowCoMotion通过token-latent耦合,兼顾语义内容和高保真运动细节,实现更优的动作生成。
- 实验结果表明,FlowCoMotion在HumanML3D和SnapMoGen等基准测试中表现出竞争力的性能。
📝 摘要(中文)
本文提出FlowCoMotion,一种新颖的动作生成框架,它统一了连续和离散运动表示的处理方式。现有方法依赖于连续或离散的运动表示,但连续表示将语义与动态纠缠在一起,而离散表示则丢失了细粒度的运动细节。FlowCoMotion采用token-latent耦合来捕获语义内容和高保真运动细节。在latent分支中,应用多视角蒸馏来正则化连续latent空间;在token分支中,使用离散时间分辨率量化来提取高层语义线索。然后,通过token-latent耦合网络组合两个分支的表示,获得运动latent。随后,基于文本条件预测速度场。ODE求解器从一个简单的先验积分这个速度场,从而引导样本到目标运动的潜在状态。大量实验表明,FlowCoMotion在文本到动作基准测试(包括HumanML3D和SnapMoGen)上取得了有竞争力的性能。
🔬 方法详解
问题定义:文本到动作生成旨在根据给定的文本描述生成相应的动作序列。现有方法主要分为两类:基于连续表示的方法和基于离散表示的方法。基于连续表示的方法容易将语义信息与运动动态信息纠缠在一起,导致生成结果缺乏可控性。而基于离散表示的方法虽然可以解耦语义和动态,但由于量化过程,会丢失细粒度的运动细节,影响生成质量。
核心思路:FlowCoMotion的核心思路是结合连续表示和离散表示的优点,通过token-latent耦合的方式,既能捕获高层语义信息,又能保留细粒度的运动细节。具体来说,使用token分支提取离散的语义信息,使用latent分支提取连续的运动信息,然后通过耦合网络将两者融合,从而生成高质量的动作序列。
技术框架:FlowCoMotion的整体框架包括以下几个主要模块:1) Token分支:使用离散时间分辨率量化提取高层语义线索。2) Latent分支:使用多视角蒸馏正则化连续latent空间。3) Token-Latent耦合网络:融合token分支和latent分支的表示,得到运动latent。4) 速度场预测器:基于文本条件预测速度场。5) ODE求解器:从一个简单的先验积分速度场,引导样本到目标运动的潜在状态。
关键创新:FlowCoMotion的关键创新在于token-latent耦合的建模方式。它不同于以往单纯使用连续或离散表示的方法,而是将两者结合起来,从而更好地捕获运动的语义信息和细节信息。此外,使用多视角蒸馏正则化latent空间,可以提高latent空间的平滑性和可解释性。
关键设计:在latent分支中,使用了多视角蒸馏,通过多个不同的视角来学习运动表示,从而提高表示的鲁棒性。在token分支中,使用了离散时间分辨率量化,将连续的运动序列转换为离散的token序列。在token-latent耦合网络中,使用了注意力机制,将token分支和latent分支的表示进行对齐和融合。速度场预测器采用Transformer结构,以文本描述作为输入,预测速度场。ODE求解器使用Runge-Kutta方法进行数值积分。
🖼️ 关键图片
📊 实验亮点
FlowCoMotion在HumanML3D和SnapMoGen等文本到动作生成基准测试中取得了有竞争力的性能。实验结果表明,FlowCoMotion能够生成更加自然、流畅和符合文本描述的动作序列。相较于现有方法,FlowCoMotion在FID (Fréchet Inception Distance) 等指标上有所提升,表明其生成动作的质量更高。
🎯 应用场景
FlowCoMotion在人机交互、游戏开发、动画制作等领域具有广泛的应用前景。它可以根据文本描述自动生成人物动作,从而简化动画制作流程,提高效率。此外,还可以应用于虚拟现实和增强现实等领域,为用户提供更加自然和逼真的人机交互体验。未来,该技术有望应用于机器人控制领域,使机器人能够根据自然语言指令执行复杂的动作。
📄 摘要(原文)
Text-to-motion generation is driven by learning motion representations for semantic alignment with language. Existing methods rely on either continuous or discrete motion representations. However, continuous representations entangle semantics with dynamics, while discrete representations lose fine-grained motion details. In this context, we propose FlowCoMotion, a novel motion generation framework that unifies both treatments from a modeling perspective. Specifically, FlowCoMotion employs token-latent coupling to capture both semantic content and high-fidelity motion details. In the latent branch, we apply multi-view distillation to regularize the continuous latent space, while in the token branch we use discrete temporal resolution quantization to extract high-level semantic cues. The motion latent is then obtained by combining the representations from the two branches through a token-latent coupling network. Subsequently, a velocity field is predicted based on the textual conditions. An ODE solver integrates this velocity field from a simple prior, thereby guiding the sample to the potential state of the target motion. Extensive experiments show that FlowCoMotion achieves competitive performance on text-to-motion benchmarks, including HumanML3D and SnapMoGen.