MultiAct: Text-to-Motion Generation from Composite Text via Tailored Attention Guidance
作者: Nathan Sala, Ofir Abramovich, Ariel Shamir, Daniel Cohen-Or, Andreas Aristidou, Sigal Raab
分类: cs.CV, cs.GR
发布日期: 2026-05-29
备注: Accepted to SIGGRAPH 2026 conference. Project page: https://natsala13.github.io/multiact.github.io
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
MultiAct:通过定制注意力引导,从复合文本生成动作
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 文本到动作生成 复合动作 注意力机制 语义覆盖 人机交互
📋 核心要点
- 现有文本到动作生成模型在处理复合动作描述时,容易出现语义崩溃,导致生成的动作不完整或模糊。
- MultiAct通过自适应地增强与提示中代表性不足的动作相关的交叉注意力,来解决语义崩溃问题。
- 实验结果表明,MultiAct在复合提示下优于现有方法,提高了语义覆盖率,同时保持了动作的真实性。
📝 摘要(中文)
近年来,文本到动作生成技术发展迅速,为动画和人机交互提供了一种富有表现力的界面。然而,当前的模型在处理描述同时发生多个动作的提示时仍然显得脆弱。模型经常优先考虑单个主要动作而忽略其余部分,导致动作不完整或含糊不清,而不是实现复合描述的所有组成部分。我们提出了MultiAct,这是一个非配对的、推理时的复合文本到动作合成框架,它直接在预训练的动作生成器上运行,无需重新训练或修改架构。我们的方法通过自适应地放大与代表性不足的提示组件相关的交叉注意力分数来抵消语义崩溃。我们注意到,有效的调制取决于提示特定的选择,例如要定位哪些token和层,并引入了一种轻量级的辅助决策方案,该方案确定最有效的注意力增强参数化。广泛的定量和定性评估表明,MultiAct在复合提示上始终优于现有的基线,在保持运动真实感的同时实现了改进的语义覆盖。
🔬 方法详解
问题定义:现有文本到动作生成模型在处理包含多个并发动作的复合文本提示时,常常无法准确地生成所有动作。模型倾向于只关注主要动作,而忽略其他动作,导致生成的动作序列不完整、不准确,缺乏对复合语义的理解。这种现象被称为语义崩溃,是当前文本到动作生成领域的一个重要挑战。
核心思路:MultiAct的核心思路是通过在推理阶段调整模型的注意力机制,来解决语义崩溃问题。具体来说,它会识别提示文本中代表性不足的动作,并有选择地增强模型对这些动作的关注,从而确保模型能够生成包含所有动作的完整动作序列。这种方法无需重新训练模型,可以直接应用于现有的预训练模型。
技术框架:MultiAct框架主要包含以下几个模块:1) 预训练的文本到动作生成模型;2) 注意力分析模块,用于识别提示文本中代表性不足的动作;3) 注意力增强模块,用于增强模型对这些动作的关注;4) 决策模块,用于确定最佳的注意力增强参数。整个流程是在推理阶段进行的,无需修改或重新训练原始模型。
关键创新:MultiAct的关键创新在于其自适应的注意力增强机制。它不是简单地增强所有注意力权重,而是根据提示文本的具体内容,有选择地增强与代表性不足的动作相关的注意力权重。此外,MultiAct还引入了一个轻量级的决策模块,用于自动确定最佳的注意力增强参数,从而避免了手动调整参数的麻烦。
关键设计:MultiAct的关键设计包括:1) 使用交叉注意力分数来衡量每个动作的代表性;2) 使用一个可学习的权重来控制注意力增强的强度;3) 使用一个轻量级的神经网络来预测最佳的注意力增强参数。损失函数的设计目标是最大化生成动作序列的完整性和准确性,同时保持动作的真实性。
🖼️ 关键图片
📊 实验亮点
MultiAct在复合文本到动作生成任务上取得了显著的性能提升。通过定量和定性评估,证明了MultiAct在处理复合提示时,能够更好地覆盖所有动作,生成更完整、更准确的动作序列。与现有基线方法相比,MultiAct在语义覆盖率方面取得了显著提升,同时保持了动作的真实感。
🎯 应用场景
MultiAct技术可应用于动画制作、游戏开发、虚拟现实、人机交互等领域。它可以帮助用户通过简单的文本描述快速生成复杂的动作序列,从而提高内容创作的效率和质量。未来,该技术有望应用于更广泛的领域,例如机器人控制、智能助手等,实现更自然、更智能的人机交互。
📄 摘要(原文)
Text-to-motion generation has progressed rapidly in recent years, offering an expressive interface for animation and human-computer interaction. However, current models remain brittle when handling prompts that describe multiple actions occurring at the same time. Rather than realizing all components of a composite description, models frequently prioritize a single dominant action and neglect the rest, leading to incomplete or ambiguous motion. We present MultiAct, an unpaired, inference-time framework for compositional text-to-motion synthesis that operates directly on pretrained motion generators without retraining or architectural modification. Our method counteracts semantic collapse by adaptively amplifying cross-attention scores associated with underrepresented prompt components. We note that effective modulation depends on prompt-specific choices, such as which tokens and layers to target, and introduce a lightweight auxiliary decision scheme that determines the most effective attention-strengthening parametrization. Extensive quantitative and qualitative evaluations demonstrate that MultiAct consistently outperforms existing baselines on composite prompts, achieving improved semantic coverage while preserving motion realism. Project page: https://natsala13.github.io/multiact.github.io.