Stylized Text-to-Motion Generation via Hypernetwork-Driven Low-Rank Adaptation
作者: Junhyuk Jeon, Seokhyeon Hong, Junyong Noh
分类: cs.CV, cs.AI, cs.GR, cs.LG
发布日期: 2026-05-13
备注: Accepted to SIGGRAPH 2026. Project page: https://junhyukjeon.github.io/projects/style-salad/
💡 一句话要点
提出基于超网络的低秩适应风格化文本到动作生成方法
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 文本到动作生成 风格化 扩散模型 超网络 低秩适应 动作捕捉 风格迁移
📋 核心要点
- 现有文本驱动的动作生成模型难以表达动作风格的细微差别,风格化能力不足。
- 提出一种轻量级的风格调节框架,通过超网络动态生成LoRA参数来调整预训练的扩散模型。
- 实验表明,该方法在风格化效果和对未见风格的泛化能力上均优于现有方法。
📝 摘要(中文)
本文提出了一种风格化的文本驱动动作生成方法,旨在解决文本难以表达动作风格细微之处的问题。该方法通过超网络生成的LoRA参数动态调节预训练的扩散模型。首先,将风格参考动作编码为全局风格嵌入,然后通过超网络将其映射为低秩更新,应用于扩散模型的每个去噪步骤。通过监督对比损失构建风格潜在空间,该框架能够可靠地捕获不同的风格属性,提高对未见风格的泛化能力,并支持基于优化的引导,而无需预定义的风格类别。在HumanML3D和100STYLE数据集上的实验表明,该方法取得了最先进的风格化结果,同时提高了对未见风格的风格化效果。
🔬 方法详解
问题定义:现有的文本驱动动作生成模型虽然能够生成逼真的人体动作,但仅依靠文本输入难以精确控制动作的风格细节。已有的风格化方法要么需要针对特定风格对模型进行微调,要么依赖于计算量大的ControlNet架构,导致效率低下且难以泛化到未见过的风格。
核心思路:本文的核心思路是利用超网络(Hypernetwork)动态生成低秩适应(LoRA)参数,并将其注入到预训练的文本驱动扩散模型中。通过这种方式,可以在不进行大规模微调的情况下,实现对动作风格的精细控制。超网络的作用是将风格信息映射到LoRA参数,从而影响扩散模型的生成过程。
技术框架:该框架包含以下主要模块:1) 风格编码器:将参考动作编码为全局风格嵌入;2) 超网络:将风格嵌入映射为LoRA参数;3) 扩散模型:一个预训练的文本驱动扩散模型,通过LoRA参数进行风格化调节。整体流程是:给定文本和风格参考动作,首先通过风格编码器提取风格嵌入,然后通过超网络生成LoRA参数,最后将LoRA参数注入到扩散模型中,生成具有目标风格的动作。
关键创新:该方法最重要的创新点在于使用超网络动态生成LoRA参数,从而实现轻量级的风格化控制。与需要大量计算资源的ControlNet方法相比,该方法更加高效。此外,通过监督对比损失构建风格潜在空间,提高了对未见风格的泛化能力。
关键设计:关键设计包括:1) 使用监督对比损失来训练风格编码器,以确保风格嵌入能够有效区分不同的风格;2) 设计超网络结构,使其能够将风格嵌入映射为合适的LoRA参数;3) 选择合适的LoRA参数注入位置,以最大程度地影响扩散模型的生成过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在HumanML3D和100STYLE数据集上取得了最先进的风格化效果。与现有方法相比,该方法在风格相似度和动作质量方面均有显著提升。此外,该方法在对未见风格的泛化能力方面也表现出色,能够生成具有目标风格的动作,即使该风格在训练集中没有出现过。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、动画制作等领域,实现更加自然和富有表现力的人体动作生成。例如,可以根据用户的文本描述和参考动作,生成具有特定风格的舞蹈动作或运动姿态。此外,该方法还可以用于动作风格迁移,将一个动作的风格应用到另一个动作上,从而创造出新的动作。
📄 摘要(原文)
Text-driven motion diffusion models are capable of generating realistic human motions, but text alone often struggles to express fine-level nuances of motion, commonly referred to as style. Recent approaches have tackled this challenge by attaching a style injection mechanism to a pretrained text-driven diffusion model. Existing stylization methods, however, either require style-specific fine-tuning of existing models or rely on heavy ControlNet-based architectures, limiting efficiency and generalization to unseen styles. We propose a lightweight style conditioning framework that dynamically modulates a pretrained diffusion model through hypernetwork-generated LoRA parameters. A style reference motion is encoded into a global style embedding, which is mapped by a hypernetwork to low-rank updates applied at each denoising step of the diffusion model. By structuring the style latent space with a supervised contrastive loss, our framework reliably captures diverse stylistic attributes, improves generalization to unseen styles, and supports optimization-based guidance without requiring predefined style categories. Experiments on the HumanML3D and 100STYLE datasets show state-of-the-art stylization results, while achieving improved stylization for unseen styles.