Stylized Text-to-Motion Generation via Hypernetwork-Driven Low-Rank Adaptation

作者: Junhyuk Jeon, Seokhyeon Hong, Junyong Noh

分类: cs.CV, cs.AI, cs.GR, cs.LG

发布日期: 2026-05-13

备注: Accepted to SIGGRAPH 2026. Project page: https://junhyukjeon.github.io/projects/style-salad/

💡 一句话要点

提出基于超网络的低秩适应风格化文本到动作生成方法

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 文本到动作生成 风格化 扩散模型 超网络 低秩适应 动作捕捉 风格迁移

📋 核心要点

现有文本驱动的动作生成模型难以表达动作风格的细微差别，风格化能力不足。
提出一种轻量级的风格调节框架，通过超网络动态生成LoRA参数来调整预训练的扩散模型。
实验表明，该方法在风格化效果和对未见风格的泛化能力上均优于现有方法。

📝 摘要（中文）

本文提出了一种风格化的文本驱动动作生成方法，旨在解决文本难以表达动作风格细微之处的问题。该方法通过超网络生成的LoRA参数动态调节预训练的扩散模型。首先，将风格参考动作编码为全局风格嵌入，然后通过超网络将其映射为低秩更新，应用于扩散模型的每个去噪步骤。通过监督对比损失构建风格潜在空间，该框架能够可靠地捕获不同的风格属性，提高对未见风格的泛化能力，并支持基于优化的引导，而无需预定义的风格类别。在HumanML3D和100STYLE数据集上的实验表明，该方法取得了最先进的风格化结果，同时提高了对未见风格的风格化效果。

🔬 方法详解

问题定义：现有的文本驱动动作生成模型虽然能够生成逼真的人体动作，但仅依靠文本输入难以精确控制动作的风格细节。已有的风格化方法要么需要针对特定风格对模型进行微调，要么依赖于计算量大的ControlNet架构，导致效率低下且难以泛化到未见过的风格。

核心思路：本文的核心思路是利用超网络（Hypernetwork）动态生成低秩适应（LoRA）参数，并将其注入到预训练的文本驱动扩散模型中。通过这种方式，可以在不进行大规模微调的情况下，实现对动作风格的精细控制。超网络的作用是将风格信息映射到LoRA参数，从而影响扩散模型的生成过程。

技术框架：该框架包含以下主要模块：1) 风格编码器：将参考动作编码为全局风格嵌入；2) 超网络：将风格嵌入映射为LoRA参数；3) 扩散模型：一个预训练的文本驱动扩散模型，通过LoRA参数进行风格化调节。整体流程是：给定文本和风格参考动作，首先通过风格编码器提取风格嵌入，然后通过超网络生成LoRA参数，最后将LoRA参数注入到扩散模型中，生成具有目标风格的动作。

关键创新：该方法最重要的创新点在于使用超网络动态生成LoRA参数，从而实现轻量级的风格化控制。与需要大量计算资源的ControlNet方法相比，该方法更加高效。此外，通过监督对比损失构建风格潜在空间，提高了对未见风格的泛化能力。

关键设计：关键设计包括：1) 使用监督对比损失来训练风格编码器，以确保风格嵌入能够有效区分不同的风格；2) 设计超网络结构，使其能够将风格嵌入映射为合适的LoRA参数；3) 选择合适的LoRA参数注入位置，以最大程度地影响扩散模型的生成过程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在HumanML3D和100STYLE数据集上取得了最先进的风格化效果。与现有方法相比，该方法在风格相似度和动作质量方面均有显著提升。此外，该方法在对未见风格的泛化能力方面也表现出色，能够生成具有目标风格的动作，即使该风格在训练集中没有出现过。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、动画制作等领域，实现更加自然和富有表现力的人体动作生成。例如，可以根据用户的文本描述和参考动作，生成具有特定风格的舞蹈动作或运动姿态。此外，该方法还可以用于动作风格迁移，将一个动作的风格应用到另一个动作上，从而创造出新的动作。

📄 摘要（原文）

Text-driven motion diffusion models are capable of generating realistic human motions, but text alone often struggles to express fine-level nuances of motion, commonly referred to as style. Recent approaches have tackled this challenge by attaching a style injection mechanism to a pretrained text-driven diffusion model. Existing stylization methods, however, either require style-specific fine-tuning of existing models or rely on heavy ControlNet-based architectures, limiting efficiency and generalization to unseen styles. We propose a lightweight style conditioning framework that dynamically modulates a pretrained diffusion model through hypernetwork-generated LoRA parameters. A style reference motion is encoded into a global style embedding, which is mapped by a hypernetwork to low-rank updates applied at each denoising step of the diffusion model. By structuring the style latent space with a supervised contrastive loss, our framework reliably captures diverse stylistic attributes, improves generalization to unseen styles, and supports optimization-based guidance without requiring predefined style categories. Experiments on the HumanML3D and 100STYLE datasets show state-of-the-art stylization results, while achieving improved stylization for unseen styles.

Stylized Text-to-Motion Generation via Hypernetwork-Driven Low-Rank Adaptation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理