PersonaGest: Personalized Co-Speech Gesture Generation with Semantic-Guided Hierarchical Motion Representation

📄 arXiv: 2605.07252v1 📥 PDF

作者: Junchuan Zhao, Qifan Liang, Ye Wang

分类: cs.GR, cs.CV, cs.MM

发布日期: 2026-05-08

备注: 26 pages, 10 figures, 12 tables

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出PersonaGest框架,通过语义引导的分层运动表示实现个性化语音驱动手势生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 手势生成 语音驱动动画 向量量化变分自编码器 对比学习 风格迁移 多模态生成

📋 核心要点

  1. 现有VQ-VAE方法难以将语义结构融入运动表示,且无法有效解耦内容与风格,导致生成手势的语义连贯性不足及个性化特征缺失。
  2. 提出PersonaGest框架,通过语义感知运动码本(SMoC)和对比学习实现内容与风格的显式解耦,并采用两阶段生成策略。
  3. 实验证明该方法在客观指标及用户感知评估中均优于现有基线,在保持语义连贯的同时,实现了对参考动作风格的高保真迁移。

📝 摘要(中文)

语音驱动手势生成旨在合成与语音语义连贯且符合用户特定风格的逼真身体动作。现有的基于VQ-VAE的方法虽然提升了生成质量,但未能将语义结构编码到运动表示中,也无法显式地解耦内容与风格,从而限制了语义连贯性和个性化保真度。本文提出了PersonaGest,一个两阶段框架以解决上述局限。第一阶段,语义引导的RVQ-VAE在残差量化结构内解耦运动内容与手势风格,其中语义感知运动码本(SMoC)按手势语义组织内容码本,并通过对比学习强化内容与风格的分离。第二阶段,掩码生成Transformer通过语义感知重掩码策略生成内容标记,随后级联风格残差Transformer,以参考运动提示作为条件进行风格控制。实验表明,该方法在客观指标和主观评估中均达到SOTA水平,并展现出极强的风格一致性。

🔬 方法详解

问题定义:现有手势生成模型在处理“语义一致性”与“风格个性化”时存在耦合问题。VQ-VAE虽然能压缩动作空间,但缺乏对语义结构的显式建模,导致生成的动作往往与语音内容脱节,且难以从参考视频中提取并复刻特定的个人手势风格。

核心思路:引入分层运动表示,将动作分解为“语义内容”与“个人风格”。通过语义引导的量化机制,强制模型学习具有语义意义的码本,并利用对比学习确保风格特征在潜在空间中独立于内容特征。

技术框架:框架分为两阶段。第一阶段是语义引导的RVQ-VAE,负责构建解耦的潜在空间;第二阶段采用生成式Transformer,首先通过语义感知重掩码生成内容Token,随后利用级联的风格残差Transformer(Style Residual Transformers)注入参考动作的风格信息。

关键创新:核心在于SMoC(语义感知运动码本),它改变了传统码本随机分布的特性,使码本索引与手势语义对齐;同时,级联风格残差Transformer允许在不改变内容的前提下,通过参考提示灵活调整动作风格。

关键设计:采用对比学习损失函数强制解耦;在生成阶段引入语义感知重掩码策略,确保Transformer在生成过程中始终关注语音的语义特征;风格控制通过条件化残差连接实现,确保了风格迁移的精确度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PersonaGest在多个基准数据集上表现优异,客观指标(如FID、Beat Alignment Score)显著优于现有主流方法。用户感知研究显示,该模型生成的动作在语义连贯性上提升明显,且在风格迁移任务中,生成的动作与参考视频的风格相似度极高,展现了极强的鲁棒性与个性化保真度。

🎯 应用场景

该技术在虚拟数字人、交互式AI助手及游戏动画制作中具有广阔应用前景。它能使虚拟角色根据不同用户的说话习惯生成个性化手势,显著提升人机交互的自然度与沉浸感,并大幅降低动画师手动调节动作风格的成本。

📄 摘要(原文)

Co-speech gesture generation aims to synthesize realistic body movements that are semantically coherent with speech and faithful to a user-specified gestural style. Existing VQ-VAE based co-speech gesture generation methods improve generation quality but fail to encode semantic structure into the motion representation or explicitly disentangle content from style, limiting both semantic coherence and personalization fidelity. We present PersonaGest, a two-stage framework addressing both limitations. In the first stage, a semantic-guided RVQ-VAE disentangles motion content and gestural style within the residual quantization structure, where a Semantic-Aware Motion Codebook (SMoC) organizes the content codebook by gesture semantics and contrastive learning further enforces content-style separation. In the second stage, a Masked Generative Transformer generates content tokens via a semantic-aware re-masking strategy, followed by a cascade of Style Residual Transformers conditioned on a reference motion prompt for style control. Extensive experiments demonstrate state-of-the-art performance on objective metrics and perceptual user studies, with strong style consistency to the reference prompt. Our project page with demo videos is available at https://danny-nus.github.io/PersonaGest/