B2F: End-to-End Body-to-Face Motion Generation with Style Reference
作者: Bokyung Jang, Eunho Jung, Yoonsang Lee
分类: cs.GR
发布日期: 2025-11-17
备注: Pacific Graphics 2025
DOI: 10.2312/pg.20251256
💡 一句话要点
提出B2F模型,通过风格参考实现端到端身体到面部动作生成
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction & Matching)
关键词: 面部动作生成 身体动作 风格迁移 解耦表示 虚拟角色
📋 核心要点
- 现有方法难以保证虚拟角色的面部表情与身体动作协调一致,导致感知上的不连贯。
- B2F模型通过解耦内容和风格,并利用对齐和一致性目标,生成与身体动作协调的面部动画。
- 实验表明,B2F能生成富有表现力且同步的面部动画,减轻感知失调,并具有良好的泛化能力。
📝 摘要(中文)
本文提出了一种名为B2F的模型,用于生成与身体动作对齐的面部动作。B2F以面部风格参考作为输入,生成反映该风格的面部动画,同时保持与相关身体动作的一致性。为了实现这一目标,B2F学习内容和风格的解耦表示,并使用基于对齐和一致性的目标函数。我们使用Gumbel-Softmax技巧学习离散潜在编码来表示风格,从而能够通过结构化的潜在表示生成多样化的表情。B2F以FLAME格式输出面部动作,使其与SMPL-X角色兼容,并通过专用转换模块支持ARKit风格的头像。评估结果表明,B2F能够生成富有表现力且引人入胜的面部动画,这些动画与身体动作和风格意图同步,同时减轻了因不匹配的线索而产生的感知失调,并在不同的角色和风格之间泛化。
🔬 方法详解
问题定义:论文旨在解决虚拟角色面部表情与身体动作不协调的问题。现有方法通常独立处理身体和面部动作,导致两者之间缺乏自然同步,从而降低了虚拟角色的真实感和表现力。这种不协调会引起用户的感知失调,影响用户体验。
核心思路:论文的核心思路是将面部动作的生成与身体动作关联起来,并引入风格参考来控制面部表情。通过学习内容(身体动作)和风格(面部表情)的解耦表示,模型可以根据给定的身体动作和风格参考,生成既与身体动作一致又具有特定风格的面部动画。
技术框架:B2F模型的整体架构包含以下主要模块:1) 身体动作编码器:提取身体动作的特征表示。2) 风格编码器:从面部风格参考中提取风格编码,使用Gumbel-Softmax技巧学习离散潜在编码。3) 面部动作生成器:结合身体动作特征和风格编码,生成FLAME格式的面部动作参数。4) 转换模块:将FLAME格式的面部动作转换为ARKit风格的头像动画参数。模型训练过程中,使用对齐损失和一致性损失来保证面部动作与身体动作的同步以及风格的一致性。
关键创新:该论文的关键创新在于:1) 提出了一个端到端的身体到面部动作生成框架,能够直接根据身体动作生成相应的面部动画。2) 引入了风格参考,允许用户控制生成面部动画的风格。3) 使用Gumbel-Softmax技巧学习离散潜在编码来表示风格,从而实现多样化的表情生成。4) 使用对齐损失和一致性损失来保证面部动作与身体动作的同步以及风格的一致性。
关键设计:风格编码器使用Gumbel-Softmax技巧学习K个离散的风格编码,温度参数τ控制采样过程的平滑度。对齐损失采用余弦相似度损失,鼓励生成的面部动作与身体动作在特征空间中对齐。一致性损失用于保证在给定相同身体动作和风格参考的情况下,模型生成一致的面部动画。FLAME模型用于参数化面部形状和表情。ARKit转换模块将FLAME参数转换为ARKit Blendshape系数。
📊 实验亮点
实验结果表明,B2F模型能够生成与身体动作同步且具有特定风格的面部动画。通过主观评价实验,证明了B2F生成的面部动画在表情丰富度、同步性和风格一致性方面优于现有方法。此外,实验还验证了B2F模型在不同角色和风格上的泛化能力。
🎯 应用场景
B2F模型可应用于虚拟现实、增强现实、游戏、动画制作等领域。它可以用于创建更逼真、更具表现力的虚拟角色,提升用户在虚拟环境中的沉浸感和交互体验。此外,该模型还可以用于个性化头像定制,根据用户的身体动作和风格偏好生成定制化的面部动画。
📄 摘要(原文)
Human motion naturally integrates body movements and facial expressions, forming a unified perception. If a virtual character's facial expression does not align well with its body movements, it may weaken the perception of the character as a cohesive whole. Motivated by this, we propose B2F, a model that generates facial motions aligned with body movements. B2F takes a facial style reference as input, generating facial animations that reflect the provided style while maintaining consistency with the associated body motion. To achieve this, B2F learns a disentangled representation of content and style, using alignment and consistency-based objectives. We represent style using discrete latent codes learned via the Gumbel-Softmax trick, enabling diverse expression generation with a structured latent representation. B2F outputs facial motion in the FLAME format, making it compatible with SMPL-X characters, and supports ARKit-style avatars through a dedicated conversion module. Our evaluations show that B2F generates expressive and engaging facial animations that synchronize with body movements and style intent, while mitigating perceptual dissonance from mismatched cues, and generalizing across diverse characters and styles.