StyGazeTalk: Learning Stylized Generation of Gaze and Head Dynamics

📄 arXiv: 2509.17168v2 📥 PDF

作者: Chengwei Shi, Chong Cao

分类: cs.GR, cs.CV

发布日期: 2025-09-21 (更新: 2026-01-01)

备注: arXiv submission


💡 一句话要点

StyGazeTalk:提出风格化视线与头部动态生成框架,增强3D人脸交互真实感

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视线生成 头部动态 风格化 多模态融合 3D人脸 人机交互 数据集 HAGE

📋 核心要点

  1. 现有方法在3D人脸生成中,通常孤立地建模面部组件,缺乏对视线和头部运动风格化建模的能力。
  2. StyGazeTalk通过多模态框架,学习生成具有可控风格的同步视线和头部动态,实现更自然的交互。
  3. 论文构建了高精度多模态数据集HAGE,实验结果表明该方法能生成连贯且风格一致的视线-头部运动。

📝 摘要(中文)

本文提出StyGazeTalk,一个多模态框架,用于合成具有可控风格的同步视线-头部动态。现有工作通常孤立地建模面部组件,并且缺乏生成个性化、风格感知视线行为的机制。为了支持高保真训练,我们构建了HAGE,一个高精度多模态数据集,包含眼动追踪数据、音频、头部姿势和3D面部参数。实验表明,我们的方法能够生成时间上连贯、风格上一致的视线-头部运动,从而增强3D人脸生成中的真实感。

🔬 方法详解

问题定义:现有3D人脸生成方法通常独立处理面部组件,忽略了视线和头部运动之间的关联性,并且缺乏对风格化视线行为的建模能力。这导致生成的3D人脸在交互时缺乏真实感和个性化表达。

核心思路:StyGazeTalk的核心在于利用多模态信息(音频、头部姿势、3D面部参数、眼动追踪数据)来学习视线和头部运动之间的同步关系,并引入风格控制机制,从而生成具有特定风格的视线-头部动态。这种方法旨在弥补现有方法在建模视线行为和风格化方面的不足。

技术框架:StyGazeTalk框架主要包含以下几个模块:1) 多模态编码器:用于提取音频、头部姿势和3D面部参数的特征表示。2) 视线-头部动态生成器:基于编码后的特征,生成同步的视线和头部运动。3) 风格控制模块:允许用户指定所需的视线风格,并将其融入到生成过程中。整个流程通过端到端的方式进行训练,以优化生成视线-头部动态的质量和风格一致性。

关键创新:该论文的关键创新在于:1) 提出了一个多模态框架,能够同时建模视线和头部运动,并考虑它们之间的同步关系。2) 引入了风格控制机制,允许用户定制生成的视线行为。3) 构建了高质量的多模态数据集HAGE,为高保真训练提供了数据支持。

关键设计:在多模态编码器中,使用了Transformer网络来捕捉不同模态之间的依赖关系。视线-头部动态生成器采用了循环神经网络(RNN)结构,以建模时间序列数据。风格控制模块通过引入风格嵌入向量来实现,该向量可以从外部指定或从数据中学习。损失函数包括重构损失和风格损失,用于确保生成的视线-头部动态的准确性和风格一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,StyGazeTalk能够生成时间上连贯、风格上一致的视线-头部运动。通过与现有方法进行对比,StyGazeTalk在主观和客观指标上均取得了显著提升。例如,用户评价显示,StyGazeTalk生成的3D人脸在交互时更具真实感和表现力。此外,HAGE数据集的发布也为相关研究提供了宝贵的数据资源。

🎯 应用场景

StyGazeTalk具有广泛的应用前景,包括:1) 增强3D媒体的表达能力,例如虚拟化身和数字角色。2) 改善人机交互体验,使虚拟助手和机器人能够更自然地与人类进行交流。3) 提升沉浸式通信的真实感,例如虚拟现实和增强现实应用。未来,该技术有望应用于游戏、教育、医疗等领域。

📄 摘要(原文)

Gaze and head movements play a central role in expressive 3D media, human-agent interaction, and immersive communication. Existing works often model facial components in isolation and lack mechanisms for generating personalized, style-aware gaze behaviors. We propose StyGazeTalk, a multimodal framework that synthesizes synchronized gaze-head dynamics with controllable styles. To support high-fidelity training, we construct HAGE, a high-precision multimodal dataset containing eye-tracking data, audio, head pose, and 3D facial parameters. Experiments show that our method produces temporally coherent, style-consistent gaze-head motions, enhancing realism in 3D face generation.