SentiAvatar: Towards Expressive and Interactive Digital Humans

📄 arXiv: 2604.02908 📥 PDF

作者: Chuhao Jin, Rui Zhang, Qingzhe Gao, Haoyu Shi, Dayu Wu, Yichen Jiang, Yihan Wu, Ruihua Song

分类: cs.CV, cs.HC, cs.MM

发布日期: 2026-04-06


💡 一句话要点

SentiAvatar:构建富有表现力和交互性的数字人框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数字人 动作生成 多模态学习 语音驱动 运动捕捉 深度学习 人机交互

📋 核心要点

  1. 构建具有表现力和交互性的数字人面临数据匮乏、语义到动作映射困难以及运动-韵律同步等挑战。
  2. SentiAvatar通过构建大规模多模态数据集、预训练运动基础模型和设计音频感知的plan-then-infill架构来解决这些问题。
  3. 实验表明,SentiAvatar在动作生成任务上取得了显著的性能提升,并在SuSuInterActs和BEATv2数据集上达到了SOTA水平。

📝 摘要(中文)

本文提出了SentiAvatar,一个用于构建富有表现力和交互性的3D数字人的框架,并用它创建了虚拟角色SuSu,该角色可以实时说话、做手势和表达情感。实现这样的系统仍然具有挑战性,因为它需要共同解决三个关键问题:缺乏大规模、高质量的多模态数据,鲁棒的语义到动作的映射,以及精细的帧级别运动-韵律同步。为了解决这些问题,首先,我们构建了SuSuInterActs(2.1万个片段,37小时),这是一个通过光学动作捕捉围绕单个角色捕获的对话语料库,其中包含同步的语音、全身运动和面部表情。其次,我们在20万+运动序列上预训练了一个运动基础模型,使其具备丰富的超出对话范围的动作先验知识。然后,我们提出了一种音频感知的plan-then-infill架构,该架构将句子级别的语义规划与帧级别的韵律驱动插值分离,从而使生成的运动在语义上适当且在节奏上与语音对齐。实验表明,SentiAvatar在SuSuInterActs(R@1 43.64%,几乎是最佳基线的2倍)和BEATv2(FGD 4.941,BC 8.078)上均实现了最先进的性能,并在0.3秒内生成6秒的输出,并支持无限的多轮流式传输。

🔬 方法详解

问题定义:论文旨在解决构建富有表现力和交互性的3D数字人的问题。现有方法在数据规模、语义理解和运动同步方面存在不足,导致生成的数字人动作不够自然、流畅,无法很好地与语音韵律对齐。

核心思路:论文的核心思路是利用大规模多模态数据进行预训练,学习丰富的动作先验知识,并设计一种解耦的架构,将语义规划和韵律驱动的运动生成分开处理,从而实现更自然、更具表现力的数字人动作。

技术框架:SentiAvatar框架主要包含以下几个部分:1) 大规模多模态数据集SuSuInterActs的构建,用于训练模型;2) 运动基础模型的预训练,学习通用的动作表示;3) 音频感知的plan-then-infill架构,用于生成与语音同步的动作。该架构首先进行句子级别的语义规划,然后根据语音韵律进行帧级别的运动插值。

关键创新:论文的关键创新在于:1) 构建了大规模的、高质量的多模态数据集SuSuInterActs,为数字人研究提供了宝贵的数据资源;2) 提出了音频感知的plan-then-infill架构,将语义规划和韵律驱动的运动生成解耦,从而更好地控制生成的动作;3) 利用预训练的运动基础模型,提升了模型的泛化能力和动作生成的质量。

关键设计:在plan-then-infill架构中,使用了Transformer网络进行语义规划,并使用扩散模型进行帧级别的运动插值。损失函数包括运动重建损失、韵律对齐损失等,用于约束生成的动作与语音的同步性。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SentiAvatar在SuSuInterActs数据集上取得了显著的性能提升,R@1指标达到43.64%,几乎是最佳基线的2倍。在BEATv2数据集上,FGD指标为4.941,BC指标为8.078,均达到了SOTA水平。此外,SentiAvatar还具有高效的生成速度,可以在0.3秒内生成6秒的输出,并支持无限的多轮流式传输。

🎯 应用场景

SentiAvatar框架具有广泛的应用前景,例如虚拟助手、游戏角色、在线教育、社交娱乐等。它可以用于创建更具吸引力和互动性的数字人,提升用户体验,并为人机交互带来新的可能性。未来,该技术有望应用于更复杂的场景,例如虚拟现实和增强现实。

📄 摘要(原文)

We present SentiAvatar, a framework for building expressive interactive 3D digital humans, and use it to create SuSu, a virtual character that speaks, gestures, and emotes in real time. Achieving such a system remains challenging, as it requires jointly addressing three key problems: the lack of large-scale, high-quality multimodal data, robust semantic-to-motion mapping, and fine-grained frame-level motion-prosody synchronization. To solve these problems, first, we build SuSuInterActs (21K clips, 37 hours), a dialogue corpus captured via optical motion capture around a single character with synchronized speech, full-body motion, and facial expressions. Second, we pre-train a Motion Foundation Model on 200K+ motion sequences, equipping it with rich action priors that go well beyond the conversation. We then propose an audio-aware plan-then-infill architecture that decouples sentence-level semantic planning from frame-level prosody-driven interpolation, so that generated motions are both semantically appropriate and rhythmically aligned with speech. Experiments show that SentiAvatar achieves state-of-the-art on both SuSuInterActs (R@1 43.64%, nearly 2 times the best baseline) and BEATv2 (FGD 4.941, BC 8.078), producing 6s of output in 0.3s with unlimited multi-turn streaming. The source code, model, and dataset are available atthis https URL.