SentiAvatar: Towards Expressive and Interactive Digital Humans

作者: Chuhao Jin, Rui Zhang, Qingzhe Gao, Haoyu Shi, Dayu Wu, Yichen Jiang, Yihan Wu, Ruihua Song

分类: cs.CV, cs.HC, cs.MM

发布日期: 2026-04-06

💡 一句话要点

SentiAvatar：构建富有表现力和交互性的数字人框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数字人 动作生成 多模态学习 语音驱动 运动捕捉 深度学习 人机交互

📋 核心要点

构建具有表现力和交互性的数字人面临数据匮乏、语义到动作映射困难以及运动-韵律同步等挑战。
SentiAvatar通过构建大规模多模态数据集、预训练运动基础模型和设计音频感知的plan-then-infill架构来解决这些问题。
实验表明，SentiAvatar在动作生成任务上取得了显著的性能提升，并在SuSuInterActs和BEATv2数据集上达到了SOTA水平。

📝 摘要（中文）

本文提出了SentiAvatar，一个用于构建富有表现力和交互性的3D数字人的框架，并用它创建了虚拟角色SuSu，该角色可以实时说话、做手势和表达情感。实现这样的系统仍然具有挑战性，因为它需要共同解决三个关键问题：缺乏大规模、高质量的多模态数据，鲁棒的语义到动作的映射，以及精细的帧级别运动-韵律同步。为了解决这些问题，首先，我们构建了SuSuInterActs（2.1万个片段，37小时），这是一个通过光学动作捕捉围绕单个角色捕获的对话语料库，其中包含同步的语音、全身运动和面部表情。其次，我们在20万+运动序列上预训练了一个运动基础模型，使其具备丰富的超出对话范围的动作先验知识。然后，我们提出了一种音频感知的plan-then-infill架构，该架构将句子级别的语义规划与帧级别的韵律驱动插值分离，从而使生成的运动在语义上适当且在节奏上与语音对齐。实验表明，SentiAvatar在SuSuInterActs（R@1 43.64%，几乎是最佳基线的2倍）和BEATv2（FGD 4.941，BC 8.078）上均实现了最先进的性能，并在0.3秒内生成6秒的输出，并支持无限的多轮流式传输。

🔬 方法详解

问题定义：论文旨在解决构建富有表现力和交互性的3D数字人的问题。现有方法在数据规模、语义理解和运动同步方面存在不足，导致生成的数字人动作不够自然、流畅，无法很好地与语音韵律对齐。

核心思路：论文的核心思路是利用大规模多模态数据进行预训练，学习丰富的动作先验知识，并设计一种解耦的架构，将语义规划和韵律驱动的运动生成分开处理，从而实现更自然、更具表现力的数字人动作。

技术框架：SentiAvatar框架主要包含以下几个部分：1) 大规模多模态数据集SuSuInterActs的构建，用于训练模型；2) 运动基础模型的预训练，学习通用的动作表示；3) 音频感知的plan-then-infill架构，用于生成与语音同步的动作。该架构首先进行句子级别的语义规划，然后根据语音韵律进行帧级别的运动插值。

关键创新：论文的关键创新在于：1) 构建了大规模的、高质量的多模态数据集SuSuInterActs，为数字人研究提供了宝贵的数据资源；2) 提出了音频感知的plan-then-infill架构，将语义规划和韵律驱动的运动生成解耦，从而更好地控制生成的动作；3) 利用预训练的运动基础模型，提升了模型的泛化能力和动作生成的质量。

关键设计：在plan-then-infill架构中，使用了Transformer网络进行语义规划，并使用扩散模型进行帧级别的运动插值。损失函数包括运动重建损失、韵律对齐损失等，用于约束生成的动作与语音的同步性。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

SentiAvatar在SuSuInterActs数据集上取得了显著的性能提升，R@1指标达到43.64%，几乎是最佳基线的2倍。在BEATv2数据集上，FGD指标为4.941，BC指标为8.078，均达到了SOTA水平。此外，SentiAvatar还具有高效的生成速度，可以在0.3秒内生成6秒的输出，并支持无限的多轮流式传输。

🎯 应用场景

SentiAvatar框架具有广泛的应用前景，例如虚拟助手、游戏角色、在线教育、社交娱乐等。它可以用于创建更具吸引力和互动性的数字人，提升用户体验，并为人机交互带来新的可能性。未来，该技术有望应用于更复杂的场景，例如虚拟现实和增强现实。

📄 摘要（原文）

We present SentiAvatar, a framework for building expressive interactive 3D digital humans, and use it to create SuSu, a virtual character that speaks, gestures, and emotes in real time. Achieving such a system remains challenging, as it requires jointly addressing three key problems: the lack of large-scale, high-quality multimodal data, robust semantic-to-motion mapping, and fine-grained frame-level motion-prosody synchronization. To solve these problems, first, we build SuSuInterActs (21K clips, 37 hours), a dialogue corpus captured via optical motion capture around a single character with synchronized speech, full-body motion, and facial expressions. Second, we pre-train a Motion Foundation Model on 200K+ motion sequences, equipping it with rich action priors that go well beyond the conversation. We then propose an audio-aware plan-then-infill architecture that decouples sentence-level semantic planning from frame-level prosody-driven interpolation, so that generated motions are both semantically appropriate and rhythmically aligned with speech. Experiments show that SentiAvatar achieves state-of-the-art on both SuSuInterActs (R@1 43.64%, nearly 2 times the best baseline) and BEATv2 (FGD 4.941, BC 8.078), producing 6s of output in 0.3s with unlimited multi-turn streaming. The source code, model, and dataset are available atthis https URL.

SentiAvatar: Towards Expressive and Interactive Digital Humans

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理