DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

📄 arXiv: 2602.23165 📥 PDF

作者: Yichen Peng, Jyun-Ting Song, Siyeol Jung, Ruofan Liu, Haiyang Liu, Xuangeng Chu, Ruicong Liu, Erwin Wu, Hideki Koike, Kris Kitani

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

DyaDiT:用于生成符合社会规范的双人对话手势的多模态扩散Transformer

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 对话手势生成 多模态融合 扩散模型 Transformer 社交互动 数字人 运动字典

📋 核心要点

  1. 现有方法通常将单个音频流映射到单个说话者的动作,忽略了社交背景和双人对话中的互动动态。
  2. DyaDiT通过融合双人音频信息,利用运动字典编码运动先验,并考虑对话伙伴的手势,生成更符合语境和更具响应性的动作。
  3. 实验结果表明,DyaDiT在客观指标上优于现有方法,并且在用户偏好度上也显著提升,证明了其有效性。

📝 摘要(中文)

本文提出DyaDiT,一个多模态扩散Transformer,用于从双人对话音频信号中生成符合上下文语境的人体动作。该模型在Seamless Interaction Dataset上训练,以双人音频和可选的社交上下文token作为输入,生成符合语境的动作。DyaDiT融合来自两位说话者的信息以捕捉交互动态,使用运动字典编码运动先验,并可选择利用对话伙伴的手势来产生更具响应性的动作。在标准运动生成指标上评估DyaDiT,并进行定量用户研究,结果表明它不仅在客观指标上超越了现有方法,而且更受用户青睐,突显了其鲁棒性和生成符合社会规范的动作的能力。代码和模型将在接受后发布。

🔬 方法详解

问题定义:现有方法在生成对话手势时,主要关注单人音频到单人动作的映射,忽略了双人对话的社交互动背景,以及对话双方动作之间的相互影响。这导致生成的动作缺乏社交性和自然性,难以满足数字人交互的需求。

核心思路:DyaDiT的核心思路是利用多模态扩散Transformer,将双人音频、社交上下文和对话伙伴的动作信息融合起来,学习双人对话中动作的生成模式。通过扩散模型强大的生成能力,以及Transformer对长程依赖关系的建模能力,生成更符合社交规范和更具响应性的动作。

技术框架:DyaDiT的整体框架包括以下几个主要模块:1) 音频编码器:用于提取双人音频的特征表示。2) 社交上下文编码器:用于编码社交上下文信息,例如对话场景、参与者关系等。3) 运动字典:用于编码运动先验知识,帮助生成更自然的动作。4) 扩散Transformer:作为核心生成模块,融合来自音频、社交上下文和运动字典的信息,逐步生成目标动作。5) 可选的伙伴动作编码器:用于编码对话伙伴的动作信息,以生成更具响应性的动作。

关键创新:DyaDiT的关键创新在于:1) 多模态融合:有效地融合了双人音频、社交上下文和对话伙伴的动作信息,从而更好地捕捉了双人对话的互动动态。2) 扩散Transformer:利用扩散模型强大的生成能力,生成更自然、更符合社交规范的动作。3) 运动字典:通过编码运动先验知识,提高了生成动作的质量和多样性。

关键设计:DyaDiT的关键设计包括:1) 使用Transformer作为扩散模型的核心架构,以建模长程依赖关系。2) 设计了专门的损失函数,以鼓励生成符合社交规范的动作。3) 采用了运动字典来编码运动先验知识,并使用对比学习方法来训练运动字典。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DyaDiT在标准运动生成指标上超越了现有方法,并在用户偏好度上也显著提升。具体而言,用户研究表明,用户更喜欢DyaDiT生成的动作,认为其更自然、更符合社交规范。这表明DyaDiT不仅在客观指标上表现出色,而且在主观感受上也更胜一筹,证明了其在生成符合社会规范的对话手势方面的有效性。

🎯 应用场景

DyaDiT可应用于数字人交互、虚拟现实、游戏等领域,生成更自然、更符合社交规范的对话手势,提升用户体验。例如,在虚拟助手应用中,DyaDiT可以生成更具表现力的手势,使虚拟助手更具人情味。在在线教育中,DyaDiT可以生成更生动的教师动作,提高学生的学习兴趣。未来,DyaDiT可以进一步扩展到更复杂的社交场景,例如多人对话、群体互动等。

📄 摘要(原文)

Generating realistic conversational gestures are essential for achieving natural, socially engaging interactions with digital humans. However, existing methods typically map a single audio stream to a single speaker's motion, without considering social context or modeling the mutual dynamics between two people engaging in conversation. We present DyaDiT, a multi-modal diffusion transformer that generates contextually appropriate human motion from dyadic audio signals. Trained on Seamless Interaction Dataset, DyaDiT takes dyadic audio with optional social-context tokens to produce context-appropriate motion. It fuses information from both speakers to capture interaction dynamics, uses a motion dictionary to encode motion priors, and can optionally utilize the conversational partner's gestures to produce more responsive motion. We evaluate DyaDiT on standard motion generation metrics and conduct quantitative user studies, demonstrating that it not only surpasses existing methods on objective metrics but is also strongly preferred by users, highlighting its robustness and socially favorable motion generation. Code and models will be released upon acceptance.