DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

📄 arXiv: 2602.23165v1 📥 PDF

作者: Yichen Peng, Jyun-Ting Song, Siyeol Jung, Ruofan Liu, Haiyang Liu, Xuangeng Chu, Ruicong Liu, Erwin Wu, Hideki Koike, Kris Kitani

分类: cs.CV

发布日期: 2026-02-26

备注: 13 pages, 9 figures


💡 一句话要点

DyaDiT:用于生成符合社会规范的双人对话手势的多模态扩散Transformer

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 对话手势生成 多模态融合 扩散模型 Transformer 人机交互

📋 核心要点

  1. 现有方法在生成对话手势时,忽略了对话双方的社交背景和相互影响,导致生成的动作不够自然和具有社交性。
  2. DyaDiT通过融合双人音频信息,并结合运动词典和可选的对话伙伴手势,生成更符合社交规范和上下文的动作。
  3. 实验结果表明,DyaDiT在客观指标和用户偏好上均优于现有方法,证明了其在生成符合社会规范的对话手势方面的有效性。

📝 摘要(中文)

为了实现与数字人自然、具有社交吸引力的互动,生成逼真的对话手势至关重要。然而,现有方法通常将单个音频流映射到单个说话者的动作,而没有考虑社交背景或建模两人对话中的相互动态。我们提出了DyaDiT,一种多模态扩散Transformer,它从双人音频信号生成符合上下文的人体动作。DyaDiT在Seamless Interaction Dataset上训练,它接收双人音频和可选的社交上下文tokens,以产生符合上下文的动作。它融合来自两个说话者的信息以捕捉交互动态,使用运动词典来编码运动先验,并且可以选择利用对话伙伴的手势来产生更具响应性的动作。我们在标准运动生成指标上评估DyaDiT,并进行定量用户研究,表明它不仅在客观指标上超越了现有方法,而且也受到用户的强烈偏好,突出了其鲁棒性和符合社会规范的运动生成。

🔬 方法详解

问题定义:现有方法在生成对话手势时,主要关注单个说话者的音频到动作的映射,忽略了对话双方之间的互动关系以及社交环境的影响。这导致生成的动作缺乏上下文感知能力,不够自然和具有社交性。现有方法难以捕捉双人对话中细微的互动模式,例如模仿、回应等,从而限制了数字人在社交互动中的表现力。

核心思路:DyaDiT的核心思路是利用多模态信息(双人音频、社交上下文、对话伙伴手势)来驱动动作生成,并采用扩散模型来提高生成动作的多样性和真实性。通过融合来自两个说话者的信息,DyaDiT能够捕捉对话中的互动动态,并生成更符合社交规范的动作。运动词典用于编码运动先验知识,从而引导生成更自然的动作。

技术框架:DyaDiT的整体架构是一个多模态扩散Transformer。它包含以下主要模块:1) 音频编码器:用于提取双人音频的特征表示。2) 社交上下文编码器:用于编码社交上下文信息(例如,对话主题、情感)。3) 运动词典:用于编码运动先验知识。4) 扩散Transformer:用于根据音频特征、社交上下文和运动先验生成动作序列。5) 可选的对话伙伴手势编码器:用于编码对话伙伴的手势信息,以生成更具响应性的动作。

关键创新:DyaDiT的关键创新在于:1) 多模态融合:有效地融合了双人音频、社交上下文和对话伙伴手势等多模态信息,从而生成更符合上下文的动作。2) 扩散模型:采用扩散模型来提高生成动作的多样性和真实性。3) 运动词典:利用运动词典来编码运动先验知识,从而引导生成更自然的动作。与现有方法相比,DyaDiT能够更好地捕捉对话中的互动动态,并生成更符合社交规范的动作。

关键设计:DyaDiT的关键设计包括:1) 使用Transformer架构来建模音频特征和动作序列之间的关系。2) 使用扩散模型来生成动作序列,其中噪声预测网络采用Transformer架构。3) 使用运动词典来编码运动先验知识,并通过注意力机制将其融入到扩散过程中。4) 设计了特定的损失函数来优化模型的性能,包括运动损失、对抗损失等。具体参数设置和网络结构细节未在摘要中详细描述,需要在论文全文中查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DyaDiT在标准运动生成指标上超越了现有方法,并在定量用户研究中获得了用户的强烈偏好。用户研究表明,DyaDiT生成的动作更自然、更符合社交规范,能够更好地表达对话者的情感和意图。这些结果证明了DyaDiT在生成符合社会规范的对话手势方面的有效性和优越性。具体的性能数据和提升幅度需要在论文全文中查找。

🎯 应用场景

DyaDiT可应用于虚拟助手、社交机器人、游戏角色等领域,提升数字人在社交互动中的表现力。通过生成更自然、符合社交规范的对话手势,DyaDiT可以增强用户与数字人之间的情感连接,提高用户体验。该研究对于开发更具人情味的AI系统具有重要意义,并有望推动人机交互领域的发展。

📄 摘要(原文)

Generating realistic conversational gestures are essential for achieving natural, socially engaging interactions with digital humans. However, existing methods typically map a single audio stream to a single speaker's motion, without considering social context or modeling the mutual dynamics between two people engaging in conversation. We present DyaDiT, a multi-modal diffusion transformer that generates contextually appropriate human motion from dyadic audio signals. Trained on Seamless Interaction Dataset, DyaDiT takes dyadic audio with optional social-context tokens to produce context-appropriate motion. It fuses information from both speakers to capture interaction dynamics, uses a motion dictionary to encode motion priors, and can optionally utilize the conversational partner's gestures to produce more responsive motion. We evaluate DyaDiT on standard motion generation metrics and conduct quantitative user studies, demonstrating that it not only surpasses existing methods on objective metrics but is also strongly preferred by users, highlighting its robustness and socially favorable motion generation. Code and models will be released upon acceptance.