InterDyad: Interactive Dyadic Speech-to-Video Generation by Querying Intermediate Visual Guidance

📄 arXiv: 2603.23132v1 📥 PDF

作者: Dongwei Pan, Longwei Guo, Jiazhi Guan, Luying Huang, Yiding Li, Haojie Liu, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou

分类: cs.CV

发布日期: 2026-03-24

备注: Project Page: https://interdyad.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出InterDyad框架,通过查询中间视觉引导实现交互式双人语音到视频生成。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音到视频生成 双人互动 多模态学习 运动引导 大型语言模型

📋 核心要点

  1. 现有语音到视频合成方法难以捕捉双人互动中的个体依赖和细粒度反应控制。
  2. InterDyad框架通过查询结构化运动引导,并利用MLLM提取语言意图,实现自然交互动态合成。
  3. 实验表明,InterDyad在生成自然和上下文相关的双人互动方面显著优于现有方法。

📝 摘要(中文)

本文提出InterDyad框架,旨在解决现有语音到视频合成方法在捕捉跨个体依赖性和提供对双人互动场景中反应行为的细粒度控制方面的不足。InterDyad通过查询结构化运动引导来实现自然交互动态合成。具体而言,首先设计了一个交互性注入器,该注入器基于从参考视频中提取的与身份无关的运动先验来实现视频重演。在此基础上,引入了一种基于MetaQuery的模态对齐机制,以弥合会话音频和这些运动先验之间的差距。通过利用多模态大型语言模型(MLLM),该框架能够从音频中提取语言意图,从而控制反应的精确时间和适当性。为了进一步提高极端头部姿势下的唇形同步质量,提出了角色感知双人高斯引导(RoDG),以增强唇形同步和空间一致性。最后,引入了一个专门的评估套件,其中包含新设计的指标来量化双人互动。综合实验表明,InterDyad在生成自然且上下文相关的双人互动方面显著优于最先进的方法。

🔬 方法详解

问题定义:现有语音到视频合成方法在双人互动场景中,难以捕捉个体之间的依赖关系,无法对反应行为进行细粒度控制。这导致合成的视频缺乏自然性和上下文关联性,难以模拟真实的人际互动。

核心思路:InterDyad的核心思路是通过引入中间视觉引导,即从参考视频中提取的运动先验,来指导视频生成过程。利用多模态大型语言模型(MLLM)理解音频中的语言意图,并将其映射到相应的运动先验上,从而控制生成视频中人物的反应行为。这种方法将语音信息与视觉信息相结合,提高了生成视频的自然性和真实感。

技术框架:InterDyad框架主要包含以下几个模块:1) 交互性注入器:基于参考视频提取与身份无关的运动先验,实现视频重演。2) MetaQuery模态对齐机制:弥合会话音频和运动先验之间的差距,将音频信息映射到相应的运动先验上。3) 多模态大型语言模型(MLLM):从音频中提取语言意图,控制反应的精确时间和适当性。4) 角色感知双人高斯引导(RoDG):增强唇形同步和空间一致性,尤其是在极端头部姿势下。

关键创新:InterDyad的关键创新在于:1) 引入了中间视觉引导,通过查询结构化运动先验来指导视频生成,提高了生成视频的自然性和真实感。2) 利用多模态大型语言模型(MLLM)理解音频中的语言意图,并将其映射到相应的运动先验上,实现了对反应行为的细粒度控制。3) 提出了角色感知双人高斯引导(RoDG),增强了唇形同步和空间一致性。

关键设计:MetaQuery模态对齐机制的具体实现细节(例如Query、Key、Value的设计),MLLM如何进行微调以适应语音到视频生成任务,RoDG中高斯分布的参数设置,以及损失函数的设计(例如,如何平衡唇形同步损失、运动损失和身份保持损失)等细节未知,论文中可能没有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InterDyad在生成自然和上下文相关的双人互动方面显著优于现有方法。具体性能数据和对比基线未知,但摘要中明确指出InterDyad在实验中表现优异,证明了其有效性。该框架通过引入中间视觉引导和利用多模态大型语言模型,实现了对反应行为的细粒度控制,从而提高了生成视频的质量。

🎯 应用场景

InterDyad框架具有广泛的应用前景,例如虚拟会议、在线教育、游戏开发、电影制作等领域。它可以用于生成自然且上下文相关的双人互动视频,提高用户体验和互动性。此外,该框架还可以用于研究人际互动行为,为心理学、社会学等领域提供新的研究工具。

📄 摘要(原文)

Despite progress in speech-to-video synthesis, existing methods often struggle to capture cross-individual dependencies and provide fine-grained control over reactive behaviors in dyadic settings. To address these challenges, we propose InterDyad, a framework that enables naturalistic interactive dynamics synthesis via querying structural motion guidance. Specifically, we first design an Interactivity Injector that achieves video reenactment based on identity-agnostic motion priors extracted from reference videos. Building upon this, we introduce a MetaQuery-based modality alignment mechanism to bridge the gap between conversational audio and these motion priors. By leveraging a Multimodal Large Language Model (MLLM), our framework is able to distill linguistic intent from audio to dictate the precise timing and appropriateness of reactions. To further improve lip-sync quality under extreme head poses, we propose Role-aware Dyadic Gaussian Guidance (RoDG) for enhanced lip-synchronization and spatial consistency. Finally, we introduce a dedicated evaluation suite with novelly designed metrics to quantify dyadic interaction. Comprehensive experiments demonstrate that InterDyad significantly outperforms state-of-the-art methods in producing natural and contextually grounded two-person interactions. Please refer to our project page for demo videos: https://interdyad.github.io/.