DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

作者: Maksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani

分类: cs.CV, cs.LG

发布日期: 2025-04-05

备注: Project page: https://havent-invented.github.io/DiTaiListener

💡 一句话要点

DiTaiListener：提出基于扩散模型的可控高保真听者视频生成方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 听者视频生成 扩散模型 多模态融合 时间一致性 视频编辑

📋 核心要点

现有听者视频生成方法依赖低维运动编码，限制了视觉保真度和表现力，难以生成自然细致的长时间互动视频。
DiTaiListener利用视频扩散模型，通过CTM-Adapter融合说话者语音和面部信息，生成连贯的听者响应短片段，并使用DiTaiListener-Edit进行过渡帧优化。
实验表明，DiTaiListener在照片真实感和运动表示方面均达到SOTA，用户研究也表明其在反馈、多样性和平滑度上显著优于其他方法。

📝 摘要（中文）

生成自然且细致的听者动作以进行长时间互动仍然是一个开放性问题。现有方法通常依赖于低维运动编码进行面部行为生成，然后进行照片级渲染，这限制了视觉保真度和表现力。为了解决这些挑战，我们引入了DiTaiListener，它由具有多模态条件的视频扩散模型提供支持。我们的方法首先使用DiTaiListener-Gen生成听者响应的短片段，该片段以说话者的语音和面部动作为条件。然后，它通过DiTaiListener-Edit细化过渡帧，以实现无缝过渡。具体来说，DiTaiListener-Gen通过引入因果时间多模态适配器（CTM-Adapter）来处理说话者的听觉和视觉线索，从而使Diffusion Transformer（DiT）适应听者头部肖像生成任务。CTM-Adapter以因果方式将说话者的输入集成到视频生成过程中，以确保时间上连贯的听者响应。对于长视频生成，我们引入了DiTaiListener-Edit，这是一种过渡细化视频到视频的扩散模型。该模型将视频片段融合为平滑且连续的视频，从而确保在合并DiTaiListener-Gen生成的短视频片段时，面部表情和图像质量的时间一致性。在定量方面，DiTaiListener在基准数据集上实现了最先进的性能，在照片真实感（RealTalk上的FID +73.8%）和运动表示（VICO上的FD指标+6.1%）空间中均是如此。用户研究证实了DiTaiListener的卓越性能，该模型在反馈、多样性和平滑度方面明显优于竞争对手。

🔬 方法详解

问题定义：论文旨在解决高质量、长时间听者视频生成的问题。现有方法的痛点在于，它们通常依赖于低维运动编码，导致生成的听者视频在视觉保真度和表情丰富度上存在不足，难以捕捉细微的面部变化和自然的头部运动，并且难以保证长时间视频的时间一致性。

核心思路：论文的核心思路是利用视频扩散模型强大的生成能力，并结合说话者的语音和面部动作等多模态信息作为条件，生成高质量的听者响应视频。通过因果时间多模态适配器（CTM-Adapter）保证生成视频的时间连贯性，并使用视频到视频的扩散模型进行过渡帧优化，从而实现长时间听者视频的平滑生成。

技术框架：DiTaiListener包含两个主要模块：DiTaiListener-Gen和DiTaiListener-Edit。DiTaiListener-Gen负责生成听者响应的短视频片段，它以说话者的语音和面部动作为条件，利用Diffusion Transformer (DiT)生成听者头部肖像。CTM-Adapter负责将说话者的多模态信息以因果方式融入到视频生成过程中。DiTaiListener-Edit则是一个视频到视频的扩散模型，用于优化短视频片段之间的过渡帧，保证长时间视频的时间一致性和视觉质量。

关键创新：论文的关键创新在于提出了CTM-Adapter，它能够以因果方式将说话者的语音和面部动作等多模态信息融入到视频生成过程中，从而保证生成的听者响应在时间上与说话者的行为保持一致。此外，使用DiTaiListener-Edit进行过渡帧优化，进一步提升了长时间视频的平滑度和视觉质量。与现有方法相比，DiTaiListener能够生成更高质量、更自然的听者视频。

关键设计：CTM-Adapter的设计是关键。它将说话者的听觉和视觉特征嵌入到DiT的扩散过程中，并且采用因果结构，确保模型只利用过去的信息来预测未来的帧，从而保证时间一致性。DiTaiListener-Edit使用视频到视频的扩散模型，通过调整噪声水平和引导强度等参数，控制过渡帧的生成质量和与前后视频片段的融合程度。损失函数方面，可能使用了L1损失、感知损失和对抗损失等，以保证生成视频的视觉质量和真实感（具体损失函数细节未知）。

🖼️ 关键图片

📊 实验亮点

DiTaiListener在RealTalk数据集上实现了73.8%的FID提升，在VICO数据集上实现了6.1%的FD指标提升，表明其在照片真实感和运动表示方面均优于现有方法。用户研究也表明，DiTaiListener在反馈、多样性和平滑度方面显著优于竞争对手，用户更倾向于选择DiTaiListener生成的听者视频。

🎯 应用场景

DiTaiListener在虚拟会议、在线教育、游戏开发等领域具有广泛的应用前景。它可以用于生成更自然、更具表现力的虚拟角色，提升用户在虚拟环境中的沉浸感和互动体验。此外，该技术还可以应用于人机交互领域，例如，开发能够理解人类情感并做出适当反应的智能助手。

📄 摘要（原文）

Generating naturalistic and nuanced listener motions for extended interactions remains an open problem. Existing methods often rely on low-dimensional motion codes for facial behavior generation followed by photorealistic rendering, limiting both visual fidelity and expressive richness. To address these challenges, we introduce DiTaiListener, powered by a video diffusion model with multimodal conditions. Our approach first generates short segments of listener responses conditioned on the speaker's speech and facial motions with DiTaiListener-Gen. It then refines the transitional frames via DiTaiListener-Edit for a seamless transition. Specifically, DiTaiListener-Gen adapts a Diffusion Transformer (DiT) for the task of listener head portrait generation by introducing a Causal Temporal Multimodal Adapter (CTM-Adapter) to process speakers' auditory and visual cues. CTM-Adapter integrates speakers' input in a causal manner into the video generation process to ensure temporally coherent listener responses. For long-form video generation, we introduce DiTaiListener-Edit, a transition refinement video-to-video diffusion model. The model fuses video segments into smooth and continuous videos, ensuring temporal consistency in facial expressions and image quality when merging short video segments produced by DiTaiListener-Gen. Quantitatively, DiTaiListener achieves the state-of-the-art performance on benchmark datasets in both photorealism (+73.8% in FID on RealTalk) and motion representation (+6.1% in FD metric on VICO) spaces. User studies confirm the superior performance of DiTaiListener, with the model being the clear preference in terms of feedback, diversity, and smoothness, outperforming competitors by a significant margin.

DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理