LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation
作者: Ethan Chern, Zhulin Hu, Bohao Tang, Jiadi Su, Steffi Chern, Zhijie Deng, Pengfei Liu
分类: cs.CV
发布日期: 2025-12-29
💡 一句话要点
提出改进的On-Policy蒸馏方法,实现多模态交互式实时视频扩散。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 实时视频生成 扩散模型 On-Policy蒸馏 多模态交互 人机交互 头像生成 视频扩散模型 条件视频生成
📋 核心要点
- 现有扩散模型视频生成方法难以实时交互,主要瓶颈在于其迭代去噪过程和双向注意力机制。
- 论文提出改进的On-Policy蒸馏方法,关注条件输入质量和优化策略,加速多模态条件下的视频生成。
- 实验表明,该方法在保证视觉质量的同时,显著降低了推理成本和延迟,实现了实时多模态交互。
📝 摘要(中文)
本文旨在解决多模态交互式AI系统中实时视频生成的问题。现有基于扩散模型的视频生成方法由于其迭代去噪过程和双向注意力机制,难以实现实时交互。虽然蒸馏方法可以通过自回归建模和减少采样步骤来加速生成,但它们主要关注文本到视频的生成,导致人机交互不自然且效率低下。本文提出了一种改进的蒸馏方法,重点关注条件输入的质量以及On-Policy优化的初始化和调度,以实现基于文本、图像和音频等多模态上下文的实时交互式视频扩散。实验表明,该方法在多模态条件(音频、图像和文本)头像视频生成基准测试(HDTF、AVSpeech和CelebV-HQ)上,以20倍的推理成本和延迟降低,达到了与全步、双向基线模型相似甚至更高的视觉质量。此外,该模型集成了音频语言模型和长视频推理技术,构建了实时多模态交互式头像系统LiveTalk。系统级评估表明,LiveTalk在多轮视频连贯性和内容质量方面优于Sora2和Veo3等先进模型,并将响应延迟从1-2分钟降低到实时生成,从而实现了无缝的人机多模态交互。
🔬 方法详解
问题定义:论文旨在解决多模态交互式AI应用中,基于扩散模型的视频生成速度慢,无法满足实时交互需求的问题。现有方法,特别是Self Forcing等On-Policy蒸馏方法,在处理多模态条件时,容易出现视觉伪影,如闪烁、黑帧和质量下降等问题。
核心思路:论文的核心思路是通过改进On-Policy蒸馏的训练过程,提升蒸馏模型的生成质量和速度,使其能够在多模态条件下实现高质量的实时视频生成。关键在于优化条件输入的质量,并改进On-Policy优化的初始化和调度策略。
技术框架:整体框架包含一个预训练的扩散模型(教师模型)和一个蒸馏后的快速生成模型(学生模型)。蒸馏过程采用On-Policy方法,学生模型通过模仿教师模型的输出进行训练。LiveTalk系统进一步集成了音频语言模型和Anchor-Heavy Identity Sinks技术,以支持更复杂的交互场景。
关键创新:论文的关键创新在于针对多模态条件下的On-Policy蒸馏进行了改进,具体体现在以下几个方面:1) 更加注重多模态条件输入的质量,例如对音频、图像和文本特征进行更精细的处理和对齐。2) 改进了On-Policy优化的初始化策略,避免训练初期出现不稳定的情况。3) 优化了训练调度策略,例如调整学习率和损失函数的权重,以平衡生成速度和质量。
关键设计:论文中关于条件输入质量的提升可能涉及到对不同模态特征的预处理和对齐策略,例如使用更先进的音频特征提取器或图像编码器。On-Policy优化的初始化策略可能包括使用预训练的权重或采用特定的初始化方法。训练调度策略可能涉及到学习率的动态调整和损失函数的加权,例如对对抗损失或感知损失赋予更高的权重。
📊 实验亮点
实验结果表明,该方法在HDTF、AVSpeech和CelebV-HQ等数据集上,以20倍的推理成本和延迟降低,达到了与全步、双向基线模型相似甚至更高的视觉质量。LiveTalk系统在多轮交互测试中,视频连贯性和内容质量优于Sora2和Veo3等先进模型,并将响应延迟从分钟级降低到实时。
🎯 应用场景
该研究成果可广泛应用于虚拟助手、在线教育、远程会议、游戏娱乐等领域。通过实时生成与用户交互的虚拟形象,可以提升用户体验,增强人机交互的自然性和沉浸感。未来,该技术有望应用于更复杂的机器人和自动化系统中,实现更智能、更人性化的交互。
📄 摘要(原文)
Real-time video generation via diffusion is essential for building general-purpose multimodal interactive AI systems. However, the simultaneous denoising of all video frames with bidirectional attention via an iterative process in diffusion models prevents real-time interaction. While existing distillation methods can make the model autoregressive and reduce sampling steps to mitigate this, they focus primarily on text-to-video generation, leaving the human-AI interaction unnatural and less efficient. This paper targets real-time interactive video diffusion conditioned on a multimodal context, including text, image, and audio, to bridge the gap. Given the observation that the leading on-policy distillation approach Self Forcing encounters challenges (visual artifacts like flickering, black frames, and quality degradation) with multimodal conditioning, we investigate an improved distillation recipe with emphasis on the quality of condition inputs as well as the initialization and schedule for the on-policy optimization. On benchmarks for multimodal-conditioned (audio, image, and text) avatar video generation including HDTF, AVSpeech, and CelebV-HQ, our distilled model matches the visual quality of the full-step, bidirectional baselines of similar or larger size with 20x less inference cost and latency. Further, we integrate our model with audio language models and long-form video inference technique Anchor-Heavy Identity Sinks to build LiveTalk, a real-time multimodal interactive avatar system. System-level evaluation on our curated multi-turn interaction benchmark shows LiveTalk outperforms state-of-the-art models (Sora2, Veo3) in multi-turn video coherence and content quality, while reducing response latency from 1 to 2 minutes to real-time generation, enabling seamless human-AI multimodal interaction.