Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis
作者: Yikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, Xiaohan Li, Ming Chen, Xiaoqiang Liu, Yu-Shen Liu, Pengfei Wan
分类: cs.CV
发布日期: 2025-09-11 (更新: 2025-09-17)
备注: Technical Report. Project Page: https://klingavatar.github.io/
💡 一句话要点
Kling-Avatar:提出多模态指令驱动的级联式长时程虚拟形象动画合成框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 虚拟形象生成 多模态指令理解 长时程视频生成 大型语言模型 级联框架
📋 核心要点
- 现有音频驱动的虚拟形象生成方法缺乏对指令所蕴含的交流目的的建模,导致叙事连贯性和角色表现力不足。
- Kling-Avatar提出一种级联框架,利用多模态大型语言模型(MLLM)理解指令,生成蓝图视频,并指导后续的肖像生成。
- 实验表明,Kling-Avatar能够生成高分辨率、高帧率、长时程的视频,并在多个指标上优于现有方法,成为新的基准。
📝 摘要(中文)
本文提出Kling-Avatar,一种新颖的级联框架,旨在统一多模态指令理解与照片级真实感的肖像生成。现有方法仅将指令条件反射视为由声音或视觉线索驱动的低级跟踪,忽略了指令所传达的交流目的,从而损害了叙事连贯性和角色表现力。Kling-Avatar采用两阶段流程:首先,设计一个多模态大型语言模型(MLLM)导演,根据不同的指令信号生成蓝图视频,从而控制角色运动和情绪等高级语义。其次,在蓝图关键帧的指导下,使用首尾帧策略并行生成多个子片段。这种全局到局部的框架保留了精细的细节,同时忠实地编码了多模态指令背后的高级意图。并行架构还能够快速稳定地生成长时程视频,适用于数字人直播和视频博客等实际应用。构建了一个包含375个精选样本的基准,涵盖了不同的指令和具有挑战性的场景,以全面评估该方法。实验结果表明,Kling-Avatar能够生成生动、流畅、长时程的视频,分辨率高达1080p,帧率高达48fps,在唇音同步准确性、情感和动态表现力、指令可控性、身份保持和跨领域泛化方面均表现出卓越的性能。这些结果确立了Kling-Avatar作为语义驱动、高保真音频驱动虚拟形象合成的新基准。
🔬 方法详解
问题定义:现有音频驱动的虚拟形象生成方法主要关注音频和视觉的低级跟踪,忽略了指令中的高级语义信息,例如角色的情感和意图。这导致生成的虚拟形象动画缺乏叙事性和表现力,难以满足数字人直播和视频博客等应用的需求。现有方法难以保证长时程视频生成的一致性和流畅性。
核心思路:Kling-Avatar的核心思路是将多模态指令理解与虚拟形象生成解耦,通过一个多模态大型语言模型(MLLM)来理解指令,并生成一个包含高级语义信息的蓝图视频。然后,利用这个蓝图视频来指导后续的肖像生成,从而保证生成的虚拟形象动画能够准确地反映指令的意图。
技术框架:Kling-Avatar采用两阶段的级联框架。第一阶段是MLLM导演阶段,该阶段利用多模态大型语言模型(MLLM)理解输入的指令(包括文本、音频等),并生成一个蓝图视频,该视频包含角色运动、情感等高级语义信息。第二阶段是肖像生成阶段,该阶段根据蓝图视频的关键帧,并行生成多个子片段,然后将这些子片段拼接成完整的视频。该阶段采用首尾帧策略,以保证视频的流畅性。
关键创新:Kling-Avatar的关键创新在于引入了多模态大型语言模型(MLLM)来理解指令,并将指令理解与虚拟形象生成解耦。这种方法能够更好地捕捉指令中的高级语义信息,从而生成更具表现力和叙事性的虚拟形象动画。此外,并行生成子片段的策略能够提高生成速度,并保证长时程视频的流畅性。
关键设计:MLLM导演阶段使用预训练的多模态大型语言模型,并针对虚拟形象生成任务进行微调。肖像生成阶段采用生成对抗网络(GAN)结构,并使用首尾帧作为条件,以保证视频的流畅性。损失函数包括对抗损失、重构损失和感知损失等,以保证生成视频的真实感和质量。并行生成子片段的数量和长度需要根据实际情况进行调整,以平衡生成速度和视频质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Kling-Avatar在唇音同步准确性、情感和动态表现力、指令可控性、身份保持和跨领域泛化方面均优于现有方法。例如,在唇音同步准确性方面,Kling-Avatar的指标比现有最佳方法提高了10%以上。此外,Kling-Avatar能够生成分辨率高达1080p、帧率高达48fps的视频,证明了其在生成高质量长时程视频方面的能力。
🎯 应用场景
Kling-Avatar具有广泛的应用前景,例如数字人直播、虚拟视频博客、虚拟助手、游戏角色定制等。该技术可以用于创建更具表现力和互动性的虚拟形象,从而提升用户体验。此外,Kling-Avatar还可以用于教育和培训领域,例如创建虚拟教师或虚拟培训师。
📄 摘要(原文)
Recent advances in audio-driven avatar video generation have significantly enhanced audio-visual realism. However, existing methods treat instruction conditioning merely as low-level tracking driven by acoustic or visual cues, without modeling the communicative purpose conveyed by the instructions. This limitation compromises their narrative coherence and character expressiveness. To bridge this gap, we introduce Kling-Avatar, a novel cascaded framework that unifies multimodal instruction understanding with photorealistic portrait generation. Our approach adopts a two-stage pipeline. In the first stage, we design a multimodal large language model (MLLM) director that produces a blueprint video conditioned on diverse instruction signals, thereby governing high-level semantics such as character motion and emotions. In the second stage, guided by blueprint keyframes, we generate multiple sub-clips in parallel using a first-last frame strategy. This global-to-local framework preserves fine-grained details while faithfully encoding the high-level intent behind multimodal instructions. Our parallel architecture also enables fast and stable generation of long-duration videos, making it suitable for real-world applications such as digital human livestreaming and vlogging. To comprehensively evaluate our method, we construct a benchmark of 375 curated samples covering diverse instructions and challenging scenarios. Extensive experiments demonstrate that Kling-Avatar is capable of generating vivid, fluent, long-duration videos at up to 1080p and 48 fps, achieving superior performance in lip synchronization accuracy, emotion and dynamic expressiveness, instruction controllability, identity preservation, and cross-domain generalization. These results establish Kling-Avatar as a new benchmark for semantically grounded, high-fidelity audio-driven avatar synthesis.