LongCat-Video-Avatar 1.5 Technical Report

📄 arXiv: 2605.26486v1 📥 PDF

作者: Meituan LongCat Team, Xunliang Cai, Meng Cheng, Feng Gao, Zhe Kong, Jiamu Li, Le Li, Weiheng Li, Hongyu Liu, Shuai Tan, Xiaoming Wei, Tianyu Yang, Yong Zhang

分类: cs.CV

发布日期: 2026-05-26

备注: Homepage: https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/ Github: https://github.com/meituan-longcat/LongCat-Video


💡 一句话要点

LongCat-Video-Avatar 1.5:面向商业级应用的开源音频驱动视频生成框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 音频驱动视频生成 虚拟形象 唇音同步 时间一致性 身份保持 扩散模型 强化学习 模型蒸馏

📋 核心要点

  1. 现有音频驱动视频生成方法在商业级稳定性方面面临挑战,难以满足实际应用需求。
  2. LongCat-Video-Avatar 1.5通过系统工程和生产优化,提升唇音同步、时间稳定性和身份一致性。
  3. 实验表明,该框架在多样化场景下表现出色,并在效率和质量之间实现了良好平衡。

📝 摘要(中文)

本文介绍了LongCat-Video-Avatar 1.5,一个升级后的开源框架,专注于系统工程和生产就绪性,而非架构创新。通过将音频编码器升级到Whisper Large并精心调整训练方案,v1.5实现了精确的唇音同步、全身时间稳定性以及具有严格身份一致性的鲁棒长视频生成。通过严格的数据管理和RLHF训练,该模型可以轻松泛化到动漫和动物等风格化领域,并原生处理复杂现实场景,如多人互动和物体处理。此外,为了满足工业部署的实际需求,我们采用先进的步进蒸馏来加速推理,达到最佳的8 NFE,从而在服务效率和视觉保真度之间取得良好的平衡。通过对超过500个多样化测试用例的综合基准进行广泛的定量指标和严格的人工评估,验证了我们方法的优越性。结果表明,v1.5在人类相似度评分和专家级质量评估方面,与领先的闭源系统(如HeyGen、OmniHuman 1.5、Kling Avatar 2.0)相比,具有竞争性或更优越的性能。LongCat-Video-Avatar 1.5的开源发布缩小了学术研究原型和商业级部署之间的差距。

🔬 方法详解

问题定义:现有音频驱动的视频生成方法在商业应用中面临稳定性和泛化性问题,尤其是在长视频生成、复杂场景处理以及风格化内容生成方面。现有方法难以同时保证唇音同步的准确性、视频的时间一致性以及生成人物身份的稳定性。

核心思路:LongCat-Video-Avatar 1.5的核心思路是通过系统性的工程优化和训练策略改进,而非依赖全新的架构设计,来提升模型的稳定性和泛化能力。通过精细的数据管理、强大的音频编码器以及强化学习,使模型能够更好地适应各种复杂场景和风格。

技术框架:LongCat-Video-Avatar 1.5的整体框架包括以下几个主要模块:1) 音频编码器:使用Whisper Large模型提取音频特征。2) 视频生成器:基于扩散模型生成视频帧。3) 身份保持模块:确保生成视频中人物身份的一致性。4) 强化学习模块:通过RLHF训练提升生成视频的质量和真实感。5) 蒸馏模块:通过步进蒸馏加速推理过程。

关键创新:LongCat-Video-Avatar 1.5的关键创新在于其系统性的工程优化方法,包括:1) 使用Whisper Large作为音频编码器,提升唇音同步的准确性。2) 精心设计的训练方案,保证视频的时间一致性和身份一致性。3) 采用RLHF训练,提升生成视频的质量和真实感。4) 使用步进蒸馏加速推理,提高部署效率。与现有方法相比,LongCat-Video-Avatar 1.5更注重实际应用中的稳定性和效率。

关键设计:在音频编码器方面,使用了预训练的Whisper Large模型,并针对音频驱动视频生成任务进行了微调。在视频生成器方面,采用了扩散模型,并针对长视频生成进行了优化,例如引入了时间注意力机制。在损失函数方面,使用了多种损失函数的组合,包括唇音同步损失、身份保持损失和时间一致性损失。在蒸馏训练方面,采用了步进蒸馏,逐步减小模型的规模,最终达到8 NFE的推理速度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LongCat-Video-Avatar 1.5在超过500个多样化测试用例的综合基准上进行了评估,结果表明,该模型在人类相似度评分和专家级质量评估方面,与领先的闭源系统(如HeyGen、OmniHuman 1.5、Kling Avatar 2.0)相比,具有竞争性或更优越的性能。通过步进蒸馏,推理速度达到8 NFE,实现了效率和质量的平衡。

🎯 应用场景

LongCat-Video-Avatar 1.5可广泛应用于虚拟主播、数字人、在线教育、游戏娱乐等领域。它能够根据音频内容自动生成逼真的视频,降低视频制作成本,提高内容生产效率。该技术还有潜力应用于社交媒体、广告营销等领域,为用户提供更具个性化和互动性的体验。

📄 摘要(原文)

Despite advances in audio-driven video generation, achieving commercial-grade stability remains challenging. We present LongCat-Video-Avatar 1.5, an upgraded open-source framework prioritizing systematic engineering and production-readiness over architectural novelty. By upgrading the audio encoder to Whisper Large and meticulously scaling our training recipes, v1.5 achieves accurate lip-synchronization, full-body temporal stability, and robust long-video generation with strict identity consistency. Through rigorous data curation and RLHF Training, the model readily generalizes to stylized domains such as anime and animals, and natively handles complex real-world conditions, such as multi-person interactions and object handling. Furthermore, addressing the practical demands of industrial deployment, we employ advanced step distillation to accelerate inference to an optimal 8 NFE, achieving a favorable trade-off between serving efficiency and visual fidelity. The superiority of our approach is validated through extensive quantitative metrics and a rigorous human evaluation conducted on a comprehensive benchmark of over 500 diverse test cases. Results show that v1.5 achieves competitive or superior performance compared to leading closed-source systems (e.g., HeyGen, OmniHuman 1.5, Kling Avatar 2.0) across human-likeness ratings and expert-level quality assessments on our benchmark. With its open-source release, LongCat-Video-Avatar 1.5 narrows the gap between academic research prototypes and commercial-grade deployment.