LTX-2: Efficient Joint Audio-Visual Foundation Model
作者: Yoav HaCohen, Benny Brazowski, Nisan Chiprut, Yaki Bitterman, Andrew Kvochko, Avishai Berkowitz, Daniel Shalem, Daphna Lifschitz, Dudu Moshe, Eitan Porat, Eitan Richardson, Guy Shiran, Itay Chachy, Jonathan Chetboun, Michael Finkelson, Michael Kupchick, Nir Zabari, Nitzan Guetta, Noa Kotler, Ofir Bibi, Ori Gordon, Poriya Panet, Roi Benita, Shahar Armon, Victor Kulikov, Yaron Inger, Yonatan Shiftan, Zeev Melumian, Zeev Farbman
分类: cs.CV
发布日期: 2026-01-06
💡 一句话要点
LTX-2:高效联合音视频基础模型,实现高质量同步音视频内容生成
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音视频生成 多模态学习 扩散模型 Transformer 跨模态注意力 文本到视频 音频同步
📋 核心要点
- 现有文生视频扩散模型缺乏音频信息,无法捕捉语义、情感和氛围线索。
- LTX-2采用非对称双流Transformer架构,通过跨模态注意力和模态感知引导,实现音视频同步生成。
- 实验表明,LTX-2在音视频质量和提示遵循度上达到SOTA,且计算成本远低于闭源模型。
📝 摘要(中文)
本文介绍了LTX-2,一个开源的基础模型,能够以统一的方式生成高质量、时间同步的音视频内容。LTX-2由一个非对称的双流Transformer组成,其中视频流具有140亿参数,音频流具有50亿参数,通过双向音视频交叉注意力层耦合,并采用时间位置嵌入和跨模态AdaLN进行共享时间步调节。这种架构能够高效地训练和推理统一的音视频模型,同时为视频生成分配比音频生成更多的容量。模型采用多语言文本编码器以实现更广泛的提示理解,并引入了模态感知无分类器引导(modality-CFG)机制,以改进音视频对齐和可控性。除了生成语音外,LTX-2还生成丰富的、连贯的音轨,这些音轨遵循每个场景的角色、环境、风格和情感,并包含自然的背景和拟音元素。评估表明,该模型在开源系统中实现了最先进的音视频质量和提示遵循度,同时以远低于专有模型的计算成本和推理时间交付可比的结果。所有模型权重和代码均已公开发布。
🔬 方法详解
问题定义:现有文本到视频生成模型主要关注视觉内容,忽略了音频在表达场景语义、情感和氛围方面的重要作用。缺乏音频同步使得生成的内容真实感和沉浸感不足。现有方法要么独立生成音频和视频,要么采用简单的拼接方式,难以保证音视频之间的高度一致性和自然融合。
核心思路:LTX-2的核心思路是构建一个统一的音视频生成模型,通过共享的时间步调节和跨模态注意力机制,实现音视频内容之间的深度融合和同步。通过非对称的网络结构,为视频生成分配更多的模型容量,同时保证音频生成的质量和效率。
技术框架:LTX-2采用双流Transformer架构,包含一个14B参数的视频流和一个5B参数的音频流。两个流通过双向音视频交叉注意力层进行连接,实现信息交互。模型使用多语言文本编码器处理输入文本提示,并采用跨模态AdaLN进行时间步调节。在训练过程中,使用模态感知无分类器引导(modality-CFG)机制,提高音视频对齐和可控性。
关键创新:LTX-2的关键创新在于其统一的音视频生成框架和模态感知无分类器引导机制。统一框架允许模型同时学习音视频的联合分布,从而生成高度同步的内容。模态感知无分类器引导机制通过区分音视频模态的引导信号,提高生成内容的可控性和对齐度。
关键设计:LTX-2的关键设计包括:1) 非对称双流Transformer架构,为视频流分配更多参数;2) 双向音视频交叉注意力层,实现信息交互;3) 跨模态AdaLN,进行时间步调节;4) 模态感知无分类器引导(modality-CFG),提高音视频对齐和可控性。模型使用标准的Transformer结构,并采用AdamW优化器进行训练。损失函数包括扩散模型的重建损失和分类器引导损失。
🖼️ 关键图片
📊 实验亮点
LTX-2在音视频质量和提示遵循度方面达到了开源系统的SOTA水平,并且在计算成本和推理时间上远低于闭源模型。具体而言,LTX-2在主观评估中获得了与专有模型相当的音视频质量,同时推理速度提升了数倍。模型生成的音频内容能够准确反映视频场景中的角色、环境和情感,实现了高度的音视频同步。
🎯 应用场景
LTX-2可广泛应用于电影制作、游戏开发、广告创意、虚拟现实等领域。它可以根据文本描述自动生成高质量的音视频内容,降低创作门槛,提高生产效率。此外,该模型还可以用于音视频修复、音视频风格迁移等任务,具有重要的实际应用价值和广阔的发展前景。
📄 摘要(原文)
Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce LTX-2, an open-source foundational model capable of generating high-quality, temporally synchronized audiovisual content in a unified manner. LTX-2 consists of an asymmetric dual-stream transformer with a 14B-parameter video stream and a 5B-parameter audio stream, coupled through bidirectional audio-video cross-attention layers with temporal positional embeddings and cross-modality AdaLN for shared timestep conditioning. This architecture enables efficient training and inference of a unified audiovisual model while allocating more capacity for video generation than audio generation. We employ a multilingual text encoder for broader prompt understanding and introduce a modality-aware classifier-free guidance (modality-CFG) mechanism for improved audiovisual alignment and controllability. Beyond generating speech, LTX-2 produces rich, coherent audio tracks that follow the characters, environment, style, and emotion of each scene -- complete with natural background and foley elements. In our evaluations, the model achieves state-of-the-art audiovisual quality and prompt adherence among open-source systems, while delivering results comparable to proprietary models at a fraction of their computational cost and inference time. All model weights and code are publicly released.