TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

作者: Chia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Amir Ali Bagherzadeh, Chuan Li, Rafael Valle, Bryan Catanzaro, Soujanya Poria

分类: cs.SD, cs.AI, cs.CL, eess.AS

发布日期: 2024-12-30 (更新: 2025-04-10)

备注: https://tangoflux.github.io/

💡 一句话要点

TangoFlux：基于Flow Matching和CRPO的超快速高质量文本到音频生成模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到音频生成 Flow Matching 偏好优化 CLAP模型 音频生成 深度学习 语音合成

📋 核心要点

现有文本到音频模型缺乏有效的偏好对生成机制，难以进行有效对齐和优化。
提出CLAP-Ranked Preference Optimization (CRPO) 框架，迭代生成和优化偏好数据，提升TTA模型对齐效果。
TangoFlux模型在客观和主观评测中均达到SOTA，并在单A40 GPU上实现快速音频生成。

📝 摘要（中文）

本文介绍TangoFlux，一个拥有5.15亿参数的高效文本到音频（TTA）生成模型，能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。TTA模型对齐的一个关键挑战在于难以创建偏好对，因为TTA缺乏像大型语言模型（LLM）那样可验证的奖励或黄金标准答案等结构化机制。为了解决这个问题，我们提出了一种新颖的框架——CLAP-Ranked Preference Optimization（CRPO），它迭代地生成和优化偏好数据以增强TTA对齐。我们证明了使用CRPO生成的音频偏好数据集优于现有的替代方案。借助该框架，TangoFlux在客观和主观基准测试中均实现了最先进的性能。我们开源了所有代码和模型，以支持TTA生成的进一步研究。

🔬 方法详解

问题定义：文本到音频（TTA）生成旨在根据给定的文本描述生成相应的音频。现有的TTA模型在对齐方面面临挑战，主要原因是缺乏像大型语言模型（LLM）那样可验证的奖励或黄金标准答案等结构化机制来生成高质量的偏好对，从而难以进行有效的偏好优化。

核心思路：本文的核心思路是通过迭代地生成和优化偏好数据来增强TTA模型的对齐。具体来说，利用对比语言-音频预训练（CLAP）模型来评估生成的音频质量，并基于CLAP的评分对音频进行排序，从而构建偏好对。然后，使用这些偏好对来优化TTA模型，使其生成更符合文本描述且质量更高的音频。

技术框架：TangoFlux的整体框架包括以下几个主要模块：1) 基于Flow Matching的音频生成器：该模块负责根据文本输入生成音频。2) CLAP评分器：使用预训练的CLAP模型对生成的音频进行评分，评估其与文本描述的匹配程度。3) 偏好对生成器：基于CLAP评分，生成音频偏好对，即选择CLAP评分较高的音频作为更优选择。4) 偏好优化器：使用生成的偏好对来优化音频生成器，使其生成更符合文本描述且质量更高的音频。整个过程迭代进行，不断提升TTA模型的性能。

关键创新：本文最重要的技术创新点是提出了CLAP-Ranked Preference Optimization（CRPO）框架。CRPO利用CLAP模型对生成的音频进行排序，从而自动生成偏好对，避免了人工标注的成本和主观性。此外，CRPO框架可以迭代地生成和优化偏好数据，不断提升TTA模型的性能。与现有方法相比，CRPO能够更有效地利用无监督数据来提升TTA模型的对齐效果。

关键设计：TangoFlux模型使用了Flow Matching作为其音频生成器，这是一种基于连续归一化流的模型，能够生成高质量的音频。CLAP模型用于评估音频质量和与文本的匹配程度。偏好优化器使用了标准的偏好优化算法，例如DPO (Direct Preference Optimization)。关键参数包括Flow Matching模型的网络结构、CLAP模型的选择以及偏好优化算法的超参数。

🖼️ 关键图片

📊 实验亮点

TangoFlux在客观和主观评测中均取得了最先进的性能。在客观指标方面，TangoFlux在FID（Fréchet Inception Distance）等指标上优于现有模型。在主观评测方面，用户对TangoFlux生成的音频质量和与文本描述的匹配程度给予了高度评价。此外，TangoFlux还具有高效的生成速度，能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。

🎯 应用场景

TangoFlux在语音合成、内容创作、辅助技术等领域具有广泛的应用前景。它可以用于生成各种类型的音频内容，例如有声读物、音乐、音效等。此外，TangoFlux还可以应用于辅助技术领域，例如为视力障碍人士提供语音描述服务。该研究的突破将推动文本到音频生成技术的发展，并为相关应用带来更多可能性。

📄 摘要（原文）

We introduce TangoFlux, an efficient Text-to-Audio (TTA) generative model with 515M parameters, capable of generating up to 30 seconds of 44.1kHz audio in just 3.7 seconds on a single A40 GPU. A key challenge in aligning TTA models lies in the difficulty of creating preference pairs, as TTA lacks structured mechanisms like verifiable rewards or gold-standard answers available for Large Language Models (LLMs). To address this, we propose CLAP-Ranked Preference Optimization (CRPO), a novel framework that iteratively generates and optimizes preference data to enhance TTA alignment. We demonstrate that the audio preference dataset generated using CRPO outperforms existing alternatives. With this framework, TangoFlux achieves state-of-the-art performance across both objective and subjective benchmarks. We open source all code and models to support further research in TTA generation.

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理