Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition

📄 arXiv: 2410.03335v2 📥 PDF

作者: Zixuan Wang, Chi-Keung Tang, Yu-Wing Tai

分类: cs.SD, cs.CV, cs.LG, eess.AS

发布日期: 2024-10-04 (更新: 2025-01-14)


💡 一句话要点

Audio-Agent:利用LLM实现高质量音频生成、编辑与合成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频生成 文本到音频 视频到音频 大型语言模型 多模态学习

📋 核心要点

  1. 现有文本到音频方法在处理复杂文本描述时,难以生成高质量音频,是目前面临的核心问题。
  2. Audio-Agent利用GPT-4将复杂文本分解为具体指令,并调用预训练的TTA扩散模型生成音频,实现高质量音频生成。
  3. 通过微调LLM,Audio-Agent无需训练时间戳检测器即可实现视频到音频的生成,降低了计算开销。

📝 摘要(中文)

本文提出Audio-Agent,一个基于文本或视频输入的多模态音频生成、编辑和合成框架。传统的文本到音频(TTA)方法通常从文本描述进行单次推理。这种设计虽然直接,但在处理复杂文本条件时难以生成高质量音频。我们的方法利用预训练的TTA扩散网络作为音频生成代理,与GPT-4协同工作,GPT-4将文本条件分解为原子性的、具体的指令,并调用代理进行音频生成。因此,Audio-Agent能够生成与复杂和多事件的文本或视频紧密对齐的高质量音频,同时支持可变长度和可变音量的生成。对于视频到音频(VTA)任务,大多数现有方法需要训练时间戳检测器来同步视频事件与生成的音频,这个过程繁琐且耗时。相反,我们提出了一种更简单的方法,通过微调预训练的大型语言模型(LLM),例如Gemma2-2B-it,来获得连接视频和音频模态的语义和时间条件。因此,我们的框架为TTA和VTA任务提供了一个全面的解决方案,而无需大量的训练计算开销。

🔬 方法详解

问题定义:论文旨在解决文本到音频(TTA)和视频到音频(VTA)任务中,现有方法在处理复杂场景时生成音频质量不高,以及VTA任务中需要额外训练时间戳检测器的问题。现有TTA方法通常采用单次推理,难以应对复杂文本描述,而VTA方法需要耗时且繁琐的时间戳检测器。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大理解和推理能力,将复杂的文本或视频信息分解为更易于处理的指令或条件,然后利用预训练的音频生成模型生成高质量的音频。对于TTA任务,使用GPT-4分解文本;对于VTA任务,微调LLM提取语义和时间信息。

技术框架:Audio-Agent框架包含两个主要分支:TTA和VTA。对于TTA,GPT-4作为文本分解器,将复杂文本分解为一系列具体的音频生成指令,然后调用预训练的TTA扩散模型生成音频。对于VTA,首先使用微调后的LLM从视频中提取语义和时间条件,然后将这些条件输入到音频生成模型中生成音频。

关键创新:该论文的关键创新在于利用LLM进行音频生成任务中的条件分解和信息提取,避免了传统方法中单次推理的局限性和对额外时间戳检测器的依赖。通过LLM的辅助,音频生成模型可以更好地理解和利用复杂的文本或视频信息,从而生成更高质量的音频。

关键设计:对于TTA,GPT-4的prompt设计至关重要,需要引导GPT-4将文本分解为适合音频生成的具体指令。对于VTA,LLM的微调目标是学习从视频帧中提取与音频生成相关的语义和时间信息。论文使用了预训练的TTA扩散模型作为音频生成器,并选择Gemma2-2B-it作为VTA任务中的LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的Audio-Agent框架在TTA和VTA任务上都取得了显著的成果。通过与传统方法对比,Audio-Agent能够生成与复杂文本或视频内容更加一致、质量更高的音频。具体性能数据和提升幅度在论文中进行了详细的展示和分析,证明了该方法的有效性和优越性。

🎯 应用场景

Audio-Agent具有广泛的应用前景,包括电影制作、游戏开发、虚拟现实、音乐创作等领域。它可以根据剧本或视频内容自动生成逼真的音效和背景音乐,提高内容创作的效率和质量。此外,该技术还可以应用于语音助手、智能家居等领域,实现更加智能和个性化的音频交互体验。

📄 摘要(原文)

We introduce Audio-Agent, a multimodal framework for audio generation, editing and composition based on text or video inputs. Conventional approaches for text-to-audio (TTA) tasks often make single-pass inferences from text descriptions. While straightforward, this design struggles to produce high-quality audio when given complex text conditions. In our method, we utilize a pre-trained TTA diffusion network as the audio generation agent to work in tandem with GPT-4, which decomposes the text condition into atomic, specific instructions and calls the agent for audio generation. In doing so, Audio-Agent can generate high-quality audio that is closely aligned with the provided text or video exhibiting complex and multiple events, while supporting variable-length and variable-volume generation. For video-to-audio (VTA) tasks, most existing methods require training a timestamp detector to synchronize video events with the generated audio, a process that can be tedious and time-consuming. Instead, we propose a simpler approach by fine-tuning a pre-trained Large Language Model (LLM), e.g., Gemma2-2B-it, to obtain both semantic and temporal conditions that bridge the video and audio modality. Consequently, our framework contributes a comprehensive solution for both TTA and VTA tasks without substantial computational overhead in training.