InstructAV2AV: Instruction-Guided Audio-Video Joint Editing

📄 arXiv: 2605.18467v1 📥 PDF

作者: Haojie Zheng, Yixin Yang, Siqi Yang, Shuchen Weng, Boxin Shi

分类: cs.CV

发布日期: 2026-05-18


💡 一句话要点

提出InstructAV2AV,实现指令引导的音视频联合编辑,保证视听一致性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音视频编辑 指令引导 多模态学习 扩散模型 内容生成

📋 核心要点

  1. 现有视频编辑方法通常忽略伴随音频,导致编辑后的视频与音频不协调。
  2. InstructAV2AV通过端到端框架,实现指令引导的音视频联合编辑,保证视听一致性。
  3. 实验结果表明,InstructAV2AV在多个指标上超越现有方法,展现了其在可控内容创作方面的潜力。

📝 摘要(中文)

本文提出InstructAV2AV,这是一个首个用于指令引导的音视频联合编辑的端到端框架。为了训练该框架,作者首先开发了一个可扩展的数据合成流程,并构建了InsAVE-80K,这是首个大规模音视频编辑数据集,包含高质量的源到目标样本对。在此数据基础上,作者调整了一个音视频生成骨干网络,以利用其强大的先验知识。具体来说,作者将音视频输入与噪声潜在编码连接,以锚定源上下文;提出了源-指令门控注意力机制,以提高指令遵循和内容保持能力;并引入了一个两阶段训练策略,以有效地迁移这些预训练的先验知识。大量实验表明,InstructAV2AV在两个评估集上的11个指标上优于最先进的方法,涵盖了三个方面,突出了其在可控内容创建方面的潜力。

🔬 方法详解

问题定义:现有基于扩散模型的视频内容编辑方法通常只关注视觉内容,忽略了视频中伴随的音频信息。这导致编辑后的视频内容与原始音频不匹配,影响用户体验。因此,如何实现音视频联合编辑,保证编辑后视听内容的一致性,是一个亟待解决的问题。

核心思路:InstructAV2AV的核心思路是利用大规模音视频编辑数据集训练一个端到端的模型,该模型能够根据用户输入的指令,同时编辑视频和音频,从而保证编辑后视听内容的一致性。为了实现这一目标,作者设计了一个新的网络结构,并提出了相应的训练策略。

技术框架:InstructAV2AV的整体框架包括以下几个主要模块:1) 音视频输入编码模块:将输入的音视频数据编码成潜在表示;2) 指令编码模块:将用户输入的指令编码成向量表示;3) 源-指令门控注意力模块:利用指令信息引导音视频特征的编辑,同时保持原始内容;4) 音视频解码模块:将编辑后的潜在表示解码成新的音视频数据。整个流程通过端到端的方式进行训练。

关键创新:InstructAV2AV的关键创新在于:1) 提出了首个大规模音视频编辑数据集InsAVE-80K,为模型的训练提供了充足的数据;2) 设计了源-指令门控注意力机制,能够有效地融合指令信息,同时保持原始内容;3) 提出了两阶段训练策略,能够有效地迁移预训练模型的先验知识。

关键设计:在网络结构方面,InstructAV2AV采用了U-Net结构作为音视频解码器。在训练过程中,作者使用了L1损失和感知损失来保证生成音视频的质量。此外,作者还使用了对抗训练来提高生成音视频的真实感。源-指令门控注意力机制通过计算指令和音视频特征之间的相似度,来控制音视频特征的更新幅度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InstructAV2AV在两个评估集上进行了广泛的实验,并在11个指标上取得了state-of-the-art的结果。具体来说,InstructAV2AV在音视频质量、指令遵循度和内容保持度等方面均优于现有方法。实验结果表明,InstructAV2AV能够有效地实现指令引导的音视频联合编辑,并生成高质量的视听内容。

🎯 应用场景

InstructAV2AV可应用于视频内容创作、电影制作、游戏开发等领域。例如,用户可以通过简单的指令修改视频中的场景、人物和背景音乐,从而快速生成新的视频内容。该技术还可以用于修复老旧电影的音视频,提升观看体验。未来,InstructAV2AV有望成为一种强大的内容创作工具,赋能各行各业。

📄 摘要(原文)

Recent diffusion-based methods have achieved impressive progress in video content manipulation. However, they typically ignore the accompanying audio, leaving the audio disjointed from the edited results. In this paper, we propose InstructAV2AV, the first end-to-end framework for instruction-guided audio-video joint editing. We first develop a scalable data synthesis pipeline and construct InsAVE-80K, the first large-scale audio-video editing dataset with high-quality source-to-target pairs. With this data foundation, we adapt an audio-video generation backbone to leverage its robust priors. We concatenate the audio-video input with noisy latent codes to anchor the source context, propose the source-instruction gated attention to improve instruction following and content preservation, and introduce a two-stage training strategy to effectively transfer these pre-trained priors. Extensive experiments demonstrate that InstructAV2AV outperforms state-of-the-art methods across 11 metrics spanning three aspects on two evaluation sets, highlighting its potential for controllable content creation. Project page: https://hjzheng.net/projects/InstructAV2AV/.