Sound Sparks Motion: Audio and Text Tuning for Video Editing

📄 arXiv: 2605.15307v1 📥 PDF

作者: AmirHossein Naghi Razlighi, Aryan Mikaeili, Ali Mahdavi-Amiri, Daniel Cohen-Or, Yiorgos Chrysanthou

分类: cs.GR, cs.CV, cs.MM, cs.SD

发布日期: 2026-05-14

备注: Project Page: https://amirhossein-razlighi.github.io/Sound_Sparks_Motion

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Sound Sparks Motion,通过音频和文本微调实现视频运动编辑

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频编辑 运动控制 多模态融合 音频特征 文本条件 视觉-语言模型 测试时微调

📋 核心要点

  1. 现有视频生成模型在外观变化上表现良好,但在生成特定、局部动作或状态转换方面存在困难。
  2. Sound Sparks Motion通过微调音频潜在表示和文本条件残差,在测试时实现运动编辑,无需训练。
  3. 利用视觉-语言模型指导微调过程,实现有效的语义目标,同时保持内容和视觉质量。

📝 摘要(中文)

针对大型生成视频模型在运动编辑方面的困难,本文提出Sound Sparks Motion,一种无需训练的框架,通过在测试时调整内部多模态条件信号来实现视频运动编辑。该方法不修改模型权重,仅调整两个轻量级变量:源视频的音频潜在表示和文本条件的残差扰动。这种组合能够促使模型实现仅通过提示难以实现的运动编辑。由于缺乏直接评估文本和运动时间对齐的方法,我们使用视觉-语言模型提供反馈,指示生成的视频中是否出现预期的运动,从而指导调整过程。这种简单的监督为运动编辑提供了有效的语义目标,同时正则化和感知-时间约束有助于保持内容和视觉质量。此外,学习到的潜在控制变量可以在不同视频之间迁移,表明它们捕获了可重用的运动编辑方向,而不是过度拟合单个示例。

🔬 方法详解

问题定义:论文旨在解决大型生成视频模型在运动编辑方面的难题。现有方法,即直接通过文本提示控制视频生成模型,往往难以产生精确、局部的动作或状态转换。模型更擅长处理外观变化,而对运动的控制能力不足,导致编辑结果不符合预期。

核心思路:论文的核心思路是在测试时,通过微调视频生成模型的内部多模态条件信号来实现运动编辑。具体来说,不是直接修改模型权重,而是调整两个轻量级的变量:从源视频提取的音频潜在表示,以及文本条件的残差扰动。作者认为,音频信息包含了丰富的运动信息,而文本残差可以对文本提示进行补充,从而更精确地控制运动。

技术框架:该框架主要包含以下几个步骤:1) 从源视频中提取音频特征,并将其编码为音频潜在表示。2) 根据用户提供的文本提示,生成初始的视频。3) 使用视觉-语言模型评估生成的视频是否符合文本提示所描述的运动。4) 根据视觉-语言模型的反馈,调整音频潜在表示和文本残差,并重新生成视频。5) 重复步骤3和4,直到生成的视频满足要求。

关键创新:该方法最重要的创新点在于,它提出了一种无需训练的运动编辑方法,通过微调模型的内部多模态条件信号来实现运动控制。这种方法避免了重新训练模型的需要,大大降低了计算成本。此外,该方法还利用视觉-语言模型来指导微调过程,从而实现了更精确的运动控制。

关键设计:在技术细节上,论文使用了预训练的音频编码器和文本编码器来提取音频和文本特征。视觉-语言模型采用CLIP。损失函数包括一个语义损失,用于衡量生成的视频与文本提示之间的语义一致性;一个正则化项,用于防止过度拟合;以及一个感知-时间损失,用于保持视频的视觉质量和时间一致性。音频潜在表示和文本残差通过梯度下降法进行优化。

📊 实验亮点

实验结果表明,Sound Sparks Motion能够有效地实现视频运动编辑,并且生成的视频具有较高的视觉质量和时间一致性。此外,学习到的潜在控制变量可以在不同视频之间迁移,表明它们捕获了可重用的运动编辑方向。该方法在运动编辑任务上优于基线方法,并且具有更强的可控性和灵活性。

🎯 应用场景

该研究成果可应用于视频编辑、电影制作、游戏开发等领域。例如,用户可以通过简单的文本描述,修改视频中的人物动作、场景变化等。该技术还可以用于生成各种创意视频内容,例如将静态图像转换为动态视频,或者将一段音乐转换为一段与之匹配的视频。

📄 摘要(原文)

Motion-centric video editing remains difficult for large generative video models, which often respond well to appearance changes but struggle to produce specific, localized actions or state transitions in an existing clip. We introduce Sound Sparks Motion, a training-free framework that enables motion editing in an audio-visual video generation model by tuning its internal multimodal conditioning signals at test time. Rather than modifying model weights, our method tunes only two lightweight variables: an audio latent derived from the source video and a residual perturbation in the text-conditioning. We find that this combination can encourage motion edits that the underlying model often struggles to realize under prompt-only control. Since there is no direct way to evaluate temporal alignment between text and motion, we guide the tuning process using a vision-language model that provides feedback indicating whether the intended motion appears in the generated video. This simple supervision yields an effective semantic objective for motion editing, while regularization and perceptual-temporal constraints help preserve content and visual quality. Beyond per-video tuning, we show that the learned latent controls are transferable across videos, suggesting that they capture reusable motion-edit directions rather than overfitting to a single example. Our results highlight multimodal conditioning tuning, particularly through the audio pathway, as a promising direction for motion-aware video editing, and suggest that test-time tuning can serve as a lightweight probing mechanism that helps reveal latent motion controls embedded in the model's multimodal conditioning. Code and data are available via our project page: https://amirhossein-razlighi.github.io/Sound_Sparks_Motion/