AllocMV: Optimal Resource Allocation for Music Video Generation via Structured Persistent State
作者: Huimin Wang, Leilei Ouyang, Chang Xia, Yongqi Kang, Yu Fu, Yuqi Ouyang
分类: cs.CV, cs.AI, cs.LG, cs.MA
发布日期: 2026-05-11
💡 一句话要点
提出AllocMV框架,通过结构化持久状态与多选背包问题求解实现音乐视频的高效生成。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音乐视频生成 多选背包问题 资源优化 长视频生成 多模态融合 计算效率 视觉一致性
📋 核心要点
- 现有长视频生成面临计算成本高昂及跨镜头一致性难以维持的挑战,限制了高质量音乐视频的自动化创作。
- 提出AllocMV框架,将视频生成建模为多选背包问题,通过结构化持久状态实现全局规划与资源的最优分配。
- 实验表明,该方法在严格预算约束下显著提升了成本-质量比,有效平衡了视觉质量与计算资源消耗。
📝 摘要(中文)
生成长时序音乐视频(MV)常受限于高昂的计算成本及难以维持跨镜头一致性。本文提出了AllocMV,这是一个将音乐视频合成建模为多选背包问题(MCKP)的分层框架。AllocMV通过全局规划器生成包含角色实体、场景先验和共享图的紧凑结构化对象,作为视频的持久状态。通过从多模态线索中估计片段显著性,基于动态规划的组级MCKP求解器在高质量生成、中等质量生成和重用分支之间优化分配计算资源。针对重复的音乐动机,我们实施了基于分歧的分支策略,通过重用视觉前缀在降低成本的同时确保动机层面的连续性。通过成本-质量比(CQR)评估,AllocMV在严格的预算和节奏约束下,实现了感知质量与资源消耗之间的最优权衡。
🔬 方法详解
问题定义:长视频生成中,如何在有限的计算预算下,既保证跨镜头的语义一致性,又实现高质量的视觉呈现,是当前生成式模型面临的核心痛点。
核心思路:将资源分配问题抽象为多选背包问题(MCKP),通过全局规划器预先构建结构化持久状态,根据音乐节奏与片段显著性动态分配生成策略,实现计算资源的精细化管理。
技术框架:系统包含全局规划器、多模态显著性估计模块及MCKP求解器。首先生成包含角色、场景先验的持久状态;随后根据音乐特征评估片段重要性;最后通过动态规划在不同生成分支(高/中/重用)间进行资源调度。
关键创新:引入基于分歧的分支策略,针对重复音乐动机重用视觉前缀,在显著降低计算开销的同时,通过结构化状态维持了跨镜头的视觉连续性与一致性。
关键设计:采用成本-质量比(CQR)作为优化目标,利用动态规划求解MCKP,确保在满足节奏约束的前提下,将计算资源优先分配给视觉显著性高的片段,实现全局最优的生成效果。
🖼️ 关键图片
📊 实验亮点
实验结果显示,AllocMV在严格的预算限制下,通过引入MCKP求解器,显著优化了成本-质量比(CQR)。与基线方法相比,该框架在保持音乐节奏同步性和跨镜头视觉一致性的同时,大幅降低了计算资源消耗,证明了其在长时序生成任务中实现高质量与高效率平衡的优越性。
🎯 应用场景
该技术主要应用于自动化音乐视频制作、短视频内容创作及数字媒体娱乐领域。它能显著降低专业级MV的制作门槛,为音乐人、内容创作者提供低成本、高一致性的长视频生成工具,并对未来长序列视频生成任务中的资源调度策略具有重要参考价值。
📄 摘要(原文)
Generating long-horizon music videos (MVs) is frequently constrained by prohibitive computational costs and difficulty maintaining cross-shot consistency. We propose AllocMV, a hierarchical framework formulating music video synthesis as a Multiple-Choice Knapsack Problem (MCKP). AllocMV represents the video's persistent state as a compact, structured object comprising character entities, scene priors, and sharing graphs, produced by a global planner prior to realization. By estimating segment saliency from multimodal cues, a group-level MCKP solver based on dynamic programming optimally allocates resources across High-Gen, Mid-Gen, and Reuse branches. For repetitive musical motifs, we implement a divergence-based forking strategy that reuses visual prefixes to reduce costs while ensuring motif-level continuity. Evaluated via the Cost-Quality Ratio (CQR), AllocMV achieves an optimal trade-off between perceived quality and resource expenditure under strict budgetary and rhythmic constraints.