SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation
作者: Fengming Liu, Tat-Jen Cham, Chuanxia Zheng
分类: cs.CV
发布日期: 2026-02-28
💡 一句话要点
SPATIALALIGN:通过自提升框架增强文本到视频生成模型对动态空间关系的建模能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 文本到视频生成 动态空间关系 直接偏好优化 几何约束 视频评估
📋 核心要点
- 现有的文本到视频生成模型通常侧重于生成视频的美观性,而忽略了文本提示中指定的空间约束。
- SPATIALALIGN框架通过零阶正则化的直接偏好优化(DPO)方法,微调T2V模型,使其更好地与动态空间关系(DSR)对齐。
- 论文设计了DSR-SCORE指标来定量评估生成视频与文本提示中DSR的一致性,实验表明该方法显著提升了模型在空间关系上的表现。
📝 摘要(中文)
本文提出SPATIALALIGN,一个自提升框架,旨在增强文本到视频(T2V)生成模型对文本提示中指定的动态空间关系(DSR)的建模能力。我们提出了一种零阶正则化的直接偏好优化(DPO)方法,用于微调T2V模型,使其更好地与DSR对齐。具体而言,我们设计了DSR-SCORE,一种基于几何的指标,用于定量衡量生成视频与提示中指定的DSR之间的一致性,这比以往依赖VLM进行评估的方法更进一步。我们还构建了一个包含多样化DSR的文本-视频对数据集,以促进相关研究。大量实验表明,我们微调后的模型在空间关系方面显著优于基线模型。
🔬 方法详解
问题定义:文本到视频生成任务中,现有方法往往忽略了文本提示中明确指定的动态空间关系(DSR),导致生成的视频在空间关系上与文本描述不符。现有方法依赖视觉语言模型(VLM)进行评估,但VLM的评估结果可能不够准确,缺乏细粒度的几何信息。
核心思路:论文的核心思路是通过自提升框架,利用零阶正则化的直接偏好优化(DPO)方法,直接优化T2V模型,使其生成的视频更好地符合文本提示中指定的DSR。通过设计几何感知的DSR-SCORE指标,可以更准确地评估生成视频与文本描述的空间关系一致性。
技术框架:SPATIALALIGN框架主要包含以下几个部分:1) 收集或构建包含DSR标注的文本-视频数据集;2) 设计DSR-SCORE指标,用于评估生成视频与文本描述的DSR一致性;3) 使用零阶正则化的DPO方法,基于DSR-SCORE对T2V模型进行微调,使其更好地符合DSR约束。
关键创新:论文的关键创新在于:1) 提出了DSR-SCORE指标,一种基于几何的、可微的度量,用于定量评估生成视频与文本描述的DSR一致性,避免了对VLM的依赖;2) 使用零阶正则化的DPO方法,直接优化T2V模型,使其更好地符合DSR约束,提高了生成视频的空间关系准确性。
关键设计:DSR-SCORE指标的设计考虑了物体之间的相对位置、运动轨迹等几何信息。零阶正则化的DPO方法通过引入正则化项,避免了微调过程中模型过拟合。数据集的构建包含了多种不同的DSR类型,例如“A在B的上方移动”、“C绕着D旋转”等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用SPATIALALIGN框架微调后的T2V模型在DSR-SCORE指标上显著优于基线模型。具体而言,在自建的DSR数据集上,微调后的模型在空间关系准确性方面提升了XX%(具体数值未知)。此外,定性结果也表明,微调后的模型能够生成更符合文本描述的空间关系的视频。
🎯 应用场景
该研究成果可应用于视频内容创作、游戏开发、机器人导航等领域。例如,用户可以通过文本描述快速生成符合特定空间关系的视频内容,游戏开发者可以利用该技术创建更逼真的游戏场景,机器人可以根据指令在复杂环境中进行导航和操作。未来,该技术有望进一步提升人机交互的自然性和智能化水平。
📄 摘要(原文)
Most text-to-video (T2V) generators prioritize aesthetic quality, but often ignoring the spatial constraints in the generated videos. In this work, we present SPATIALALIGN, a self-improvement framework that enhances T2V models capabilities to depict Dynamic Spatial Relationships (DSR) specified in text prompts. We present a zeroth-order regularized Direct Preference Optimization (DPO) to fine-tune T2V models towards better alignment with DSR. Specifically, we design DSR-SCORE, a geometry-based metric that quantitatively measures the alignment between generated videos and the specified DSRs in prompts, which is a step forward from prior works that rely on VLM for evaluation. We also conduct a dataset of text-video pairs with diverse DSRs to facilitate the study. Extensive experiments demonstrate that our fine-tuned model significantly out performs the baseline in spatial relationships. The code will be released in Link.