SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

作者: Fengming Liu, Tat-Jen Cham, Chuanxia Zheng

分类: cs.CV

发布日期: 2026-02-26 (更新: 2026-02-27)

备注: Project page: https://fengming001ntu.github.io/SpatialAlign/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

SPATIALALIGN：提升文本生成视频中动态空间关系对齐能力的自提升框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting)

关键词: 文本生成视频 动态空间关系 直接偏好优化 几何度量 视频对齐

📋 核心要点

现有文本生成视频模型通常侧重于美学质量，而忽略了视频中应满足的空间约束。
SPATIALALIGN框架通过零阶正则化的直接偏好优化（DPO）微调模型，使其更好地符合文本描述的动态空间关系。
论文提出了DSR-SCORE指标，并构建了包含多样化动态空间关系的数据集，实验证明该方法能显著提升空间关系对齐效果。

📝 摘要（中文）

本文提出SPATIALALIGN，一个自提升框架，旨在增强文本生成视频（T2V）模型描绘文本提示中指定的动态空间关系（DSR）的能力。我们提出了一种零阶正则化的直接偏好优化（DPO）方法，用于微调T2V模型，使其更好地与DSR对齐。具体来说，我们设计了DSR-SCORE，一种基于几何的度量，用于定量测量生成的视频与提示中指定的DSR之间的一致性，这比依赖VLM进行评估的先前工作更进一步。我们还构建了一个包含多样化DSR的文本-视频对数据集，以促进相关研究。大量实验表明，我们微调后的模型在空间关系方面显著优于基线模型。

🔬 方法详解

问题定义：文本生成视频（T2V）模型在生成视频时，往往难以准确地表达文本提示中描述的动态空间关系（DSR），例如“A在B的左边移动到B的右边”。现有方法通常侧重于生成视频的视觉质量，而忽略了对空间关系的精确控制。这导致生成的视频可能不符合文本描述的空间布局和运动轨迹，降低了视频的真实性和可用性。

核心思路：SPATIALALIGN的核心思路是通过自提升的方式，利用设计的DSR-SCORE指标来指导T2V模型的微调，使其更好地对齐文本提示中指定的动态空间关系。具体来说，该方法使用零阶正则化的直接偏好优化（DPO）算法，直接优化模型生成的视频与DSR之间的对齐程度，而无需显式地学习空间关系的表示。

技术框架：SPATIALALIGN框架主要包含以下几个模块：1) T2V模型：作为基础的视频生成模型，负责根据文本提示生成视频。2) DSR-SCORE：用于评估生成的视频与文本提示中指定的DSR之间对齐程度的指标。3) 零阶正则化的DPO：用于微调T2V模型，使其更好地与DSR对齐。整个流程是：首先，使用T2V模型生成视频；然后，使用DSR-SCORE评估生成的视频与文本提示的DSR之间的对齐程度；最后，使用零阶正则化的DPO算法，根据DSR-SCORE的反馈，微调T2V模型。

关键创新：该论文的关键创新点在于：1) 提出了DSR-SCORE指标，用于定量评估生成的视频与文本提示中指定的动态空间关系之间的对齐程度。该指标基于几何计算，能够准确地捕捉视频中的空间关系。2) 使用零阶正则化的DPO算法，直接优化模型生成的视频与DSR之间的对齐程度，而无需显式地学习空间关系的表示。这种方法更加高效，并且能够避免中间表示带来的误差。

关键设计：DSR-SCORE指标的设计基于对视频中物体位置和运动轨迹的分析。具体来说，该指标首先检测视频中的物体，然后跟踪这些物体在视频中的运动轨迹。最后，根据这些运动轨迹，计算物体之间的空间关系，并与文本提示中指定的DSR进行比较，从而得到一个对齐程度的评分。零阶正则化的DPO算法使用DSR-SCORE作为奖励信号，直接优化T2V模型的参数。正则化项用于防止模型过拟合，并提高模型的泛化能力。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SPATIALALIGN框架能够显著提升T2V模型在动态空间关系上的对齐能力。与基线模型相比，微调后的模型在DSR-SCORE指标上取得了显著提升，表明生成的视频更加符合文本提示中指定的空间关系。具体性能数据未知。

🎯 应用场景

SPATIALALIGN技术可应用于各种需要精确控制视频内容空间关系的场景，例如：自动生成教学视频、游戏场景设计、机器人导航模拟等。该技术能够提升生成视频的真实性和可用性，降低人工编辑成本，并为相关领域的研究提供新的思路。

📄 摘要（原文）

Most text-to-video (T2V) generators prioritize aesthetic quality, but often ignoring the spatial constraints in the generated videos. In this work, we present SPATIALALIGN, a self-improvement framework that enhances T2V models capabilities to depict Dynamic Spatial Relationships (DSR) specified in text prompts. We present a zeroth-order regularized Direct Preference Optimization (DPO) to fine-tune T2V models towards better alignment with DSR. Specifically, we design DSR-SCORE, a geometry-based metric that quantitatively measures the alignment between generated videos and the specified DSRs in prompts, which is a step forward from prior works that rely on VLM for evaluation. We also conduct a dataset of text-video pairs with diverse DSRs to facilitate the study. Extensive experiments demonstrate that our fine-tuned model significantly out performs the baseline in spatial relationships. The code will be released in Link. Project page: https://fengming001ntu.github.io/SpatialAlign/

SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理