SARA: Semantically Adaptive Relational Alignment for Video Diffusion Models

作者: Jiesong Lian, Zixiang Zhou, Ruizhe Zhong, Yuan Zhou, Qinglin Lu, Rui Wang, Long Hu, Yixue Hao, Baoru Huang

分类: cs.CV

发布日期: 2026-05-08

💡 一句话要点

提出SARA框架：通过语义自适应关系对齐提升视频扩散模型的文本遵循能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频扩散模型 语义对齐 知识蒸馏 多模态学习 Token关系建模 显著性检测

📋 核心要点

现有方法在分配Token关系蒸馏的监督预算时，缺乏对提示词语义相关性的考量，导致模型难以精准捕捉关键实体间的交互。
SARA引入了文本条件下的显著性机制，通过轻量级对齐器计算显著性分数，动态引导监督信号聚焦于与提示词高度相关的Token对。
实验表明，SARA在Wan2.2模型上显著提升了文本对齐精度与运动质量，在多项基准测试中超越了现有的主流对齐方法。

📝 摘要（中文）

尽管视频扩散模型（VDMs）能生成视觉逼真的片段，但在处理提示词时仍存在实体丢失、属性绑定错误及交互关系弱化等问题。现有的表征对齐方法（如VideoREPA和MoAlign）通过从冻结的视觉基础模型（VFM）蒸馏时空Token关系来改善细粒度文本遵循，但其监督预算分配往往依赖于视觉或运动线索，而非提示词的相关性。本文提出了语义自适应关系对齐（SARA），在保持对冻结VFM进行Token关系蒸馏（TRD）的同时，引入了文本条件下的显著性机制，以决定哪些Token对需要监督。通过训练轻量级第一阶段对齐器（利用SAM 3.1掩码监督和InfoNCE正则化），将连续显著性分数融入TRD中。通过对路由算子，SARA能够将监督权重聚焦于主体-主体及主体-背景对，有效抑制背景-背景对的干扰。在Wan2.2持续训练设置下，SARA在VLM评估指标、VBench基准测试及盲测中均优于SFT、VideoREPA和MoAlign。

🔬 方法详解

问题定义：视频扩散模型在生成过程中常出现实体丢失、属性错位及交互关系模糊的问题。现有基于蒸馏的方法（如VideoREPA）未能根据提示词的语义重要性分配监督资源，导致模型在无关背景区域浪费了过多的优化预算。

核心思路：引入“语义自适应”机制，通过文本条件下的显著性检测，动态识别视频中与提示词相关的关键区域，并将监督信号有选择性地路由至这些区域，从而强化模型对主体间交互的理解。

技术框架：系统分为两个阶段：第一阶段训练一个轻量级对齐器，利用SAM 3.1掩码和InfoNCE损失学习语义显著性；第二阶段将该显著性分数融入Token关系蒸馏（TRD）流程，通过对路由算子（Pair-routing operator）实现监督权重的动态分配。

关键创新：核心创新在于“对路由算子”，它打破了传统方法对所有Token对一视同仁的局限，实现了监督信号在空间和语义维度上的精准投放，有效区分了主体交互与背景噪声。

关键设计：利用SAM 3.1提供的细粒度掩码进行监督，确保显著性计算的准确性；通过InfoNCE正则化提升对齐器的表征能力；在TRD中，当Token对的任一端点被判定为显著时，即赋予较高的权重，从而实现对主体-主体及主体-背景关系的重点优化。

🖼️ 关键图片

📊 实验亮点

在Wan2.2持续训练框架下，SARA在13维VLM评估指标、VBench基准测试及盲测中均表现出色。相比SFT、VideoREPA和MoAlign，SARA在保持视觉质量的同时，大幅提升了模型对复杂提示词的遵循能力，尤其在处理多实体交互和属性绑定任务时优势明显。

🎯 应用场景

该技术可广泛应用于高质量视频生成领域，特别是在需要精准控制角色交互、复杂动作序列及多实体属性绑定的场景中，如电影制作、广告创意、游戏资产生成及虚拟现实内容创作，显著提升AI生成视频的叙事准确性与逻辑连贯性。

📄 摘要（原文）

Recent video diffusion models (VDMs) synthesize visually convincing clips, yet still drop entities, mis-bind attributes, and weaken the interactions specified in the prompt. Representation-alignment objectives such as VideoREPA and MoAlign improve fine-grained text following by distilling spatio-temporal token relations from a frozen visual foundation model, but their pairwise supervision budget is allocated by visual or motion cues rather than by how relevant each pair is to the prompt. We present SARA, Semantically Adaptive Relational Alignment, which keeps token-relation distillation (TRD) on a frozen VFM target and adds a text-conditioned saliency that decides which token pairs carry supervision. A lightweight Stage 1 aligner is trained with per-entity SAM 3.1 mask supervision and an InfoNCE regulariser, and its continuous saliency is fused into TRD through a pair-routing operator that assigns each token pair a weight whenever either of its two endpoints is salient, thereby routing supervision toward subject-subject and subject-background pairs and away from background-background ones. In the Wan2.2 continual-training setting, SARA improves both text alignment and motion quality over SFT, VideoREPA, and MoAlign on a 13-dimension VLM rubric, on the public VBench benchmarks, and in a blind user study.

SARA: Semantically Adaptive Relational Alignment for Video Diffusion Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理