DiReCT: Disentangled Regularization of Contrastive Trajectories for Physics-Refined Video Generation
作者: Abolfazl Meyarian, Amin Karimi Monsefi, Rajiv Ramnath, Ser-Nam Lim
分类: cs.CV, cs.AI
发布日期: 2026-03-26
💡 一句话要点
DiReCT:解耦对比轨迹正则化,提升物理约束的视频生成质量
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频生成 Flow-matching 对比学习 物理约束 解耦表示 文本引导视频生成 常识推理
📋 核心要点
- 现有Flow-matching视频生成器忽略物理一致性,导致生成视频违反物理定律。
- DiReCT通过解耦语义和物理信息,利用对比学习更好地约束视频生成过程。
- 实验表明,DiReCT在不增加训练时间的情况下,显著提升了视频的物理常识性。
📝 摘要(中文)
Flow-matching视频生成器虽然能产生时间连贯、高保真的视频,但常违反基本物理定律,因为其重构目标惩罚每帧偏差,而未区分物理上合理与不合理的动态。对比Flow-matching通过推开不同条件下的速度场轨迹来提供一种原则性补救方法,但我们在文本条件视频生成中发现了一个根本障碍:语义-物理纠缠。由于自然语言提示将场景内容与物理行为耦合,朴素的负采样会抽取与正样本速度场大部分重叠的条件,导致对比梯度直接与Flow-matching目标相悖。我们形式化了这种梯度冲突,推导出了精确的对齐条件,揭示了对比学习何时有益,何时有害于训练。在此分析的指导下,我们引入了DiReCT(解耦对比轨迹正则化),这是一个轻量级的后训练框架,将对比信号分解为两个互补的尺度:一个宏观对比项,从语义上遥远的区域抽取分区互斥的负样本,以实现无干扰的全局轨迹分离;以及一个微观对比项,构建与正样本共享完整场景语义,但沿单个LLM扰动的物理行为轴(包括运动学、力、材料、相互作用和幅度)不同的困难负样本。速度空间分布正则化器有助于防止预训练视觉质量的灾难性遗忘。当应用于Wan 2.1-1.3B时,我们的方法在VideoPhy上的物理常识得分比基线和SFT分别提高了16.7%和11.3%,且不增加训练时间。
🔬 方法详解
问题定义:现有的基于Flow-matching的视频生成方法,虽然能够生成高保真和时间连贯的视频,但是往往忽略了物理世界的约束,导致生成的视频在物理上不合理。这是因为传统的Flow-matching方法仅仅关注于像素级别的重构,而没有考虑到视频中物体运动的物理规律。此外,在文本引导的视频生成中,语义信息和物理信息相互纠缠,使得模型难以学习到正确的物理规律。
核心思路:DiReCT的核心思路是将对比学习引入到Flow-matching框架中,通过对比不同条件下的速度场轨迹,来学习视频中物体运动的物理规律。为了解决语义-物理纠缠问题,DiReCT将对比信号分解为宏观和微观两个尺度。宏观对比关注语义差异较大的负样本,用于全局轨迹分离;微观对比关注语义相似但物理行为不同的负样本,用于学习细粒度的物理规律。
技术框架:DiReCT是一个后训练框架,即在预训练的Flow-matching模型的基础上进行微调。其主要包含以下几个模块:1) 宏观对比模块:从语义上遥远的区域抽取负样本,用于全局轨迹分离。2) 微观对比模块:利用LLM扰动物理行为轴,生成与正样本语义相似但物理行为不同的困难负样本。3) 速度空间分布正则化器:防止预训练视觉质量的灾难性遗忘。
关键创新:DiReCT最重要的创新点在于解耦了语义和物理信息,并提出了宏观和微观对比学习策略。通过这种方式,DiReCT能够更好地学习到视频中物体运动的物理规律,从而生成物理上更合理的视频。此外,DiReCT还提出了速度空间分布正则化器,用于防止预训练视觉质量的灾难性遗忘。
关键设计:宏观对比模块使用语义距离作为负样本选择的依据,选择与正样本语义距离较远的样本作为负样本。微观对比模块使用LLM来扰动物理行为轴,例如改变物体的质量、摩擦力等,从而生成与正样本语义相似但物理行为不同的负样本。速度空间分布正则化器通过最小化当前模型和预训练模型的速度场分布之间的差异,来防止预训练视觉质量的灾难性遗忘。
🖼️ 关键图片
📊 实验亮点
DiReCT在Wan 2.1-1.3B模型上进行了实验,并在VideoPhy数据集上取得了显著的提升。相比于基线方法,DiReCT的物理常识得分提高了16.7%;相比于使用SFT微调的方法,DiReCT的物理常识得分提高了11.3%。重要的是,DiReCT在提升物理合理性的同时,没有增加训练时间。
🎯 应用场景
DiReCT可应用于各种视频生成任务,尤其是在需要物理合理性的场景中,例如游戏开发、电影特效、机器人仿真等。该方法可以生成更逼真、更符合物理规律的视频内容,提升用户体验和应用价值。未来,该研究可以扩展到更复杂的物理场景和更精细的物理属性控制,实现更高质量的物理约束视频生成。
📄 摘要(原文)
Flow-matching video generators produce temporally coherent, high-fidelity outputs yet routinely violate elementary physics because their reconstruction objectives penalize per-frame deviations without distinguishing physically consistent dynamics from impossible ones. Contrastive flow matching offers a principled remedy by pushing apart velocity-field trajectories of differing conditions, but we identify a fundamental obstacle in the text-conditioned video setting: semantic-physics entanglement. Because natural-language prompts couple scene content with physical behavior, naive negative sampling draws conditions whose velocity fields largely overlap with the positive sample's, causing the contrastive gradient to directly oppose the flow-matching objective. We formalize this gradient conflict, deriving a precise alignment condition that reveals when contrastive learning helps versus harms training. Guided by this analysis, we introduce DiReCT (Disentangled Regularization of Contrastive Trajectories), a lightweight post-training framework that decomposes the contrastive signal into two complementary scales: a macro-contrastive term that draws partition-exclusive negatives from semantically distant regions for interference-free global trajectory separation, and a micro-contrastive term that constructs hard negatives sharing full scene semantics with the positive sample but differing along a single, LLM-perturbed axis of physical behavior; spanning kinematics, forces, materials, interactions, and magnitudes. A velocity-space distributional regularizer helps to prevent catastrophic forgetting of pretrained visual quality. When applied to Wan 2.1-1.3B, our method improves the physical commonsense score on VideoPhy by 16.7% and 11.3% compared to the baseline and SFT, respectively, without increasing training time.