Planning with Sketch-Guided Verification for Physics-Aware Video Generation
作者: Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Yue Zhang, Mohit Bansal
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-11-21
备注: website: https://sketchverify.github.io/
💡 一句话要点
提出SketchVerify框架,通过草图引导的验证提升物理感知视频生成的运动规划质量。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 视频生成 运动规划 物理感知 草图验证 视觉语言模型
📋 核心要点
- 现有视频生成方法在运动规划方面存在局限,要么只能处理简单运动,要么计算成本过高。
- SketchVerify框架通过草图验证循环,在视频生成前优化运动规划,确保物理合理性和指令一致性。
- 实验表明,SketchVerify在运动质量、物理真实性和长期一致性方面均优于现有方法,且效率更高。
📝 摘要(中文)
为了提升视频生成中时序连贯性和运动逼真度,现有方法依赖于规划中间控制信号,如物体轨迹。然而,这些方法通常采用单次规划,局限于简单运动,或迭代优化,需要多次调用视频生成器,计算成本高昂。为克服这些限制,我们提出了SketchVerify,一个无需训练、基于草图验证的规划框架,通过引入测试时采样和验证循环,在完整视频生成前,提升运动规划质量,生成更动态连贯的轨迹(即,物理上合理且与指令一致的运动)。给定提示和参考图像,我们的方法预测多个候选运动规划,并使用视觉-语言验证器对它们进行排序,该验证器联合评估语义与指令的对齐以及物理合理性。为了高效地对候选运动规划进行评分,我们将每个轨迹渲染为轻量级视频草图,通过将对象合成到静态背景上,避免了昂贵的、重复的基于扩散的合成,同时实现了可比的性能。我们迭代地优化运动规划,直到识别出令人满意的规划,然后将其传递给轨迹条件生成器进行最终合成。在WorldModelBench和PhyWorldBench上的实验表明,与竞争基线相比,我们的方法显著提高了运动质量、物理真实性和长期一致性,同时效率更高。我们的消融研究进一步表明,扩大轨迹候选数量可以持续提高整体性能。
🔬 方法详解
问题定义:现有基于规划的视频生成方法,要么依赖于单次规划,难以处理复杂运动;要么采用迭代优化,需要多次调用计算成本高的视频生成器,效率低下。这些方法难以保证生成视频的物理合理性和长期一致性。
核心思路:SketchVerify的核心思路是在视频生成之前,通过一个高效的验证循环来优化运动规划。该方法生成多个候选运动轨迹,并使用视觉-语言模型来评估这些轨迹的物理合理性和与指令的语义一致性。通过迭代优化,选择最佳的运动规划,从而提高最终生成视频的质量。
技术框架:SketchVerify框架包含以下主要阶段:1) 运动规划生成:根据给定的提示和参考图像,生成多个候选运动轨迹。2) 草图渲染:将每个运动轨迹渲染为轻量级的视频草图,通过将对象合成到静态背景上实现。3) 视觉-语言验证:使用视觉-语言模型对每个草图进行评分,评估其物理合理性和与指令的语义一致性。4) 迭代优化:根据验证结果,迭代优化运动规划,直到找到令人满意的轨迹。5) 视频生成:将最终的运动规划传递给轨迹条件生成器,生成最终的视频。
关键创新:SketchVerify的关键创新在于使用草图验证来高效地评估运动规划的质量。与直接使用视频生成器进行评估相比,草图渲染的计算成本要低得多,从而可以在测试时进行多次采样和验证,显著提升运动规划的质量。此外,使用视觉-语言模型联合评估物理合理性和语义一致性,保证了生成视频的质量。
关键设计:在草图渲染阶段,论文采用简单的对象合成技术,将运动轨迹表示为一系列对象在静态背景上的运动。视觉-语言验证器采用预训练的视觉-语言模型,并针对物理合理性和语义一致性进行了微调。迭代优化过程采用采样和排序策略,选择评分最高的运动规划进行下一步优化。具体的参数设置和网络结构在论文中有详细描述,此处未知。
🖼️ 关键图片
📊 实验亮点
在WorldModelBench和PhyWorldBench上的实验结果表明,SketchVerify在运动质量、物理真实性和长期一致性方面均优于现有基线方法。消融实验表明,增加轨迹候选数量可以持续提高整体性能。具体提升幅度未知。
🎯 应用场景
SketchVerify可应用于各种视频生成任务,例如游戏场景生成、机器人运动规划、电影特效制作等。该方法能够生成更逼真、更符合物理规律的视频内容,提高用户体验和内容质量。未来,该技术有望应用于自动驾驶、虚拟现实等领域,实现更智能、更自然的交互。
📄 摘要(原文)
Recent video generation approaches increasingly rely on planning intermediate control signals such as object trajectories to improve temporal coherence and motion fidelity. However, these methods mostly employ single-shot plans that are typically limited to simple motions, or iterative refinement which requires multiple calls to the video generator, incuring high computational cost. To overcome these limitations, we propose SketchVerify, a training-free, sketch-verification-based planning framework that improves motion planning quality with more dynamically coherent trajectories (i.e., physically plausible and instruction-consistent motions) prior to full video generation by introducing a test-time sampling and verification loop. Given a prompt and a reference image, our method predicts multiple candidate motion plans and ranks them using a vision-language verifier that jointly evaluates semantic alignment with the instruction and physical plausibility. To efficiently score candidate motion plans, we render each trajectory as a lightweight video sketch by compositing objects over a static background, which bypasses the need for expensive, repeated diffusion-based synthesis while achieving comparable performance. We iteratively refine the motion plan until a satisfactory one is identified, which is then passed to the trajectory-conditioned generator for final synthesis. Experiments on WorldModelBench and PhyWorldBench demonstrate that our method significantly improves motion quality, physical realism, and long-term consistency compared to competitive baselines while being substantially more efficient. Our ablation study further shows that scaling up the number of trajectory candidates consistently enhances overall performance.