TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

📄 arXiv: 2510.07940v1 📥 PDF

作者: Leigang Qu, Ziyang Wang, Na Zheng, Wenjie Wang, Liqiang Nie, Tat-Seng Chua

分类: cs.CV, cs.AI, cs.CL, cs.LG, cs.MM

发布日期: 2025-10-09

备注: Project page: https://ttom-t2v.github.io/


💡 一句话要点

提出TTOM:一种测试时优化与记忆框架,用于组合视频生成。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频生成 组合生成 测试时优化 记忆机制 跨模态对齐 视频基础模型 时空布局

📋 核心要点

  1. 视频生成模型在组合场景中面临挑战,难以准确理解和生成复杂的时空关系。
  2. TTOM框架通过在测试时优化和记忆历史信息,动态调整模型输出以符合给定的时空布局。
  3. 实验表明,TTOM在组合视频生成任务上显著提升了文本-图像对齐效果,并展现出良好的泛化能力。

📝 摘要(中文)

视频基础模型(VFMs)在视觉生成方面表现出色,但在组合场景(例如,运动、数量和空间关系)中表现不佳。本文提出测试时优化与记忆(TTOM),这是一个无需训练的框架,在推理期间将VFM输出与时空布局对齐,以实现更好的文本-图像对齐。与现有工作中直接干预潜在空间或逐样本注意力不同,我们集成并优化由通用布局-注意力目标引导的新参数。此外,我们将视频生成形式化为流式设置,并使用参数化记忆机制维护历史优化上下文,该机制支持灵活的操作,例如插入、读取、更新和删除。值得注意的是,我们发现TTOM解耦了组合世界知识,显示出强大的可迁移性和泛化能力。在T2V-CompBench和Vbench基准上的实验结果表明,TTOM是一个有效、实用、可扩展且高效的框架,可用于即时实现组合视频生成的跨模态对齐。

🔬 方法详解

问题定义:现有视频基础模型在处理组合视频生成任务时,难以准确捕捉和生成复杂的时空关系,例如物体间的运动、数量关系和空间布局。现有方法通常直接干预潜在空间或逐样本注意力,缺乏对历史信息的有效利用和对组合世界知识的解耦。

核心思路:TTOM的核心在于通过测试时优化和记忆机制,动态调整视频生成模型的输出,使其更好地符合给定的时空布局。通过引入可学习的参数,并在推理阶段进行优化,使模型能够更好地理解和生成组合视频。同时,利用参数化记忆机制维护历史优化上下文,从而实现更稳定的生成效果。

技术框架:TTOM框架主要包含两个核心模块:测试时优化模块和参数化记忆模块。测试时优化模块通过引入新的可学习参数,并利用布局-注意力目标函数进行优化,从而使模型输出与时空布局对齐。参数化记忆模块则用于维护历史优化上下文,支持灵活的插入、读取、更新和删除操作,从而实现更稳定的视频生成。整个框架采用流式处理方式,逐步生成视频帧。

关键创新:TTOM的关键创新在于其测试时优化和记忆机制。与现有方法不同,TTOM不直接干预潜在空间或逐样本注意力,而是通过优化新的参数来实现更好的文本-图像对齐。此外,TTOM的参数化记忆机制能够有效利用历史信息,从而提高视频生成的稳定性和一致性。

关键设计:TTOM的关键设计包括:1) 布局-注意力目标函数,用于指导测试时优化过程;2) 参数化记忆模块,用于维护历史优化上下文;3) 流式处理方式,用于逐步生成视频帧。具体的参数设置和网络结构细节在论文中进行了详细描述,但摘要中未提供具体数值。

📊 实验亮点

TTOM在T2V-CompBench和Vbench基准测试中取得了显著的性能提升,证明了其在组合视频生成任务上的有效性。实验结果表明,TTOM能够有效解耦组合世界知识,并展现出强大的可迁移性和泛化能力。具体性能数据和提升幅度需要在论文中查找。

🎯 应用场景

TTOM框架可应用于各种需要组合视频生成的场景,例如:根据文本描述生成包含特定物体运动和交互的视频,或者根据给定的时空布局生成符合要求的视频内容。该技术在游戏开发、电影制作、教育娱乐等领域具有广泛的应用前景,能够显著提升视频内容的生成效率和质量。

📄 摘要(原文)

Video Foundation Models (VFMs) exhibit remarkable visual generation performance, but struggle in compositional scenarios (e.g., motion, numeracy, and spatial relation). In this work, we introduce Test-Time Optimization and Memorization (TTOM), a training-free framework that aligns VFM outputs with spatiotemporal layouts during inference for better text-image alignment. Rather than direct intervention to latents or attention per-sample in existing work, we integrate and optimize new parameters guided by a general layout-attention objective. Furthermore, we formulate video generation within a streaming setting, and maintain historical optimization contexts with a parametric memory mechanism that supports flexible operations, such as insert, read, update, and delete. Notably, we found that TTOM disentangles compositional world knowledge, showing powerful transferability and generalization. Experimental results on the T2V-CompBench and Vbench benchmarks establish TTOM as an effective, practical, scalable, and efficient framework to achieve cross-modal alignment for compositional video generation on the fly.