OSCBench: Benchmarking Object State Change in Text-to-Video Generation
作者: Xianjing Han, Bin Zhu, Shiqi Hu, Franklin Mingzhe Li, Patrick Carrington, Roger Zimmermann, Jingjing Chen
分类: cs.CV, cs.AI, cs.CL
发布日期: 2026-03-12
备注: Project page: https://hanxjing.github.io/OSCBench
💡 一句话要点
提出OSCBench以解决文本到视频生成中的对象状态变化问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到视频生成 对象状态变化 基准测试 多模态评估 烹饪指导数据 模型评估 动作理解 视频生成技术
📋 核心要点
- 现有的文本到视频生成模型在对象状态变化的理解上存在显著不足,尤其在新颖和组合场景中表现不佳。
- 本文提出了OSCBench基准,专门用于评估T2V模型在对象状态变化方面的性能,填补了这一研究空白。
- 通过对六个T2V模型进行评估,发现它们在对象状态变化的准确性和时间一致性上存在普遍性挑战,尤其在复杂场景中。
📝 摘要(中文)
文本到视频生成(T2V)模型在生成视觉高质量和时间一致性视频方面取得了快速进展。然而,现有基准主要关注感知质量、文本与视频的对齐或物理合理性,忽视了动作理解中的关键方面:文本提示中明确指定的对象状态变化(OSC)。OSC指的是由动作引起的对象状态转变,例如剥土豆或切柠檬。本文介绍了OSCBench,一个专门用于评估T2V模型中OSC性能的基准。OSCBench基于烹饪指导数据构建,系统性地将动作-对象交互组织为常规、新颖和组合场景,以探测模型的分布内性能和泛化能力。我们评估了六个代表性的开源和专有T2V模型,结果显示,尽管在语义和场景对齐方面表现强劲,当前T2V模型在准确和时间一致的对象状态变化上仍然存在困难,尤其是在新颖和组合设置中。这些发现将OSC定位为文本到视频生成的关键瓶颈,并确立了OSCBench作为推动状态感知视频生成模型发展的诊断基准。
🔬 方法详解
问题定义:本文旨在解决文本到视频生成模型在对象状态变化(OSC)理解上的不足,现有方法主要关注感知质量和文本视频对齐,忽视了OSC的重要性。
核心思路:提出OSCBench基准,通过系统化的烹饪指导数据,评估T2V模型在不同场景下的OSC性能,特别是新颖和组合场景。
技术框架:OSCBench的构建包括数据收集、场景分类(常规、新颖、组合)和评估方法(人类用户研究与多模态大语言模型自动评估)。
关键创新:OSCBench作为一个专门的基准,首次系统性地评估T2V模型在对象状态变化方面的能力,揭示了当前模型的局限性。
关键设计:在评估过程中,采用了多种评估指标,包括语义对齐和时间一致性,确保全面反映模型在OSC方面的表现。实验中使用了六个不同的T2V模型进行对比分析。
🖼️ 关键图片
📊 实验亮点
实验结果表明,尽管在语义和场景对齐方面表现良好,当前的T2V模型在对象状态变化的准确性和时间一致性上普遍存在问题,尤其在新颖和组合场景中,显示出OSC作为关键瓶颈的特征。
🎯 应用场景
该研究的潜在应用领域包括智能视频生成、教育培训、虚拟现实和游戏开发等。通过改进对象状态变化的理解,能够提升视频生成的质量和实用性,推动相关技术的商业化应用和发展。
📄 摘要(原文)
Text-to-video (T2V) generation models have made rapid progress in producing visually high-quality and temporally coherent videos. However, existing benchmarks primarily focus on perceptual quality, text-video alignment, or physical plausibility, leaving a critical aspect of action understanding largely unexplored: object state change (OSC) explicitly specified in the text prompt. OSC refers to the transformation of an object's state induced by an action, such as peeling a potato or slicing a lemon. In this paper, we introduce OSCBench, a benchmark specifically designed to assess OSC performance in T2V models. OSCBench is constructed from instructional cooking data and systematically organizes action-object interactions into regular, novel, and compositional scenarios to probe both in-distribution performance and generalization. We evaluate six representative open-source and proprietary T2V models using both human user study and multimodal large language model (MLLM)-based automatic evaluation. Our results show that, despite strong performance on semantic and scene alignment, current T2V models consistently struggle with accurate and temporally consistent object state changes, especially in novel and compositional settings. These findings position OSC as a key bottleneck in text-to-video generation and establish OSCBench as a diagnostic benchmark for advancing state-aware video generation models.