Physics-Aware Video Instance Removal Benchmark

📄 arXiv: 2604.05898v1 📥 PDF

作者: Zirui Li, Xinghao Chen, Lingyu Jiang, Dengzhe Hou, Fangzhou Lin, Kazunori Yamada, Xiangbo Gao, Zhengzhong Tu

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出物理感知视频实例移除基准PVIR,评估算法在保持物理一致性下的移除效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频实例移除 物理一致性 视频编辑 数据集 基准测试

📋 核心要点

  1. 现有视频实例移除基准忽略了移除对象后场景中物理一致性的保持,例如阴影和反射。
  2. PVIR基准通过构建包含复杂物理交互的视频数据集,并设计评估指标来解决上述问题。
  3. 实验表明,现有方法在PVIR的困难子集上性能显著下降,表明物理一致性建模仍是挑战。

📝 摘要(中文)

视频实例移除(VIR)需要在移除目标对象的同时,保持背景的完整性和物理一致性,例如镜面反射和光照交互。尽管文本引导编辑取得了进展,但目前的基准主要评估视觉上的合理性,往往忽略了由对象移除引起的物理因果关系,例如残留的阴影。我们引入了物理感知视频实例移除(PVIR)基准,包含95个高质量视频,并标注了实例精确的掩码和移除提示。PVIR被划分为简单和困难子集,后者明确针对复杂的物理交互。我们使用解耦的人工评估协议,从三个维度(指令遵循、渲染质量和编辑排他性)评估了四种代表性方法:PISCO-Removal、UniVideo、DiffuEraser和CoCoCo,以隔离语义、视觉和空间上的失败。结果表明,PISCO-Removal和UniVideo取得了最先进的性能,而DiffuEraser经常引入模糊伪影,CoCoCo在指令遵循方面表现不佳。在困难子集上持续的性能下降突显了恢复复杂物理副作用的持续挑战。

🔬 方法详解

问题定义:视频实例移除(VIR)旨在从视频中移除指定的对象实例,同时保持背景的完整性和视觉真实感。现有的VIR方法主要关注视觉上的合理性,忽略了物理世界的规律,例如移除物体后光照、阴影和反射的变化。这导致编辑后的视频在物理上不一致,影响了真实感。

核心思路:PVIR基准的核心思路是构建一个包含复杂物理交互的视频数据集,并设计一套评估指标来衡量VIR方法在保持物理一致性方面的能力。通过这种方式,可以推动VIR方法朝着更加真实和物理合理的方向发展。

技术框架:PVIR基准主要包含以下几个部分:1) 高质量视频数据集:包含95个视频,涵盖各种场景和物体,并标注了实例精确的掩码和移除提示。数据集被划分为简单和困难子集,后者包含更复杂的物理交互。2) 解耦的人工评估协议:从指令遵循、渲染质量和编辑排他性三个维度评估VIR方法,以隔离语义、视觉和空间上的失败。3) 基线方法评估:评估了四种代表性的VIR方法,并分析了它们的优缺点。

关键创新:PVIR基准的关键创新在于:1) 首次关注视频实例移除中的物理一致性问题。2) 构建了一个包含复杂物理交互的高质量视频数据集。3) 设计了一套解耦的人工评估协议,可以更全面地评估VIR方法。

关键设计:PVIR基准在数据集构建方面,特别关注了包含复杂物理交互的场景,例如物体之间的遮挡、阴影和反射。在评估协议方面,采用了人工评估的方式,并从多个维度进行评估,以更全面地了解VIR方法的性能。困难子集的设计,增加了对算法物理推理能力的要求。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,PISCO-Removal和UniVideo在PVIR基准上取得了最先进的性能,但仍然存在改进空间。DiffuEraser经常引入模糊伪影,CoCoCo在指令遵循方面表现不佳。在困难子集上,所有方法的性能都显著下降,表明物理一致性建模仍然是一个挑战。

🎯 应用场景

该研究成果可应用于视频编辑、内容创作、虚拟现实等领域。例如,在电影制作中,可以利用VIR技术移除拍摄过程中不需要的物体,提高制作效率。在虚拟现实中,可以利用VIR技术创建更加真实和沉浸式的体验。

📄 摘要(原文)

Video Instance Removal (VIR) requires removing target objects while maintaining background integrity and physical consistency, such as specular reflections and illumination interactions. Despite advancements in text-guided editing, current benchmarks primarily assess visual plausibility, often overlooking the physical causalities, such as lingering shadows, triggered by object removal. We introduce the Physics-Aware Video Instance Removal (PVIR) benchmark, featuring 95 high-quality videos annotated with instance-accurate masks and removal prompts. PVIR is partitioned into Simple and Hard subsets, the latter explicitly targeting complex physical interactions. We evaluate four representative methods, PISCO-Removal, UniVideo, DiffuEraser, and CoCoCo, using a decoupled human evaluation protocol across three dimensions to isolate semantic, visual, and spatial failures: instruction following, rendering quality, and edit exclusivity. Our results show that PISCO-Removal and UniVideo achieve state-of-the-art performance, while DiffuEraser frequently introduces blurring artifacts and CoCoCo struggles significantly with instruction following. The persistent performance drop on the Hard subset highlights the ongoing challenge of recovering complex physical side effects.