InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

作者: Hoiyeong Jin, Hyojin Jang, Jeongho Kim, Junha Hyung, Kinam Kim, Dongjin Kim, Huijin Choi, Hyeonji Kim, Jaegul Choo

分类: cs.CV, cs.AI

发布日期: 2025-12-19

备注: 16 pages, project page: https://myyzzzoooo.github.io/InsertAnywhere/

💡 一句话要点

InsertAnywhere：融合4D场景几何与扩散模型，实现逼真的视频对象插入

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 视频对象插入 扩散模型 4D场景理解 几何一致性 光照感知 视频生成 ROSE++数据集

📋 核心要点

现有视频对象插入方法缺乏对4D场景的深入理解，难以处理遮挡和光照变化等复杂情况。
InsertAnywhere框架通过4D感知的掩码生成模块和扩散模型扩展，实现几何一致和外观逼真的对象插入。
实验表明，InsertAnywhere在真实场景中显著优于现有方法，能够生成几何合理且视觉连贯的插入效果。

📝 摘要（中文）

扩散模型在视频生成领域的最新进展为可控视频编辑带来了新的可能性，但由于对4D场景理解的局限以及对遮挡和光照效果处理的不足，逼真的视频对象插入（VOI）仍然具有挑战性。我们提出了InsertAnywhere，一个新的VOI框架，可以实现几何一致的对象放置和外观逼真的视频合成。我们的方法首先使用一个4D感知的掩码生成模块，该模块重建场景几何并在帧之间传播用户指定的对象放置，同时保持时间一致性和遮挡一致性。在此空间基础上，我们扩展了一个基于扩散的视频生成模型，以联合合成插入的对象及其周围的局部变化，例如光照和阴影。为了实现监督训练，我们引入了ROSE++，这是一个光照感知的合成数据集，通过将ROSE对象移除数据集转换为对象移除视频、对象存在视频和VLM生成的参考图像的三元组来构建。通过大量的实验，我们证明了我们的框架可以在各种真实场景中产生几何上合理且视觉上连贯的对象插入，显著优于现有的研究和商业模型。

🔬 方法详解

问题定义：视频对象插入（VOI）旨在将新的对象无缝地集成到现有视频中。现有的方法通常难以处理复杂的场景几何、遮挡关系和光照变化，导致插入的对象在几何上不一致或视觉上不自然。这些方法缺乏对场景的4D理解，无法保证时间一致性，并且难以模拟对象与场景之间的光照交互。

核心思路：InsertAnywhere的核心思路是首先利用4D场景几何信息来指导对象放置，然后使用扩散模型来合成插入对象及其周围环境，从而实现几何一致性和外观逼真性。通过重建场景几何并传播用户指定的对象位置，该方法可以确保对象在视频帧之间保持时间一致性和遮挡一致性。扩散模型则负责生成与场景光照条件相匹配的逼真外观。

技术框架：InsertAnywhere框架包含两个主要模块：4D感知的掩码生成模块和扩散模型扩展模块。首先，4D感知的掩码生成模块重建场景几何，并根据用户指定的对象位置生成掩码，该掩码在帧之间传播，并考虑了遮挡关系。然后，扩散模型扩展模块利用生成的掩码和场景信息，联合合成插入的对象及其周围的局部变化，例如光照和阴影。整个流程旨在实现几何一致的对象放置和外观逼真的视频合成。

关键创新：该论文的关键创新在于将4D场景几何信息与扩散模型相结合，用于视频对象插入。传统的VOI方法通常依赖于2D图像处理技术，难以处理复杂的3D场景和时间一致性。InsertAnywhere通过重建场景几何，可以更准确地放置对象并处理遮挡关系。此外，利用扩散模型可以生成与场景光照条件相匹配的逼真外观，从而提高插入对象的视觉质量。

关键设计：为了训练扩散模型，论文提出了ROSE++数据集，该数据集通过将ROSE对象移除数据集转换为三元组（对象移除视频、对象存在视频和VLM生成的参考图像）来构建。ROSE++数据集包含光照信息，可以用于训练光照感知的扩散模型。此外，论文还设计了一种损失函数，用于鼓励扩散模型生成与场景光照条件相匹配的图像。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，InsertAnywhere在各种真实场景中显著优于现有的视频对象插入方法。与现有方法相比，InsertAnywhere能够生成几何上更合理、视觉上更连贯的插入效果。具体而言，该方法在对象放置的准确性和外观的逼真性方面均取得了显著提升。实验还表明，ROSE++数据集可以有效地训练光照感知的扩散模型，从而提高插入对象的视觉质量。

🎯 应用场景

InsertAnywhere技术可广泛应用于视频编辑、电影特效、虚拟现实和增强现实等领域。例如，用户可以使用该技术轻松地将虚拟对象插入到现有的视频中，从而创建逼真的特效。在VR/AR应用中，该技术可以用于将虚拟对象无缝地集成到真实场景中，从而提高用户体验。未来，该技术有望成为视频内容创作的重要工具。

📄 摘要（原文）

Recent advances in diffusion-based video generation have opened new possibilities for controllable video editing, yet realistic video object insertion (VOI) remains challenging due to limited 4D scene understanding and inadequate handling of occlusion and lighting effects. We present InsertAnywhere, a new VOI framework that achieves geometrically consistent object placement and appearance-faithful video synthesis. Our method begins with a 4D aware mask generation module that reconstructs the scene geometry and propagates user specified object placement across frames while maintaining temporal coherence and occlusion consistency. Building upon this spatial foundation, we extend a diffusion based video generation model to jointly synthesize the inserted object and its surrounding local variations such as illumination and shading. To enable supervised training, we introduce ROSE++, an illumination aware synthetic dataset constructed by transforming the ROSE object removal dataset into triplets of object removed video, object present video, and a VLM generated reference image. Through extensive experiments, we demonstrate that our framework produces geometrically plausible and visually coherent object insertions across diverse real world scenarios, significantly outperforming existing research and commercial models.

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理