FreeInsert: Disentangled Text-Guided Object Insertion in 3D Gaussian Scene without Spatial Priors
作者: Chenxi Li, Weijie Wang, Qiang Li, Bruno Lepri, Nicu Sebe, Weizhi Nie
分类: cs.CV
发布日期: 2025-05-02 (更新: 2025-11-08)
备注: Accepted by ACMMM2025, Our project webpage: https://tjulcx.github.io/FreeInsert/
💡 一句话要点
FreeInsert:提出一种无需空间先验的3D高斯场景中文本引导的对象插入方法。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D对象插入 文本引导编辑 多模态学习 MLLM 空间推理 无监督学习 场景理解
📋 核心要点
- 现有基于2D编辑的方法依赖空间先验(如2D掩码或3D边界框),难以保证插入对象的一致性,限制了灵活性和可扩展性。
- FreeInsert利用MLLM、LGM和扩散模型等基础模型,将对象生成与空间放置解耦,实现无监督和灵活的3D场景对象插入。
- 实验结果表明,FreeInsert无需空间先验即可实现语义连贯、空间精确和视觉逼真的3D插入,提升了用户体验。
📝 摘要(中文)
本文提出FreeInsert,一种新颖的框架,利用包括MLLM、LGM和扩散模型在内的基础模型,将对象生成与空间放置解耦,从而在没有空间先验的情况下,在3D场景中实现无监督和灵活的对象插入。FreeInsert首先使用基于MLLM的解析器,从用户指令中提取结构化语义,包括对象类型、空间关系和附着区域。这些语义指导插入对象的3D一致性重建以及其自由度的学习。我们利用MLLM的空间推理能力来初始化对象姿态和尺度。分层的、空间感知的细化阶段进一步整合空间语义和MLLM推断的先验知识,以增强放置效果。最后,使用插入对象的图像来改善对象外观,以提高视觉逼真度。实验结果表明,FreeInsert在不依赖空间先验的情况下,实现了语义连贯、空间精确和视觉逼真的3D插入,提供了用户友好和灵活的编辑体验。
🔬 方法详解
问题定义:现有3D场景对象插入方法通常依赖于2D掩码或3D边界框等空间先验信息,这限制了编辑的灵活性和可扩展性,并且难以保证插入对象与场景的3D一致性。因此,需要一种无需空间先验,能够实现语义连贯、空间精确和视觉逼真的3D对象插入方法。
核心思路:FreeInsert的核心思路是将对象生成与空间放置解耦。通过利用MLLM提取用户指令中的语义信息,指导对象的重建和自由度学习,并利用MLLM的空间推理能力初始化对象姿态和尺度。然后,通过分层细化来整合空间语义和MLLM先验,最终实现高质量的对象插入。
技术框架:FreeInsert框架主要包含以下几个阶段:1) 基于MLLM的语义解析器:从用户指令中提取对象类型、空间关系和附着区域等结构化语义。2) 对象重建与自由度学习:利用提取的语义信息指导插入对象的3D一致性重建以及其自由度的学习。3) 对象姿态和尺度初始化:利用MLLM的空间推理能力初始化对象姿态和尺度。4) 分层细化:通过分层的、空间感知的细化阶段,进一步整合空间语义和MLLM推断的先验知识,以增强放置效果。5) 外观优化:使用插入对象的图像来改善对象外观,以提高视觉逼真度。
关键创新:FreeInsert的关键创新在于:1) 无需空间先验:通过解耦对象生成和空间放置,实现了无需2D掩码或3D边界框等空间先验的3D对象插入。2) 语义驱动:利用MLLM提取的语义信息指导对象重建、自由度学习和空间放置,保证了插入对象的语义连贯性。3) 分层细化:通过分层细化,逐步优化对象姿态和尺度,提高了空间放置的精确性。
关键设计:在语义解析阶段,使用了特定的MLLM模型(具体模型未知)进行结构化语义提取。在分层细化阶段,采用了空间感知的损失函数(具体形式未知)来指导对象姿态和尺度的优化。外观优化阶段使用了基于图像的优化方法(具体方法未知)来提高视觉逼真度。此外,MLLM初始化对象姿态和尺度的具体prompt设计以及分层细化的具体层数和参数设置也属于关键设计。
🖼️ 关键图片
📊 实验亮点
FreeInsert在无需空间先验的情况下,实现了语义连贯、空间精确和视觉逼真的3D对象插入。虽然论文中没有给出具体的性能指标和对比基线,但实验结果表明,FreeInsert能够生成高质量的3D编辑结果,提供了用户友好和灵活的编辑体验。与需要手动指定空间先验的方法相比,FreeInsert显著降低了用户操作的复杂性。
🎯 应用场景
FreeInsert在虚拟现实、增强现实、游戏开发、室内设计等领域具有广泛的应用前景。它可以帮助用户通过自然语言指令轻松地编辑3D场景,例如添加家具、改变布局等,从而提高创作效率和用户体验。未来,该技术有望应用于更复杂的场景编辑和自动化内容生成。
📄 摘要(原文)
Text-driven object insertion in 3D scenes is an emerging task that enables intuitive scene editing through natural language. However, existing 2D editing-based methods often rely on spatial priors such as 2D masks or 3D bounding boxes, and they struggle to ensure consistency of the inserted object. These limitations hinder flexibility and scalability in real-world applications. In this paper, we propose FreeInsert, a novel framework that leverages foundation models including MLLMs, LGMs, and diffusion models to disentangle object generation from spatial placement. This enables unsupervised and flexible object insertion in 3D scenes without spatial priors. FreeInsert starts with an MLLM-based parser that extracts structured semantics, including object types, spatial relationships, and attachment regions, from user instructions. These semantics guide both the reconstruction of the inserted object for 3D consistency and the learning of its degrees of freedom. We leverage the spatial reasoning capabilities of MLLMs to initialize object pose and scale. A hierarchical, spatially aware refinement stage further integrates spatial semantics and MLLM-inferred priors to enhance placement. Finally, the appearance of the object is improved using the inserted-object image to enhance visual fidelity. Experimental results demonstrate that FreeInsert achieves semantically coherent, spatially precise, and visually realistic 3D insertions without relying on spatial priors, offering a user-friendly and flexible editing experience.