Geometry-Editable and Appearance-Preserving Object Compositon

📄 arXiv: 2505.20914v1 📥 PDF

作者: Jianman Lin, Haojie Li, Chunmei Qing, Zhijing Yang, Liang Lin, Tianshui Chen

分类: cs.CV

发布日期: 2025-05-27


💡 一句话要点

提出DGAD模型,通过解耦几何编辑和外观保持,实现可控且逼真的物体合成。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 物体合成 几何编辑 外观保持 扩散模型 交叉注意力

📋 核心要点

  1. 现有物体合成方法在几何编辑的同时,难以保持物体精细的外观细节,导致合成效果不佳。
  2. DGAD模型通过解耦几何编辑和外观保持,利用语义嵌入控制几何形变,并使用交叉注意力机制对齐外观特征。
  3. 实验结果表明,DGAD模型在物体合成任务上,能够实现更精确的几何编辑和更逼真的外观保持。

📝 摘要(中文)

通用物体合成(GOC)旨在将目标物体无缝集成到具有所需几何属性的背景场景中,同时保留其精细的外观细节。现有方法利用语义嵌入并将其集成到高级扩散模型中以实现几何可编辑生成。然而,这些高度紧凑的嵌入仅编码高级语义线索,不可避免地会丢弃精细的外观细节。我们提出了一种解耦的几何可编辑和外观保持扩散(DGAD)模型,该模型首先利用语义嵌入来隐式捕获所需的几何变换,然后采用交叉注意力检索机制将精细的外观特征与几何编辑后的表示对齐,从而在物体合成中实现精确的几何编辑和忠实的外观保持。具体来说,DGAD建立在CLIP/DINO派生的参考网络之上,以提取语义嵌入和外观保持表示,然后以解耦的方式将其无缝集成到编码和解码流程中。我们首先将语义嵌入集成到具有强大空间推理能力的预训练扩散模型中,以隐式捕获物体几何形状,从而促进灵活的物体操作并确保有效的可编辑性。然后,我们设计了一种密集交叉注意力机制,该机制利用隐式学习的物体几何形状来检索外观特征,并在空间上将外观特征与其对应的区域对齐,从而确保忠实的外观一致性。在公共基准上的大量实验证明了所提出的DGAD框架的有效性。

🔬 方法详解

问题定义:通用物体合成(GOC)旨在将目标物体无缝地融入背景场景中,同时允许用户控制物体的几何属性(如位置、大小、方向)。现有方法,特别是基于扩散模型的方法,虽然可以通过语义嵌入实现几何编辑,但往往会丢失物体原有的精细外观细节,导致合成结果不够真实自然。现有方法难以兼顾几何可控性和外观保真度。

核心思路:DGAD的核心思路是将几何编辑和外观保持解耦。首先,利用语义嵌入来隐式地控制物体的几何形变,这部分主要依赖预训练扩散模型的强大空间推理能力。然后,通过一个交叉注意力机制,将原始物体的外观特征(从参考网络中提取)与经过几何编辑后的特征进行对齐,从而保证合成后的物体既具有期望的几何形状,又保留了原有的外观细节。

技术框架:DGAD模型主要包含以下几个模块:1) 语义嵌入提取模块:利用CLIP/DINO等模型提取输入图像的语义嵌入,用于指导几何编辑。2) 几何编辑模块:将语义嵌入集成到预训练的扩散模型中,通过调整扩散过程来隐式地控制物体的几何形状。3) 外观特征提取模块:使用参考网络提取原始物体的外观特征,这些特征将被用于后续的外观对齐。4) 交叉注意力对齐模块:设计了一个密集的交叉注意力机制,将几何编辑后的特征与外观特征进行对齐,从而保证合成结果的外观保真度。整个流程可以概括为:输入图像 -> 语义嵌入 -> 几何编辑 -> 外观特征提取 -> 交叉注意力对齐 -> 合成结果。

关键创新:DGAD模型的关键创新在于解耦了几何编辑和外观保持,并设计了一个交叉注意力机制来实现外观特征的对齐。与现有方法相比,DGAD模型能够更好地平衡几何可控性和外观保真度,从而生成更逼真、更符合用户期望的合成结果。现有方法通常将几何和外观信息混合在同一个嵌入中,导致难以同时控制两者。

关键设计:DGAD的关键设计包括:1) 使用预训练的扩散模型作为几何编辑的基础,利用其强大的空间推理能力。2) 设计了一个密集的交叉注意力机制,该机制能够有效地将外观特征与几何编辑后的特征进行对齐。3) 使用CLIP/DINO等模型提取语义嵌入,这些嵌入能够有效地表示物体的语义信息,并指导几何编辑。4) 损失函数的设计可能包含对抗损失、感知损失等,以提高合成结果的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在公共基准测试中,DGAD模型在物体合成任务上取得了显著的性能提升。实验结果表明,DGAD模型能够生成更逼真、更符合用户期望的合成结果。具体性能数据(如FID、LPIPS等)和对比基线(如其他物体合成方法)的详细信息需要在论文中查找。

🎯 应用场景

DGAD模型可应用于图像编辑、虚拟现实、游戏开发等领域。例如,用户可以使用DGAD模型将一个物体放置到新的场景中,并调整其大小、位置和方向,同时保持物体原有的外观细节。该技术还可以用于生成逼真的虚拟内容,例如虚拟人物、虚拟场景等,从而提高用户体验。

📄 摘要(原文)

General object composition (GOC) aims to seamlessly integrate a target object into a background scene with desired geometric properties, while simultaneously preserving its fine-grained appearance details. Recent approaches derive semantic embeddings and integrate them into advanced diffusion models to enable geometry-editable generation. However, these highly compact embeddings encode only high-level semantic cues and inevitably discard fine-grained appearance details. We introduce a Disentangled Geometry-editable and Appearance-preserving Diffusion (DGAD) model that first leverages semantic embeddings to implicitly capture the desired geometric transformations and then employs a cross-attention retrieval mechanism to align fine-grained appearance features with the geometry-edited representation, facilitating both precise geometry editing and faithful appearance preservation in object composition. Specifically, DGAD builds on CLIP/DINO-derived and reference networks to extract semantic embeddings and appearance-preserving representations, which are then seamlessly integrated into the encoding and decoding pipelines in a disentangled manner. We first integrate the semantic embeddings into pre-trained diffusion models that exhibit strong spatial reasoning capabilities to implicitly capture object geometry, thereby facilitating flexible object manipulation and ensuring effective editability. Then, we design a dense cross-attention mechanism that leverages the implicitly learned object geometry to retrieve and spatially align appearance features with their corresponding regions, ensuring faithful appearance consistency. Extensive experiments on public benchmarks demonstrate the effectiveness of the proposed DGAD framework.