ObjectMorpher: 3D-Aware Image Editing via Deformable 3DGS Models

📄 arXiv: 2603.28152v1 📥 PDF

作者: Yuhuan Xie, Aoxuan Pan, Yi-Hua Huang, Chirui Chang, Peng Dai, Xin Yu, Xiaojuan Qi

分类: cs.CV

发布日期: 2026-03-30

备注: 11 pages, 8 figures


💡 一句话要点

提出ObjectMorpher以解决2D图像编辑缺乏3D感知的问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 图像编辑 3D感知 高斯点云 非刚性变形 复合扩散模块 计算机视觉 交互框架

📋 核心要点

  1. 现有的2D图像编辑方法缺乏3D感知,导致编辑结果模糊且不合理,3D感知方法则依赖复杂的优化过程。
  2. ObjectMorpher通过图像到3D生成器将目标实例转化为可编辑的3D高斯点云,提供快速且身份保持的操作。
  3. 在多个类别的实验中,ObjectMorpher在可控性和效率上超越了传统的2D和3D感知方法,提供了细致的图像编辑效果。

📝 摘要(中文)

在图像编辑中,实现精确的对象级控制仍然具有挑战性:2D方法缺乏3D感知,常常产生模糊或不合理的结果,而现有的3D感知方法则依赖于复杂的优化或不完整的单目重建。我们提出了ObjectMorpher,这是一个统一的交互框架,将模糊的2D编辑转换为基于几何的操作。ObjectMorpher通过图像到3D生成器将目标实例提升为可编辑的3D高斯点云(3DGS),实现快速且保持身份的操作。用户可以拖动控制点,基于图的非刚性变形结合尽可能刚性的约束,确保形状和姿态变化的物理合理性。复合扩散模块协调光照、颜色和边界,实现无缝再集成。ObjectMorpher在多个类别中提供细致、逼真的编辑,具备更高的可控性和效率,在KID、LPIPS、SIFID和用户偏好上超越了2D拖动和3D感知基线。

🔬 方法详解

问题定义:论文旨在解决现有2D图像编辑方法缺乏3D感知的问题,导致编辑结果模糊且不合理,同时现有3D感知方法依赖于复杂的优化或不完整的重建,限制了其应用。

核心思路:ObjectMorpher的核心思路是将模糊的2D编辑转化为基于几何的操作,通过图像到3D生成器将目标实例提升为可编辑的3D高斯点云,从而实现快速且保持身份的操作。

技术框架:整体架构包括图像到3D生成器、3D高斯点云编辑模块和复合扩散模块。用户通过拖动控制点进行编辑,系统利用图的非刚性变形和ARAP约束确保形状和姿态变化的物理合理性。

关键创新:最重要的技术创新在于将2D编辑与3D感知结合,通过3D高斯点云实现高效的编辑操作,克服了传统方法的局限性。

关键设计:在设计中,采用了图的非刚性变形方法,结合ARAP约束,确保编辑过程中的物理合理性。同时,复合扩散模块用于协调光照、颜色和边界,实现无缝再集成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ObjectMorpher在KID、LPIPS、SIFID等指标上超越了传统的2D拖动和3D感知基线,提供了更细致、逼真的编辑效果,用户偏好也明显倾向于使用ObjectMorpher进行编辑。

🎯 应用场景

该研究的潜在应用领域包括数字内容创作、游戏设计和虚拟现实等。ObjectMorpher能够为用户提供更高效、精确的图像编辑工具,提升创作效率和质量,未来可能在多种视觉创作场景中发挥重要作用。

📄 摘要(原文)

Achieving precise, object-level control in image editing remains challenging: 2D methods lack 3D awareness and often yield ambiguous or implausible results, while existing 3D-aware approaches rely on heavy optimization or incomplete monocular reconstructions. We present ObjectMorpher, a unified, interactive framework that converts ambiguous 2D edits into geometry-grounded operations. ObjectMorpher lifts target instances with an image-to-3D generator into editable 3D Gaussian Splatting (3DGS), enabling fast, identity-preserving manipulation. Users drag control points; a graph-based non-rigid deformation with as-rigid-as-possible (ARAP) constraints ensures physically sensible shape and pose changes. A composite diffusion module harmonizes lighting, color, and boundaries for seamless reintegration. Across diverse categories, ObjectMorpher delivers fine-grained, photorealistic edits with superior controllability and efficiency, outperforming 2D drag and 3D-aware baselines on KID, LPIPS, SIFID, and user preference.