Dragging with Geometry: From Pixels to Geometry-Guided Image Editing

📄 arXiv: 2509.25740v1 📥 PDF

作者: Xinyu Pu, Hongsong Wang, Jie Gui, Pan Zhou

分类: cs.CV

发布日期: 2025-09-30

🔗 代码/项目: GITHUB


💡 一句话要点

提出GeoDrag,通过几何引导实现精确、结构一致的图像拖拽编辑

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 图像编辑 拖拽式编辑 3D几何引导 位移场 结构一致性

📋 核心要点

  1. 现有拖拽式图像编辑方法缺乏对3D几何信息的有效利用,导致在几何变换场景下编辑精度和一致性较差。
  2. GeoDrag通过统一的位移场融合3D几何和2D空间先验,实现几何引导下的图像编辑,保证编辑的连贯性和结构一致性。
  3. 实验表明,GeoDrag在多种编辑场景下均表现出卓越的精度和结构一致性,并支持可靠的多点编辑。

📝 摘要(中文)

交互式基于点的图像编辑是一种可控的编辑方式,能够精确且灵活地操纵图像内容。然而,大多数基于拖拽的方法主要在2D像素平面上操作,对3D线索的利用有限。因此,它们经常产生不精确和不一致的编辑结果,尤其是在旋转和透视变换等几何密集型场景中。为了解决这些局限性,我们提出了一种新的几何引导的拖拽式图像编辑方法——GeoDrag,它解决了三个关键挑战:1) 将3D几何线索融入像素级编辑,2) 减轻仅由几何引导引起的不连续性,3) 解决多点拖拽引起的冲突。GeoDrag建立在一个统一的位移场之上,该位移场共同编码了3D几何和2D空间先验,从而能够在单个前向传递中实现连贯、高保真和结构一致的编辑。此外,还引入了一种无冲突的分区策略来隔离编辑区域,有效地防止干扰并确保一致性。在各种编辑场景中进行的大量实验验证了我们方法的有效性,显示出卓越的精度、结构一致性和可靠的多点可编辑性。

🔬 方法详解

问题定义:现有基于拖拽的图像编辑方法主要在2D像素平面上操作,忽略了图像的3D几何信息。这导致在涉及旋转、透视变换等几何操作时,编辑结果往往不精确、不连贯,并且容易产生结构上的不一致性。此外,多点拖拽时容易产生冲突,影响编辑效果。

核心思路:GeoDrag的核心思路是将3D几何信息融入到像素级别的拖拽编辑中,利用3D几何先验来指导像素的位移,从而提高编辑的精度和结构一致性。同时,通过无冲突的分区策略来解决多点拖拽时的冲突问题。这样既能利用3D几何信息,又能避免完全依赖几何信息带来的不连续性。

技术框架:GeoDrag的整体框架包含以下几个主要模块:1) 3D几何估计模块:用于估计图像的深度信息和表面法向量等3D几何信息。2) 位移场生成模块:该模块生成一个统一的位移场,该位移场同时编码了3D几何信息和2D空间先验。3) 图像变形模块:该模块根据位移场对图像进行变形,从而实现图像编辑。4) 无冲突分区模块:该模块将图像划分为多个互不干扰的编辑区域,从而解决多点拖拽时的冲突问题。

关键创新:GeoDrag的关键创新在于:1) 提出了一个统一的位移场,该位移场能够同时编码3D几何信息和2D空间先验,从而实现几何引导下的图像编辑。2) 引入了一种无冲突的分区策略,能够有效地解决多点拖拽时的冲突问题。3) 将3D几何信息融入到像素级别的拖拽编辑中,从而提高了编辑的精度和结构一致性。

关键设计:GeoDrag的关键设计包括:1) 使用深度估计网络和表面法向量估计网络来获取图像的3D几何信息。2) 位移场生成模块使用一个神经网络来学习3D几何信息和2D空间先验之间的关系,从而生成一个统一的位移场。3) 无冲突分区模块使用一种基于Voronoi图的算法来将图像划分为多个互不干扰的编辑区域。损失函数的设计目标是最小化编辑后的图像与用户期望的编辑结果之间的差异,同时保持图像的结构一致性。

📊 实验亮点

实验结果表明,GeoDrag在多个图像编辑场景下均优于现有的基于拖拽的图像编辑方法。例如,在旋转场景下,GeoDrag能够更精确地旋转图像,并且能够保持图像的结构一致性。在多点拖拽场景下,GeoDrag能够有效地解决冲突问题,并且能够生成更自然的编辑结果。定量指标和定性结果均验证了GeoDrag的有效性。

🎯 应用场景

GeoDrag可应用于图像修复、图像风格迁移、三维模型编辑等领域。它能够帮助用户更精确、更自然地编辑图像,提高图像编辑的效率和质量。该技术在游戏开发、电影制作、广告设计等行业具有广泛的应用前景,并有望推动虚拟现实和增强现实技术的发展。

📄 摘要(原文)

Interactive point-based image editing serves as a controllable editor, enabling precise and flexible manipulation of image content. However, most drag-based methods operate primarily on the 2D pixel plane with limited use of 3D cues. As a result, they often produce imprecise and inconsistent edits, particularly in geometry-intensive scenarios such as rotations and perspective transformations. To address these limitations, we propose a novel geometry-guided drag-based image editing method - GeoDrag, which addresses three key challenges: 1) incorporating 3D geometric cues into pixel-level editing, 2) mitigating discontinuities caused by geometry-only guidance, and 3) resolving conflicts arising from multi-point dragging. Built upon a unified displacement field that jointly encodes 3D geometry and 2D spatial priors, GeoDrag enables coherent, high-fidelity, and structure-consistent editing in a single forward pass. In addition, a conflict-free partitioning strategy is introduced to isolate editing regions, effectively preventing interference and ensuring consistency. Extensive experiments across various editing scenarios validate the effectiveness of our method, showing superior precision, structural consistency, and reliable multi-point editability. The code will be available on https://github.com/xinyu-pu/GeoDrag .