FlowDrag: 3D-aware Drag-based Image Editing with Mesh-guided Deformation Vector Flow Fields

📄 arXiv: 2507.08285v1 📥 PDF

作者: Gwanhyeong Koo, Sunjae Yoon, Younghwan Lee, Ji Woo Hong, Chang D. Yoo

分类: cs.GR, cs.CV

发布日期: 2025-07-11

备注: ICML 2025 Spotlight


💡 一句话要点

FlowDrag:利用网格引导形变矢量流场实现3D感知的拖拽式图像编辑

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 拖拽式编辑 3D感知 网格变形 形变矢量流场 图像编辑 UNet 去噪扩散模型

📋 核心要点

  1. 现有拖拽式图像编辑方法忽略图像的几何信息,导致编辑结果出现几何不一致性,产生伪影。
  2. FlowDrag通过构建3D网格并利用能量函数引导网格变形,将网格位移投影到2D并融入UNet去噪过程,从而实现精确编辑。
  3. 论文提出了VFD基准数据集,并验证了FlowDrag在VFD Bench和DragBench上优于现有方法,提升了编辑质量。

📝 摘要(中文)

拖拽式编辑通过基于点的控制实现精确的对象操作,为用户提供便利。然而,当前方法通常只关注匹配用户定义的点,忽略了更广泛的几何信息,导致几何不一致问题,产生伪影或不稳定的编辑结果。我们提出了FlowDrag,它利用几何信息来实现更准确和连贯的变换。我们的方法从图像构建3D网格,使用能量函数来引导网格变形,该变形基于用户定义的拖拽点。然后,将得到的网格位移投影到2D,并将其整合到UNet去噪过程中,从而在保持结构完整性的同时,实现精确的控制点到目标点的对齐。此外,现有的拖拽编辑基准测试没有提供ground truth,难以评估编辑与预期变换的匹配程度。为了解决这个问题,我们提出了VFD (VidFrameDrag) 基准数据集,该数据集使用视频数据集中连续的镜头提供ground-truth帧。FlowDrag在VFD Bench和DragBench上都优于现有的拖拽式编辑方法。

🔬 方法详解

问题定义:现有的拖拽式图像编辑方法主要依赖于用户指定的控制点,而忽略了图像的整体几何结构。这种做法容易导致编辑后的图像出现不自然的扭曲、变形等几何不一致性问题,影响编辑质量和用户体验。此外,缺乏带有ground truth的基准数据集也限制了对拖拽编辑算法性能的客观评估。

核心思路:FlowDrag的核心思路是利用图像的3D几何信息来指导拖拽编辑过程。具体来说,首先从图像中重建出一个3D网格,然后通过优化一个能量函数来驱动网格的变形,该能量函数的目标是使网格的变形与用户指定的拖拽操作相符,同时保持网格的平滑性和结构的完整性。这样,编辑操作不仅会影响控制点周围的区域,还会考虑到图像的整体几何结构,从而产生更自然、更连贯的编辑结果。

技术框架:FlowDrag的整体框架包括以下几个主要步骤:1) 3D网格重建:从输入图像中估计深度信息,并构建一个3D网格模型。2) 网格变形:根据用户指定的拖拽点,通过优化能量函数来变形3D网格。能量函数包含数据项(确保控制点移动到目标位置)和平滑项(保持网格的平滑性)。3) 2D形变矢量场生成:将3D网格的变形投影到2D图像平面,生成一个形变矢量场。4) 图像编辑:将形变矢量场输入到一个UNet结构的去噪扩散模型中,利用该模型对图像进行编辑,实现精确的控制点对齐,同时保持图像的结构完整性。

关键创新:FlowDrag的关键创新在于将3D几何信息融入到拖拽式图像编辑中,通过3D网格的变形来指导2D图像的编辑。这种方法能够更好地保持图像的结构完整性和几何一致性,从而产生更自然、更逼真的编辑结果。此外,提出的VFD数据集填补了拖拽编辑领域缺乏ground truth数据集的空白。

关键设计:能量函数的设计是FlowDrag的关键。能量函数通常包含以下几项:1) 数据项:惩罚控制点与其目标位置之间的偏差。2) 平滑项:惩罚网格的局部变形,鼓励平滑的变形。3) 结构保持项:惩罚网格结构的改变,保持图像的整体结构。UNet去噪扩散模型用于将形变矢量场融入到图像编辑中,该模型能够学习到图像的先验知识,从而产生更逼真的编辑结果。VFD数据集包含视频帧及其对应的光流信息,可以用于评估拖拽编辑算法的精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FlowDrag在VFD Bench和DragBench两个基准测试数据集上都取得了显著的性能提升。在VFD Bench上,FlowDrag能够生成更接近ground truth的编辑结果,表明其具有更高的编辑精度。在DragBench上,FlowDrag也优于现有的拖拽式编辑方法,表明其具有更好的泛化能力和鲁棒性。实验结果表明,FlowDrag能够有效地解决现有方法存在的几何不一致性问题,生成更自然、更逼真的编辑结果。

🎯 应用场景

FlowDrag具有广泛的应用前景,例如照片编辑、艺术创作、虚拟现实和增强现实等领域。用户可以使用FlowDrag轻松地对图像中的对象进行精确的移动、变形和重塑,从而实现各种创意效果。该技术还可以应用于游戏开发中,用于创建更逼真的角色动画和场景互动。未来,FlowDrag有望成为一种重要的图像编辑工具,为用户提供更强大、更灵活的编辑能力。

📄 摘要(原文)

Drag-based editing allows precise object manipulation through point-based control, offering user convenience. However, current methods often suffer from a geometric inconsistency problem by focusing exclusively on matching user-defined points, neglecting the broader geometry and leading to artifacts or unstable edits. We propose FlowDrag, which leverages geometric information for more accurate and coherent transformations. Our approach constructs a 3D mesh from the image, using an energy function to guide mesh deformation based on user-defined drag points. The resulting mesh displacements are projected into 2D and incorporated into a UNet denoising process, enabling precise handle-to-target point alignment while preserving structural integrity. Additionally, existing drag-editing benchmarks provide no ground truth, making it difficult to assess how accurately the edits match the intended transformations. To address this, we present VFD (VidFrameDrag) benchmark dataset, which provides ground-truth frames using consecutive shots in a video dataset. FlowDrag outperforms existing drag-based editing methods on both VFD Bench and DragBench.