InteractEdit: Zero-Shot Editing of Human-Object Interactions in Images

📄 arXiv: 2503.09130v1 📥 PDF

作者: Jiun Tian Hoe, Weipeng Hu, Wei Zhou, Chao Xie, Ziwei Wang, Chee Seng Chan, Xudong Jiang, Yap-Peng Tan

分类: cs.GR, cs.CV, cs.MM

发布日期: 2025-03-12

备注: Website: https://jiuntian.github.io/interactedit


💡 一句话要点

InteractEdit:提出零样本人-物交互编辑框架,实现图像中交互关系的转换。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人-物交互编辑 零样本学习 图像编辑 低秩适应 选择性微调 场景分解 IEBench基准

📋 核心要点

  1. 现有HOI编辑方法难以适应新交互所需的结构变化,过度拟合源图像结构。
  2. InteractEdit将场景分解为主体、客体和背景,利用LoRA和选择性微调平衡交互编辑和身份一致性。
  3. IEBench是全面的HOI编辑基准,实验表明InteractEdit显著优于现有方法,具有实际应用潜力。

📝 摘要(中文)

本文提出InteractEdit,一个新颖的零样本人-物交互(HOI)编辑框架,旨在解决将图像中现有交互转换为新的、期望的交互这一具有挑战性的任务,同时保持主体和客体的身份不变。与属性操作、对象替换或风格迁移等更简单的图像编辑场景不同,HOI编辑涉及人类-对象交互中固有的复杂空间、上下文和关系依赖性。现有方法通常过度拟合源图像结构,限制了它们适应新交互所需的大量结构修改的能力。为了解决这个问题,InteractEdit将每个场景分解为主体、客体和背景组件,然后采用低秩适应(LoRA)和选择性微调来保留预训练的交互先验,同时学习源图像的视觉身份。这种正则化策略有效地平衡了交互编辑和身份一致性。我们进一步引入了IEBench,这是最全面的HOI编辑基准,用于评估交互编辑和身份保持。我们广泛的实验表明,InteractEdit显著优于现有方法,为未来的HOI编辑研究建立了强大的基线,并开启了创造性和实际应用的新可能性。代码将在发布后公开。

🔬 方法详解

问题定义:论文旨在解决零样本人-物交互(HOI)编辑问题,即在图像中将现有的人与物体的交互关系修改为新的交互关系,同时保持人和物体的身份不变。现有方法的痛点在于,它们往往过度拟合源图像的结构,难以适应新交互关系带来的大幅度结构变化,导致编辑效果不佳。

核心思路:论文的核心思路是将图像场景分解为三个组成部分:主体(人)、客体(物体)和背景。然后,利用低秩适应(LoRA)和选择性微调策略,在保留预训练模型中交互先验知识的同时,学习源图像的视觉特征。这种方法旨在平衡交互编辑的灵活性和身份保持的一致性。

技术框架:InteractEdit框架主要包含以下几个阶段:1) 场景分解:将输入图像分解为主体、客体和背景三个部分。2) 特征提取:利用预训练模型提取主体、客体和背景的特征。3) LoRA和选择性微调:使用LoRA技术对预训练模型进行微调,同时选择性地更新模型的参数,以保留交互先验知识并学习源图像的视觉特征。4) 图像合成:将编辑后的主体、客体和背景重新合成为新的图像。

关键创新:该论文的关键创新在于提出了一个零样本HOI编辑框架,该框架能够有效地将图像中现有的人与物体的交互关系修改为新的交互关系,同时保持人和物体的身份不变。此外,该论文还提出了一个全面的HOI编辑基准IEBench,用于评估HOI编辑算法的性能。

关键设计:论文使用了低秩适应(LoRA)技术,通过学习低秩矩阵来更新预训练模型的参数,从而减少了需要训练的参数数量,提高了训练效率。此外,论文还使用了选择性微调策略,只更新与交互关系相关的模型参数,从而更好地保留了交互先验知识。具体的损失函数和网络结构等技术细节在论文中有详细描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InteractEdit在IEBench基准测试中显著优于现有方法,证明了其在HOI编辑方面的优越性能。具体性能数据和提升幅度在摘要中未给出,但强调了该方法为未来的HOI编辑研究建立了强大的基线。该方法在交互编辑和身份保持方面都取得了显著的成果。

🎯 应用场景

InteractEdit在图像编辑、虚拟现实、游戏开发等领域具有广泛的应用前景。例如,可以用于创建新的交互场景,增强图像的真实感和趣味性。此外,该技术还可以应用于机器人控制领域,使机器人能够根据用户的指令,与环境中的物体进行交互。该研究为HOI编辑领域开辟了新的方向,具有重要的实际价值和未来影响。

📄 摘要(原文)

This paper presents InteractEdit, a novel framework for zero-shot Human-Object Interaction (HOI) editing, addressing the challenging task of transforming an existing interaction in an image into a new, desired interaction while preserving the identities of the subject and object. Unlike simpler image editing scenarios such as attribute manipulation, object replacement or style transfer, HOI editing involves complex spatial, contextual, and relational dependencies inherent in humans-objects interactions. Existing methods often overfit to the source image structure, limiting their ability to adapt to the substantial structural modifications demanded by new interactions. To address this, InteractEdit decomposes each scene into subject, object, and background components, then employs Low-Rank Adaptation (LoRA) and selective fine-tuning to preserve pretrained interaction priors while learning the visual identity of the source image. This regularization strategy effectively balances interaction edits with identity consistency. We further introduce IEBench, the most comprehensive benchmark for HOI editing, which evaluates both interaction editing and identity preservation. Our extensive experiments show that InteractEdit significantly outperforms existing methods, establishing a strong baseline for future HOI editing research and unlocking new possibilities for creative and practical applications. Code will be released upon publication.