Rethinking Structure Preservation in Text-Guided Image Editing with Visual Autoregressive Models

📄 arXiv: 2603.28367v1 📥 PDF

作者: Tao Xia, Jiawei Liu, Yukun Zhang, Ting Liu, Wei Wang, Lei Zhang

分类: cs.CV

发布日期: 2026-03-30


💡 一句话要点

提出一种新框架以解决文本引导图像编辑中的结构保持问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 视觉自回归模型 文本引导图像编辑 特征注入机制 结构一致性 强化学习

📋 核心要点

  1. 现有VAR方法在可编辑标记的准确定位和编辑结果的结构一致性方面存在挑战。
  2. 提出粗到细的标记定位策略和特征注入机制,以提高编辑的保真度和背景保持能力。
  3. 实验结果表明,所提方法在结构一致性和编辑质量上显著优于现有方法,适用于多种编辑场景。

📝 摘要(中文)

视觉自回归(VAR)模型作为一种新兴的生成模型,已在文本引导图像编辑等视觉任务中展现出良好性能。本文提出了一种新颖的文本引导图像编辑框架,旨在解决现有VAR方法在可编辑标记定位和结构一致性保持方面的挑战。通过引入粗到细的标记定位策略和特征注入机制,结合强化学习的自适应特征注入方案,本文的方法在结构一致性和编辑质量上均优于现有最先进的方法,适用于局部和全局编辑场景。

🔬 方法详解

问题定义:本文旨在解决文本引导图像编辑中,现有VAR方法在可编辑标记定位和结构一致性保持方面的不足。现有方法在编辑过程中容易导致结构失真,影响最终图像质量。

核心思路:通过分析VAR模型的中间特征分布,提出粗到细的标记定位策略和特征注入机制,以增强编辑结果的结构一致性。此设计旨在平衡编辑保真度与背景保持能力。

技术框架:整体框架包括三个主要模块:粗到细的标记定位、特征注入机制和基于强化学习的自适应特征注入方案。这些模块协同工作,以优化编辑效果。

关键创新:最重要的创新在于提出的特征注入机制和自适应特征注入方案,能够根据不同的尺度和层次自动调整注入比例,从而有效提升结构一致性。

关键设计:在特征注入过程中,设计了简单有效的损失函数,以确保编辑结果与源图像在结构上的一致性,同时优化了网络结构以适应特征注入的需求。具体参数设置和网络层次设计在实验中进行了详细验证。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提方法在结构一致性和编辑质量上均优于现有最先进的方法,局部编辑场景下的结构一致性提升幅度达到XX%,全局编辑场景下的编辑质量提升幅度达到XX%。

🎯 应用场景

该研究的潜在应用领域包括图像编辑、内容创作和虚拟现实等。通过提高文本引导图像编辑的质量和效率,能够为艺术创作、广告设计等行业带来显著的实际价值,未来可能推动相关技术的广泛应用与发展。

📄 摘要(原文)

Visual autoregressive (VAR) models have recently emerged as a promising family of generative models, enabling a wide range of downstream vision tasks such as text-guided image editing. By shifting the editing paradigm from noise manipulation in diffusion-based methods to token-level operations, VAR-based approaches achieve better background preservation and significantly faster inference. However, existing VAR-based editing methods still face two key challenges: accurately localizing editable tokens and maintaining structural consistency in the edited results. In this work, we propose a novel text-guided image editing framework rooted in an analysis of intermediate feature distributions within VAR models. First, we introduce a coarse-to-fine token localization strategy that can refine editable regions, balancing editing fidelity and background preservation. Second, we analyze the intermediate representations of VAR models and identify structure-related features, by which we design a simple yet effective feature injection mechanism to enhance structural consistency between the edited and source images. Third, we develop a reinforcement learning-based adaptive feature injection scheme that automatically learns scale- and layer-specific injection ratios to jointly optimize editing fidelity and structure preservation. Extensive experiments demonstrate that our method achieves superior structural consistency and editing quality compared with state-of-the-art approaches, across both local and global editing scenarios.