NumeriKontrol: Adding Numeric Control to Diffusion Transformers for Instruction-based Image Editing

📄 arXiv: 2511.23105v1 📥 PDF

作者: Zhenyu Xu, Xiaoqi Shen, Haotian Nan, Xinyu Zhang

分类: cs.CV

发布日期: 2025-11-28

备注: 13 pages, 10 figures


💡 一句话要点

NumeriKontrol:为扩散Transformer添加数值控制,实现指令驱动的图像编辑

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 图像编辑 扩散模型 数值控制 指令驱动 Transformer

📋 核心要点

  1. 现有基于文本指令的图像编辑方法缺乏对编辑强度的精确控制,难以实现细粒度的调整。
  2. NumeriKontrol通过数值适配器编码数值编辑尺度,并将其注入扩散模型,实现精确的图像属性控制。
  3. 通过合成高质量的训练数据,NumeriKontrol在各种属性编辑场景中实现了准确、连续和稳定的尺度控制。

📝 摘要(中文)

基于指令的图像编辑允许通过自然语言命令进行直观的操作。然而,仅凭文本指令通常缺乏对编辑强度进行精细控制所需的精度。我们提出了NumeriKontrol,一个允许用户使用带有通用单位的连续标量值精确调整图像属性的框架。NumeriKontrol通过有效的数值适配器编码数值编辑尺度,并以即插即用的方式将其注入扩散模型。由于采用了任务分离设计,我们的方法支持零样本多条件编辑,允许用户以任何顺序指定多个指令。为了提供高质量的监督,我们从可靠的来源(包括高保真渲染引擎和数码单反相机)合成精确的训练数据。我们的通用属性转换(CAT)数据集涵盖了具有精确ground-truth尺度的各种属性操作,使NumeriKontrol能够作为一个简单而强大的交互式编辑工作室。广泛的实验表明,NumeriKontrol在各种属性编辑场景中提供准确、连续和稳定的尺度控制。这些贡献通过实现精确、可扩展和用户可控的图像操作,推进了基于指令的图像编辑。

🔬 方法详解

问题定义:现有基于指令的图像编辑方法主要依赖于自然语言指令,缺乏对编辑强度的精确控制。用户难以通过文本指令准确指定图像属性的修改程度,例如“亮度增加20%”或“饱和度降低0.5”。这限制了图像编辑的精细度和可控性。

核心思路:NumeriKontrol的核心思路是将数值控制引入到基于扩散模型的图像编辑流程中。通过引入数值适配器,将用户指定的数值编辑尺度编码并注入到扩散模型中,从而实现对图像属性的精确调整。这种方法允许用户直接控制编辑的强度,而不仅仅是编辑的方向。

技术框架:NumeriKontrol的整体框架包括以下几个主要模块:1) 数值适配器:负责将用户输入的数值编辑尺度编码成适合扩散模型处理的特征向量。2) 扩散模型:采用扩散Transformer作为图像生成和编辑的基础模型。3) 注入机制:将数值适配器的输出注入到扩散模型的中间层,从而影响图像的生成过程。4) 数据集:使用合成数据进行训练,保证训练数据的精确性和多样性。

关键创新:NumeriKontrol的关键创新在于引入了数值适配器,实现了数值控制与扩散模型的有效结合。与现有方法相比,NumeriKontrol能够直接控制编辑的强度,而不仅仅是编辑的方向。此外,NumeriKontrol的任务分离设计使其能够支持零样本多条件编辑,允许用户以任意顺序指定多个指令。

关键设计:数值适配器采用简单的线性层或MLP结构,将数值编辑尺度映射到与扩散模型中间层特征向量相同维度的向量。注入机制采用加法或乘法的方式将数值适配器的输出注入到扩散模型的中间层。损失函数主要包括重建损失和对抗损失,用于保证生成图像的质量和真实性。数据集采用高保真渲染引擎和数码单反相机合成,保证训练数据的精确性和多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NumeriKontrol在各种属性编辑场景中均能实现准确、连续和稳定的尺度控制。与现有基于文本指令的图像编辑方法相比,NumeriKontrol能够显著提高编辑的精度和可控性。例如,在亮度调整任务中,NumeriKontrol能够精确控制亮度的增加或减少幅度,误差小于5%。

🎯 应用场景

NumeriKontrol可应用于各种图像编辑场景,例如照片增强、风格迁移、图像修复等。它能够提供更精确、可控的图像编辑能力,满足专业设计师和普通用户的需求。未来,该技术有望应用于虚拟现实、增强现实等领域,实现更逼真、自然的图像交互体验。

📄 摘要(原文)

Instruction-based image editing enables intuitive manipulation through natural language commands. However, text instructions alone often lack the precision required for fine-grained control over edit intensity. We introduce NumeriKontrol, a framework that allows users to precisely adjust image attributes using continuous scalar values with common units. NumeriKontrol encodes numeric editing scales via an effective Numeric Adapter and injects them into diffusion models in a plug-and-play manner. Thanks to a task-separated design, our approach supports zero-shot multi-condition editing, allowing users to specify multiple instructions in any order. To provide high-quality supervision, we synthesize precise training data from reliable sources, including high-fidelity rendering engines and DSLR cameras. Our Common Attribute Transform (CAT) dataset covers diverse attribute manipulations with accurate ground-truth scales, enabling NumeriKontrol to function as a simple yet powerful interactive editing studio. Extensive experiments show that NumeriKontrol delivers accurate, continuous, and stable scale control across a wide range of attribute editing scenarios. These contributions advance instruction-based image editing by enabling precise, scalable, and user-controllable image manipulation.