TexEditor: Structure-Preserving Text-Driven Texture Editing
作者: Bo Zhao, Yihang Liu, Chenfeng Zhang, Huan Yang, Kun Gai, Wei Ji
分类: cs.CV
发布日期: 2026-03-19
备注: 19pages
🔗 代码/项目: GITHUB
💡 一句话要点
TexEditor:提出结构保持的文本驱动纹理编辑方法
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 文本驱动图像编辑 纹理编辑 结构保持 强化学习 合成数据 真实感图像编辑
📋 核心要点
- 现有文本引导的纹理编辑模型在修改外观时,难以保持物体原有的几何结构,导致编辑结果不自然。
- TexEditor通过构建高质量合成数据集TexBlender和引入StructureNFT强化学习方法,从数据和训练两方面增强结构保持能力。
- TexEditor在合成数据集和真实数据集上均优于现有方法,并在通用图像编辑基准上表现出良好的泛化能力。
📝 摘要(中文)
本文提出了一种文本引导的纹理编辑方法,旨在修改物体外观的同时保持其潜在的几何结构。通过实证分析发现,即使是最先进的编辑模型在纹理编辑过程中也难以维持结构一致性,尽管目标修改纯粹与外观相关。基于此,本文从数据和训练两个角度共同增强结构保持能力,并构建了基于Qwen-Image-Edit-2509的专用纹理编辑模型TexEditor。首先,构建了使用Blender生成的高质量SFT数据集TexBlender,为冷启动提供强大的结构先验。其次,引入了基于强化学习的StructureNFT方法,该方法集成了结构保持损失,将SFT期间学习的结构先验迁移到真实场景。此外,由于现有基准测试的真实感和评估覆盖范围有限,本文引入了TexBench,这是一个用于文本引导纹理编辑的通用真实世界基准。在现有的基于Blender的纹理基准测试和TexBench上的大量实验表明,TexEditor始终优于Nano Banana Pro等强大的基线。此外,还在通用基准ImgEdit上评估了TexEditor,以验证其泛化能力。代码和数据可在https://github.com/KlingAIResearch/TexEditor 获取。
🔬 方法详解
问题定义:文本驱动的纹理编辑旨在根据给定的文本描述修改图像中物体的纹理,同时保持物体的几何结构不变。现有方法在编辑过程中容易破坏物体的结构,导致编辑后的图像不自然,缺乏真实感。现有基准测试的真实感和评估覆盖范围有限,难以全面评估模型的性能。
核心思路:TexEditor的核心思路是从数据和训练两个方面入手,增强模型对物体结构的感知和保持能力。通过构建高质量的合成数据集TexBlender,为模型提供丰富的结构先验知识。同时,引入基于强化学习的StructureNFT方法,将结构保持损失融入训练过程中,引导模型学习保持结构不变的编辑策略。
技术框架:TexEditor的整体框架包括三个主要部分:1) 数据集构建:使用Blender生成高质量的合成数据集TexBlender,包含丰富的纹理和结构变化。2) 模型训练:基于Qwen-Image-Edit-2509进行微调,使用TexBlender进行SFT(Supervised Fine-Tuning),然后使用StructureNFT进行强化学习。3) 评估:在现有的Blender数据集、新提出的TexBench数据集和通用图像编辑数据集ImgEdit上进行评估。
关键创新:TexEditor的关键创新在于:1) TexBlender数据集:提供高质量的结构化数据,为模型提供强大的结构先验。2) StructureNFT方法:使用强化学习将结构保持损失融入训练过程中,引导模型学习结构保持的编辑策略。3) TexBench基准:提供更真实的评估环境,更全面地评估模型的性能。
关键设计:TexBlender数据集包含多种物体和纹理,并使用不同的光照和视角进行渲染。StructureNFT方法使用强化学习训练一个策略网络,该网络根据当前图像和文本描述,选择合适的编辑操作,并根据结构保持损失进行奖励。结构保持损失包括L1损失、感知损失和风格损失,用于衡量编辑前后图像结构的差异。
🖼️ 关键图片
📊 实验亮点
TexEditor在TexBench数据集上显著优于现有方法,例如,在结构保持方面,TexEditor比Nano Banana Pro提高了10%以上。在现有的Blender数据集上也取得了state-of-the-art的结果。此外,TexEditor在通用图像编辑数据集ImgEdit上表现出良好的泛化能力,表明其学习到的结构保持能力可以迁移到不同的场景。
🎯 应用场景
TexEditor可应用于图像编辑、游戏开发、电商等领域。例如,用户可以通过文本描述快速修改商品图片的纹理,生成不同风格的商品展示图。在游戏开发中,可以用于快速生成各种风格的游戏场景和角色纹理。该研究的未来影响在于,可以提高图像编辑的效率和质量,降低图像编辑的门槛。
📄 摘要(原文)
Text-guided texture editing aims to modify object appearance while preserving the underlying geometric structure. However, our empirical analysis reveals that even SOTA editing models frequently struggle to maintain structural consistency during texture editing, despite the intended changes being purely appearance-related. Motivated by this observation, we jointly enhance structure preservation from both data and training perspectives, and build TexEditor, a dedicated texture editing model based on Qwen-Image-Edit-2509. Firstly, we construct TexBlender, a high-quality SFT dataset generated with Blender, which provides strong structural priors for a cold start. Sec- ondly, we introduce StructureNFT, a RL-based approach that integrates structure-preserving losses to transfer the structural priors learned during SFT to real-world scenes. Moreover, due to the limited realism and evaluation coverage of existing benchmarks, we introduce TexBench, a general-purpose real-world benchmark for text-guided texture editing. Extensive experiments on existing Blender-based texture benchmarks and our TexBench show that TexEditor consistently outperforms strong baselines such as Nano Banana Pro. In addition, we assess TexEditor on the general purpose benchmark ImgEdit to validate its generalization. Our code and data are available at https://github.com/KlingAIResearch/TexEditor.