TextSculptor: Training and Benchmarking Scene Text Editing
作者: Yiheng Lin, Siyu Jiao, Xiaohan Lan, Wei Zhou, Qi She, Fei Yu, Heyun Chen, Zhengwei Wang, Jinghuan Chen, Moran Li, Yingchen Yu, Zijian Feng, Yao Zhao, Yunchao Wei, Yujie Zhong
分类: cs.CV
发布日期: 2026-05-20
🔗 代码/项目: GITHUB
💡 一句话要点
TextSculptor:构建场景文本编辑数据集与基准,提升开源模型性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 场景文本编辑 数据集构建 基准测试 图像生成 多模态学习
📋 核心要点
- 现有场景文本编辑方法难以兼顾文本修改的精确性、视觉真实感和背景一致性,开源模型性能落后于商业系统。
- TextSculptor通过自动化的数据构建流程,结合文本感知图像合成与程序化文本渲染,生成大规模高质量数据集。
- TextSculptor-Bench基准测试涵盖文本添加、替换、删除和混合编辑,并设计了综合评估协议,显著提升开源模型性能。
📝 摘要(中文)
多模态大型语言模型(MLLMs)和基于扩散的生成模型在提示驱动的图像编辑方面取得了显著进展。然而,场景文本编辑仍然具有挑战性,因为它要求模型精确地修改文本内容,同时保持视觉真实感和非目标区域的完整性。目前的开源模型在很大程度上落后于专有系统,这主要是由于高质量训练数据的稀缺以及缺乏专门为文本编辑量身定制的标准化基准。为了解决这些挑战,我们提出了TextSculptor,这是一个全面的框架,用于场景文本编辑的数据构建和评估。我们首先开发了一个自动数据构建流程,该流程将文本感知的图像合成与程序化文本渲染和合成相结合。基于此流程,我们构建了TextSculpt-Data,一个包含320万个训练样本的大规模数据集,包括120万个OCR验证的文本到图像样本和200万个配对的文本编辑样本,这些样本具有自然对齐的源-目标图像和强大的背景一致性。我们进一步推出了TextSculpt-Bench,一个涵盖四个基本文本编辑任务的基准:文本添加、文本替换、文本删除和混合编辑。为了支持可靠的评估,我们设计了一个定制协议,通过基于OCR的文本对齐、多模态判断和背景区域相似性来衡量文本准确性、视觉质量和背景保留。大量的实验表明,TextSculptor提高了开源文本编辑性能,并缩小了与专有模型的差距。数据和基准可在https://github.com/linyiheng123/TextSculptor获取。
🔬 方法详解
问题定义:场景文本编辑旨在根据用户指令修改图像中的文本内容,同时保持图像的视觉真实感和非文本区域的完整性。现有方法在处理复杂场景、保持背景一致性以及精确控制文本修改方面存在不足,开源模型的性能与商业系统存在显著差距。缺乏大规模、高质量的训练数据和标准化的评估基准是主要瓶颈。
核心思路:TextSculptor的核心思路是构建一个自动化的数据生成流程,以合成大规模、高质量的场景文本编辑数据集。通过结合文本感知的图像合成、程序化文本渲染和图像合成技术,生成具有自然对齐的源-目标图像和强背景一致性的训练样本。同时,设计一个全面的评估基准,以客观地评估模型在不同文本编辑任务上的性能。
技术框架:TextSculptor框架主要包含两个部分:数据构建流程和评估基准。数据构建流程首先使用文本感知的图像合成技术生成包含文本的图像,然后使用程序化的文本渲染技术修改图像中的文本内容,最后使用图像合成技术将修改后的文本与原始图像进行融合,生成训练样本。评估基准TextSculpt-Bench包含四个基本文本编辑任务:文本添加、文本替换、文本删除和混合编辑。评估协议包括基于OCR的文本对齐、多模态判断和背景区域相似性三个指标。
关键创新:TextSculptor的关键创新在于其自动化的数据构建流程,该流程能够生成大规模、高质量的场景文本编辑数据集。与传统的手动标注方法相比,该流程能够显著降低数据构建的成本和时间。此外,TextSculptor-Bench基准测试提供了一个标准化的评估平台,可以客观地评估不同模型在场景文本编辑任务上的性能。
关键设计:在数据构建流程中,使用了文本感知的图像合成技术,以确保生成的图像包含具有语义信息的文本。程序化的文本渲染技术可以精确控制文本的字体、大小、颜色和位置。在评估基准中,使用了基于OCR的文本对齐方法,以确保评估的准确性。多模态判断方法结合了视觉和语言信息,以评估生成图像的视觉质量和语义一致性。背景区域相似性指标用于评估模型在修改文本内容时对背景区域的影响。
🖼️ 关键图片
📊 实验亮点
TextSculptor构建了包含320万样本的大规模数据集TextSculpt-Data,并提出了TextSculpt-Bench基准测试,涵盖四个文本编辑任务。实验结果表明,使用TextSculptor训练的开源模型在文本编辑任务上取得了显著提升,缩小了与专有模型的差距。具体性能提升数据未知,但整体效果表明TextSculptor的有效性。
🎯 应用场景
TextSculptor的研究成果可广泛应用于图像编辑、内容创作、广告设计、文档修复等领域。通过提升场景文本编辑的自动化水平,可以显著提高相关任务的效率和质量。未来,该技术有望应用于更复杂的场景,例如视频编辑、三维场景建模等。
📄 摘要(原文)
Recent advances in Multimodal Large Language Models (MLLMs) and diffusion-based generative models have substantially improved prompt-driven image editing. However, scene text editing remains challenging, as it requires models to precisely modify textual content while preserving visual realism and non-target regions. Current open-source models still lag behind proprietary systems, largely due to the scarcity of high-quality training data and the lack of standardized benchmarks tailored to text editing. To address these challenges, we present TextSculptor, a comprehensive framework for data construction and evaluation of scene text editing. We first develop an automated data construction pipeline that combines text-aware image synthesis with programmatic text rendering and compositing. Based on this pipeline, we build TextSculpt-Data, a large-scale dataset containing 3.2M training samples, including 1.2M OCR-verified text-to-image samples and 2M paired text editing samples with naturally aligned source-target images and strong background consistency. We further introduce TextSculpt-Bench, a benchmark covering four fundamental text editing tasks: text addition, text replacement, text removal, and hybrid editing. To support reliable evaluation, we design a tailored protocol that measures text accuracy, visual quality, and background preservation through OCR-based text alignment, multimodal judgment, and background-region similarity. Extensive experiments show that TextSculptor improves open-source text editing performance and narrows the gap to proprietary models. The data and benchmark are available at https://github.com/linyiheng123/TextSculptor.