SketchAssist: A Practical Assistant for Semantic Edits and Precise Local Redrawing
作者: Han Zou, Yan Zhang, Ruiqi Yu, Cong Xie, Jie Huang, Zhenpeng Zhan
分类: cs.CV
发布日期: 2025-12-16
💡 一句话要点
SketchAssist:用于语义编辑和精确局部重绘的实用草图助手
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 草图编辑 语义编辑 局部重绘 扩散模型 DiT LoRA 混合专家
📋 核心要点
- 现有图像编辑系统难以在进行语义编辑和局部重绘时,保持草图线条艺术的稀疏性和风格一致性。
- SketchAssist通过统一指令引导的全局编辑和线条引导的局部重绘,在保持整体构图的同时,加速草图创作。
- 实验表明,SketchAssist在指令遵循和风格/结构保持方面优于现有方法,为草图编辑提供了一种实用方案。
📝 摘要(中文)
草图编辑是数字插图的核心,但现有的图像编辑系统难以在支持高级语义更改和精确局部重绘的同时,保持线条艺术的稀疏、风格敏感的结构。我们提出了SketchAssist,一个交互式草图绘制助手,它通过统一指令引导的全局编辑和线条引导的区域重绘来加速创作,同时保持不相关的区域和整体构图完整。为了大规模地实现这个助手,我们引入了一个可控的数据生成流程,该流程(i)从无属性的基础草图构建属性添加序列,(ii)通过交叉序列采样形成多步编辑链,以及(iii)通过应用于各种草图的风格保持属性移除模型来扩展风格覆盖。基于这些数据,SketchAssist采用了一个统一的草图编辑框架,对基于DiT的编辑器进行了最小的更改。我们重新利用RGB通道来编码输入,从而可以在单个输入界面中无缝切换指令引导的编辑和线条引导的重绘。为了进一步专门化跨模式的行为,我们将任务引导的混合专家集成到LoRA层中,通过文本和视觉线索进行路由,以提高语义可控性、结构保真度和风格保持。大量的实验表明,在两项任务上都取得了最先进的结果,与最近的基线相比,具有卓越的指令遵循和风格/结构保持。我们的数据集和SketchAssist共同为草图创建和修改提供了一个实用、可控的助手。
🔬 方法详解
问题定义:论文旨在解决草图编辑中,如何在进行高级语义编辑和精确局部重绘的同时,保持草图原有的稀疏结构和风格一致性的问题。现有方法通常难以兼顾全局语义修改和局部细节调整,容易破坏草图的整体结构和风格。
核心思路:论文的核心思路是设计一个交互式的草图绘制助手SketchAssist,它能够统一指令引导的全局编辑和线条引导的局部重绘。通过这种方式,用户可以方便地进行语义层面的修改,同时又能精确地调整局部细节,并且保持草图的整体风格和结构。
技术框架:SketchAssist的整体框架包括一个可控的数据生成流程和一个统一的草图编辑框架。数据生成流程负责生成用于训练模型的数据,包括属性添加序列、多步编辑链和风格多样的草图。草图编辑框架基于DiT(Diffusion Transformer)架构,并进行了少量修改,以支持指令引导的编辑和线条引导的重绘。RGB通道被用于编码输入,实现两种编辑模式的无缝切换。
关键创新:论文的关键创新在于统一了指令引导的全局编辑和线条引导的局部重绘,并提出了一个可控的数据生成流程。此外,论文还引入了任务引导的混合专家(Mixture-of-Experts)机制,通过文本和视觉线索来路由不同的专家,从而提高语义可控性、结构保真度和风格保持。
关键设计:论文的关键设计包括:(1) 可控的数据生成流程,用于生成高质量的训练数据;(2) 基于DiT的统一草图编辑框架,支持两种编辑模式的无缝切换;(3) 任务引导的混合专家机制,用于提高编辑的精度和可控性;(4) 使用LoRA(Low-Rank Adaptation)层来集成混合专家,降低计算成本。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SketchAssist在指令遵循和风格/结构保持方面均优于现有方法。具体而言,SketchAssist能够更好地理解用户的编辑指令,并生成符合要求的草图。同时,它也能更好地保持草图原有的风格和结构,避免出现不自然的变形或失真。相较于基线方法,SketchAssist在各项指标上均有显著提升。
🎯 应用场景
SketchAssist具有广泛的应用前景,可应用于数字绘画、游戏美术设计、动漫制作等领域。它可以帮助艺术家和设计师更高效地创作和修改草图,提高工作效率和创作质量。此外,该技术还可以应用于教育领域,帮助初学者学习绘画技巧。
📄 摘要(原文)
Sketch editing is central to digital illustration, yet existing image editing systems struggle to preserve the sparse, style-sensitive structure of line art while supporting both high-level semantic changes and precise local redrawing. We present SketchAssist, an interactive sketch drawing assistant that accelerates creation by unifying instruction-guided global edits with line-guided region redrawing, while keeping unrelated regions and overall composition intact. To enable this assistant at scale, we introduce a controllable data generation pipeline that (i) constructs attribute-addition sequences from attribute-free base sketches, (ii) forms multi-step edit chains via cross-sequence sampling, and (iii) expands stylistic coverage with a style-preserving attribute-removal model applied to diverse sketches. Building on this data, SketchAssist employs a unified sketch editing framework with minimal changes to DiT-based editors. We repurpose the RGB channels to encode the inputs, enabling seamless switching between instruction-guided edits and line-guided redrawing within a single input interface. To further specialize behavior across modes, we integrate a task-guided mixture-of-experts into LoRA layers, routing by text and visual cues to improve semantic controllability, structural fidelity, and style preservation. Extensive experiments show state-of-the-art results on both tasks, with superior instruction adherence and style/structure preservation compared to recent baselines. Together, our dataset and SketchAssist provide a practical, controllable assistant for sketch creation and revision.