DreamOmni3: Scribble-based Editing and Generation
作者: Bin Xia, Bohao Peng, Jiyang Liu, Sitong Wu, Jingyao Li, Junjia Huang, Xu Zhao, Yitong Wang, Ruihang Chu, Bei Yu, Jiaya Jia
分类: cs.CV
发布日期: 2025-12-27
💡 一句话要点
DreamOmni3:提出基于草图的图像编辑与生成框架,解决文本提示不足问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 草图编辑 图像生成 多模态融合 GUI 数据合成
📋 核心要点
- 现有图像编辑和生成模型主要依赖文本提示,但文本难以准确表达用户对编辑位置和细节的意图。
- DreamOmni3提出基于草图的编辑和生成方法,结合文本、图像和草图,实现更灵活和精确的图像操作。
- 通过数据合成和联合输入方案,DreamOmni3在草图编辑和生成任务上取得了显著的性能提升,并建立了基准测试。
📝 摘要(中文)
本文提出DreamOmni3,一个基于草图的图像编辑与生成模型,旨在解决现有统一生成和编辑模型依赖文本提示,难以精确捕捉用户意图编辑位置和精细视觉细节的问题。为此,定义了基于草图的编辑和生成两个任务,并结合文本、图像和手绘草图,实现更灵活的GUI创建。通过数据合成流水线构建训练数据,包括基于草图的编辑(草图和指令编辑、草图和多模态指令编辑、图像融合、涂鸦编辑)和生成(草图和指令生成、草图和多模态指令生成、涂鸦生成)任务。框架方面,采用联合输入方案,将原始图像和草图图像输入模型,使用不同颜色区分区域,简化处理,并应用相同的索引和位置编码,精确定位草图区域。最后,建立了全面的基准测试,实验结果表明DreamOmni3表现出色,模型和代码将公开发布。
🔬 方法详解
问题定义:现有统一图像生成和编辑模型主要依赖文本提示,但文本在描述精确的编辑位置和细粒度的视觉细节方面存在局限性。用户难以通过文本准确表达其编辑意图,导致生成或编辑结果不符合预期。此外,对于复杂的编辑任务,例如涉及多个区域或多种模态信息的编辑,文本提示往往难以胜任。
核心思路:DreamOmni3的核心思路是将草图作为一种更直观、更精确的输入方式,与文本、图像等其他模态信息相结合,从而实现更灵活、更可控的图像编辑和生成。通过草图,用户可以直接指定编辑区域和大致内容,模型则根据草图、文本和图像等信息,生成符合用户意图的编辑结果。
技术框架:DreamOmni3的整体框架包括数据合成流水线和模型架构两部分。数据合成流水线用于生成基于草图的编辑和生成任务的训练数据,包括草图和指令编辑、草图和多模态指令编辑、图像融合、涂鸦编辑等任务。模型架构采用联合输入方案,将原始图像和草图图像同时输入模型,并使用不同的颜色区分区域。模型通过共享的索引和位置编码,精确定位草图区域,并进行相应的编辑或生成操作。
关键创新:DreamOmni3的关键创新在于引入了基于草图的图像编辑和生成方法,并提出了相应的联合输入方案。与传统的基于文本提示的方法相比,基于草图的方法能够更精确地捕捉用户的编辑意图,并生成更符合用户期望的结果。联合输入方案则能够有效地处理复杂的编辑任务,例如涉及多个区域或多种模态信息的编辑。
关键设计:DreamOmni3的关键设计包括:1) 数据合成流水线,用于生成高质量的训练数据;2) 联合输入方案,将原始图像和草图图像同时输入模型;3) 颜色编码,用于区分原始图像和草图区域;4) 共享的索引和位置编码,用于精确定位草图区域。此外,损失函数的设计也至关重要,需要平衡生成图像的质量和与草图的一致性。
🖼️ 关键图片
📊 实验亮点
DreamOmni3在多个基于草图的编辑和生成任务上取得了显著的性能提升。实验结果表明,DreamOmni3能够生成高质量、与草图一致的图像,并且能够有效地处理复杂的编辑任务。具体的性能数据和对比基线将在论文中详细展示。
🎯 应用场景
DreamOmni3具有广泛的应用前景,例如图像编辑软件、创意设计工具、虚拟现实内容创作等。用户可以通过简单的草图和文本描述,快速生成或编辑图像,提高创作效率和质量。该研究还有助于推动人机交互技术的发展,使计算机能够更好地理解和响应用户的意图。
📄 摘要(原文)
Recently unified generation and editing models have achieved remarkable success with their impressive performance. These models rely mainly on text prompts for instruction-based editing and generation, but language often fails to capture users intended edit locations and fine-grained visual details. To this end, we propose two tasks: scribble-based editing and generation, that enables more flexible creation on graphical user interface (GUI) combining user textual, images, and freehand sketches. We introduce DreamOmni3, tackling two challenges: data creation and framework design. Our data synthesis pipeline includes two parts: scribble-based editing and generation. For scribble-based editing, we define four tasks: scribble and instruction-based editing, scribble and multimodal instruction-based editing, image fusion, and doodle editing. Based on DreamOmni2 dataset, we extract editable regions and overlay hand-drawn boxes, circles, doodles or cropped image to construct training data. For scribble-based generation, we define three tasks: scribble and instruction-based generation, scribble and multimodal instruction-based generation, and doodle generation, following similar data creation pipelines. For the framework, instead of using binary masks, which struggle with complex edits involving multiple scribbles, images, and instructions, we propose a joint input scheme that feeds both the original and scribbled source images into the model, using different colors to distinguish regions and simplify processing. By applying the same index and position encodings to both images, the model can precisely localize scribbled regions while maintaining accurate editing. Finally, we establish comprehensive benchmarks for these tasks to promote further research. Experimental results demonstrate that DreamOmni3 achieves outstanding performance, and models and code will be publicly released.