MiLDEdit: Reasoning-Based Multi-Layer Design Document Editing

作者: Zihao Lin, Wanrong Zhu, Jiuxiang Gu, Jihyung Kil, Christopher Tensmeyer, Lin Zhang, Shilong Liu, Ruiyi Zhang, Lifu Huang, Vlad I. Morariu, Tong Sun

分类: cs.CV

发布日期: 2026-01-08

💡 一句话要点

提出MiLDEAgent，解决多层设计文档的细粒度编辑难题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多层文档编辑 自然语言指令 多模态推理 强化学习 图像编辑

📋 核心要点

现有方法在多层设计文档编辑方面存在不足，主要集中在单层图像编辑或多层生成，缺乏对文档层结构的理解和推理能力。
MiLDEAgent通过结合强化学习训练的多模态推理器和图像编辑器，实现对文档层结构的理解和有针对性的修改。
MiLDEAgent在MiLDEBench上显著优于开源基线，并达到与闭源模型相当的性能，证明了其在多层文档编辑方面的有效性。

📝 摘要（中文）

本文提出了一种基于推理的多层文档编辑框架MiLDEAgent，用于解决从自然语言指令编辑多层设计文档（如海报）的问题。该框架结合了强化学习训练的多模态推理器，用于逐层理解，以及图像编辑器，用于有针对性的修改。为了系统地评估该任务，本文构建了MiLDEBench，一个包含超过2万个设计文档和编辑指令的人工数据集。同时，提出了MiLDEEval评估协议，涵盖指令遵循、布局一致性、美学和文本渲染四个维度。实验结果表明，现有方法泛化能力不足，而MiLDEAgent实现了强大的层感知推理和精确编辑，显著优于所有开源基线，并达到与闭源模型相当的性能，为多层文档编辑建立了首个强基线。

🔬 方法详解

问题定义：现有方法在处理多层设计文档编辑任务时，主要痛点在于缺乏对文档层结构的理解和推理能力。它们通常将多层文档视为一个扁平的画布，无法识别和定位需要修改的特定图层，导致编辑结果不准确或破坏文档的整体结构。

核心思路：本文的核心思路是引入一个基于推理的多层文档编辑代理MiLDEAgent，该代理能够理解自然语言指令，并根据指令对文档的各个图层进行有针对性的修改。通过强化学习训练的多模态推理器，MiLDEAgent能够识别文档中的不同图层，并确定需要修改的图层和修改方式。

技术框架：MiLDEAgent的整体框架包含两个主要模块：多模态推理器和图像编辑器。多模态推理器负责理解自然语言指令，并识别文档中的不同图层。该推理器通过强化学习进行训练，以最大化编辑结果的质量。图像编辑器负责根据推理器的输出，对文档的特定图层进行修改。整个流程是：输入指令和文档 -> 多模态推理器分析并确定编辑目标图层和方式 -> 图像编辑器执行编辑 -> 输出编辑后的文档。

关键创新：MiLDEAgent的关键创新在于其基于推理的多层编辑方法。与现有方法相比，MiLDEAgent能够更好地理解文档的层结构，并根据指令对特定图层进行有针对性的修改。此外，通过强化学习训练的多模态推理器，MiLDEAgent能够不断学习和改进其推理能力，从而提高编辑结果的质量。

关键设计：多模态推理器使用Transformer架构，输入包括自然语言指令和文档的视觉特征。强化学习的奖励函数综合考虑了指令遵循程度、布局一致性、美学和文本渲染质量。图像编辑器可以使用现有的图像编辑模型，例如Stable Diffusion等。具体参数设置和网络结构的选择需要根据实际应用场景进行调整。

📊 实验亮点

实验结果表明，MiLDEAgent在MiLDEBench上显著优于所有开源基线，在指令遵循、布局一致性、美学和文本渲染四个维度上均取得了显著提升。MiLDEAgent的性能与闭源模型相当，甚至在某些指标上超过了闭源模型，证明了其在多层文档编辑方面的有效性和优越性。

🎯 应用场景

MiLDEdit具有广泛的应用前景，例如海报设计、社交媒体内容生成、广告设计等。它可以帮助用户快速、高效地编辑多层设计文档，从而提高工作效率和创作质量。未来，该技术还可以应用于自动化设计、个性化内容生成等领域，为用户提供更加智能化的设计服务。

📄 摘要（原文）

Real-world design documents (e.g., posters) are inherently multi-layered, combining decoration, text, and images. Editing them from natural-language instructions requires fine-grained, layer-aware reasoning to identify relevant layers and coordinate modifications. Prior work largely overlooks multi-layer design document editing, focusing instead on single-layer image editing or multi-layer generation, which assume a flat canvas and lack the reasoning needed to determine what and where to modify. To address this gap, we introduce the Multi-Layer Document Editing Agent (MiLDEAgent), a reasoning-based framework that combines an RL-trained multimodal reasoner for layer-wise understanding with an image editor for targeted modifications. To systematically benchmark this setting, we introduce the MiLDEBench, a human-in-the-loop corpus of over 20K design documents paired with diverse editing instructions. The benchmark is complemented by a task-specific evaluation protocol, MiLDEEval, which spans four dimensions including instruction following, layout consistency, aesthetics, and text rendering. Extensive experiments on 14 open-source and 2 closed-source models reveal that existing approaches fail to generalize: open-source models often cannot complete multi-layer document editing tasks, while closed-source models suffer from format violations. In contrast, MiLDEAgent achieves strong layer-aware reasoning and precise editing, significantly outperforming all open-source baselines and attaining performance comparable to closed-source models, thereby establishing the first strong baseline for multi-layer document editing.

MiLDEdit: Reasoning-Based Multi-Layer Design Document Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理