Automatic Slide Updating with User-Defined Dynamic Templates and Natural Language Instructions

📄 arXiv: 2604.17894v1 📥 PDF

作者: Kun Zhou, Jiakai He, Wenmian Yang, Zhensheng Wang, Yiquan Zhang, Weijia Jia

分类: cs.CL

发布日期: 2026-04-20

备注: To appear in Findings of the Association for Computational Linguistics (ACL 2026)

🔗 代码/项目: GITHUB


💡 一句话要点

提出DynaSlide基准和SlideAgent框架,实现基于自然语言指令和用户自定义模板的幻灯片自动更新。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 幻灯片更新 自然语言处理 多模态学习 用户自定义模板 数据驱动报告

📋 核心要点

  1. 现有幻灯片自动化方法依赖固定模板,无法满足用户自定义模板和动态更新的需求,效率低下。
  2. 论文提出SlideAgent框架,结合多模态解析、指令对齐和工具增强推理,实现幻灯片内容的智能更新。
  3. DynaSlide基准测试和实验结果表明,SlideAgent能有效更新幻灯片内容并保持原有风格,为未来研究提供参考。

📝 摘要(中文)

演示幻灯片是数据驱动报告的主要媒介,但保持复杂、分析风格的幻灯片内容更新仍然非常耗费人力。现有的自动化方法主要遵循固定的模板填充,无法支持多样化的、用户创作的幻灯片的动态更新。因此,我们定义了“基于用户提供模板和自然语言指令的动态幻灯片更新”任务,并引入了DynaSlide,这是一个大规模基准,包含20036个真实世界的指令-执行三元组(源幻灯片、用户指令、目标幻灯片),这些三元组基于共享的外部数据库,并从自带模板(BYO-template)条件下的商业报告幻灯片构建而来。为了解决这个任务,我们提出了SlideAgent,一个基于代理的框架,它结合了多模态幻灯片解析、自然语言指令对齐以及表格、图表和文本结论的工具增强推理。SlideAgent在保持布局和风格的同时更新内容,为DynaSlide提供了一个强大的参考基线。我们进一步设计了端到端和组件级别的评估协议,揭示了未来研究的关键挑战和机遇。

🔬 方法详解

问题定义:论文旨在解决幻灯片内容更新的自动化问题,尤其是在用户提供自定义模板和使用自然语言指令的情况下。现有方法主要依赖于固定的模板填充,无法灵活地适应用户自定义的幻灯片设计和动态的更新需求,导致更新过程耗时且效率低下。

核心思路:论文的核心思路是构建一个基于代理的框架,该框架能够理解自然语言指令,解析幻灯片内容(包括文本、表格、图表等),并利用外部工具进行数据检索和计算,最终实现幻灯片内容的自动更新。这种方法允许用户使用自定义模板,并通过自然语言指令来指定更新的内容和方式,从而提高了幻灯片更新的灵活性和效率。

技术框架:SlideAgent框架包含以下几个主要模块:1) 多模态幻灯片解析模块,用于提取幻灯片中的文本、表格、图表等信息;2) 自然语言指令对齐模块,用于理解用户输入的自然语言指令,并将其映射到相应的操作;3) 工具增强推理模块,利用外部数据库和计算工具,根据指令对幻灯片内容进行更新;4) 幻灯片生成模块,将更新后的内容重新组合成幻灯片,并保持原有的布局和风格。

关键创新:论文的关键创新在于提出了一个完整的幻灯片自动更新框架,该框架能够处理用户自定义模板和自然语言指令,并利用外部工具进行数据驱动的更新。此外,论文还构建了一个大规模的DynaSlide基准数据集,为该领域的研究提供了数据支持。与现有方法相比,SlideAgent更加灵活和通用,能够适应更广泛的幻灯片更新场景。

关键设计:在多模态幻灯片解析模块中,使用了OCR技术和图像识别技术来提取幻灯片中的文本和图像信息。在自然语言指令对齐模块中,使用了预训练的语言模型(如BERT)来理解用户指令的语义。在工具增强推理模块中,使用了SQL查询和Python脚本来访问外部数据库和进行数据计算。损失函数的设计目标是最小化更新后幻灯片与目标幻灯片之间的差异,同时保持幻灯片的布局和风格。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SlideAgent在DynaSlide基准测试上取得了显著的性能,证明了其在幻灯片自动更新方面的有效性。实验结果表明,SlideAgent能够准确地理解自然语言指令,并根据指令更新幻灯片内容,同时保持幻灯片的布局和风格。具体性能数据和与其他基线的对比结果在论文中有详细展示。

🎯 应用场景

该研究成果可应用于商业报告、教育课件、科研演示等领域,帮助用户快速更新幻灯片内容,提高工作效率。未来,该技术可进一步扩展到其他文档类型,实现更广泛的自动化内容生成和更新。

📄 摘要(原文)

Presentation slides are a primary medium for data-driven reporting, yet keeping complex, analytics-style decks up to date remains labor-intensive. Existing automation methods mostly follow fixed template filling and cannot support dynamic updates for diverse, user-authored slide decks. We therefore define "Dynamic Slide Update via Natural Language Instructions on User-provided Templates" and introduce DynaSlide, a large-scale benchmark with 20,036 real-world instruction-execution triples (source slide, user instruction, target slide) grounded in a shared external database and built from business reporting slides under bring-your-own-template (BYO-template) conditions. To tackle this task, we propose SlideAgent, an agent-based framework that combines multimodal slide parsing, natural language instruction grounding, and tool-augmented reasoning for tables, charts, and textual conclusions. SlideAgent updates content while preserving layout and style, providing a strong reference baseline on DynaSlide. We further design end-to-end and component-level evaluation protocols that reveal key challenges and opportunities for future research. The dataset and code are available at https://github.com/XiaoZhou2024/SlideAgent.