PreGenie: An Agentic Framework for High-quality Visual Presentation Generation
作者: Xiaojie Xu, Xinli Xu, Sirui Chen, Haoyu Chen, Fan Zhang, Ying-Cong Chen
分类: cs.LG
发布日期: 2025-05-27 (更新: 2025-08-31)
备注: Accepted at EMNLP 2025, Findings
💡 一句话要点
PreGenie:基于Agent框架的高质量可视化演示文稿生成
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 演示文稿生成 多模态学习 大型语言模型 Agent框架 可视化 内容理解 自动设计
📋 核心要点
- 现有自动演示文稿生成方法在布局、文本摘要和图像理解方面存在不足,导致视觉效果与内容不匹配,限制了其在正式场合的应用。
- PreGenie 采用基于 Agent 的模块化框架,利用多模态大型语言模型 (MLLM) 驱动演示文稿生成,实现高质量的演示文稿。
- 实验结果表明,PreGenie 在多模态理解、美学和内容一致性方面优于现有模型,更符合人类设计偏好。
📝 摘要(中文)
可视化演示文稿对于有效的沟通至关重要。早期使用深度学习自动创建演示文稿的方法常常面临布局组织不佳、文本摘要不准确以及缺乏图像理解等问题,导致视觉效果与文本不匹配。这些限制阻碍了它们在商业和科学研究等正式场合中的应用。为了解决这些挑战,我们提出了PreGenie,一个由多模态大型语言模型(MLLM)驱动的、基于Agent的模块化框架,用于生成高质量的可视化演示文稿。PreGenie构建于Slidev演示文稿框架之上,其中幻灯片由Markdown代码渲染。它分两个阶段运行:(1)分析和初始生成,总结多模态输入并生成初始代码;(2)审查和重新生成,迭代地审查中间代码和渲染的幻灯片,以生成最终的高质量演示文稿。每个阶段都利用多个MLLM进行协作和信息共享。综合实验表明,PreGenie在多模态理解方面表现出色,在美学和内容一致性方面均优于现有模型,同时更符合人类的设计偏好。
🔬 方法详解
问题定义:论文旨在解决自动生成高质量可视化演示文稿的问题。现有方法的痛点在于无法准确理解多模态输入(文本、图像等),导致生成的演示文稿在布局、内容摘要和视觉效果上存在缺陷,难以满足正式场合的需求。
核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)构建一个基于Agent的框架,通过多Agent协作和迭代优化,逐步生成高质量的演示文稿。这种方法模拟了人类设计师的设计过程,能够更好地理解输入内容并生成符合人类审美和逻辑的演示文稿。
技术框架:PreGenie 框架包含两个主要阶段:(1)分析和初始生成阶段:该阶段首先对多模态输入进行分析和总结,然后生成初始的 Markdown 代码,用于渲染幻灯片。(2)审查和重新生成阶段:该阶段迭代地审查中间代码和渲染的幻灯片,并根据审查结果对代码进行修改和优化,最终生成高质量的演示文稿。每个阶段都涉及多个 MLLM Agent 的协作,例如内容理解 Agent、布局设计 Agent 和视觉效果 Agent。
关键创新:PreGenie 的关键创新在于其基于 Agent 的框架设计,以及对多模态大型语言模型的有效利用。通过将演示文稿生成过程分解为多个子任务,并分配给不同的 Agent 负责,实现了更精细化的控制和优化。同时,多 Agent 之间的协作和信息共享,使得框架能够更好地理解输入内容并生成高质量的演示文稿。
关键设计:PreGenie 使用 Slidev 框架作为演示文稿的渲染引擎,并使用 Markdown 代码来描述幻灯片的内容和布局。框架中使用了多个 MLLM,例如用于内容理解、文本摘要、图像描述和布局设计的 MLLM。具体的参数设置、损失函数和网络结构等技术细节在论文中可能未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PreGenie 在多模态理解、美学和内容一致性方面均优于现有模型。具体而言,PreGenie 生成的演示文稿在布局、视觉效果和内容准确性方面更符合人类的设计偏好。论文中可能包含具体的性能指标和对比基线,但摘要中未提供详细数据。
🎯 应用场景
PreGenie 可应用于多种场景,例如自动生成商业演示文稿、学术报告、教育课件等。该研究的实际价值在于提高演示文稿的制作效率和质量,降低制作成本,并使得非专业人士也能轻松创建高质量的演示文稿。未来,PreGenie 有望成为一种通用的演示文稿生成工具,广泛应用于各个领域。
📄 摘要(原文)
Visual presentations are vital for effective communication. Early attempts to automate their creation using deep learning often faced issues such as poorly organized layouts, inaccurate text summarization, and a lack of image understanding, leading to mismatched visuals and text. These limitations restrict their application in formal contexts like business and scientific research. To address these challenges, we propose PreGenie, an agentic and modular framework powered by multimodal large language models (MLLMs) for generating high-quality visual presentations. PreGenie is built on the Slidev presentation framework, where slides are rendered from Markdown code. It operates in two stages: (1) Analysis and Initial Generation, which summarizes multimodal input and generates initial code, and (2) Review and Re-generation, which iteratively reviews intermediate code and rendered slides to produce final, high-quality presentations. Each stage leverages multiple MLLMs that collaborate and share information. Comprehensive experiments demonstrate that PreGenie excels in multimodal understanding, outperforming existing models in both aesthetics and content consistency, while aligning more closely with human design preferences.