SlidesGen-Bench: Evaluating Slides Generation via Computational and Quantitative Metrics

📄 arXiv: 2601.09487v1 📥 PDF

作者: Yunqiao Yang, Wenbo Li, Houxing Ren, Zimu Lu, Ke Wang, Zhiyuan Huang, Zhuofan Zong, Mingjie Zhan, Hongsheng Li

分类: cs.CL

发布日期: 2026-01-14

备注: 37 pages, 34 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出SlidesGen-Bench,通过可计算指标评估幻灯片生成质量,解决现有评估方法的主观性和不可比性问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 幻灯片生成 自动化评估 可计算指标 基准测试 人类偏好对齐

📋 核心要点

  1. 现有幻灯片生成系统评估方法缺乏统一性,难以在不同架构间进行比较,且依赖主观判断或参考依赖的指标。
  2. SlidesGen-Bench通过视觉领域分析,将幻灯片视为渲染结果,提出内容、美学和可编辑性三个维度的可计算指标。
  3. 构建Slides-Align1.5k数据集,与人类偏好对齐,实验证明SlidesGen-Bench与人类判断的一致性优于现有评估流程。

📝 摘要(中文)

大型语言模型(LLMs)的快速发展促进了自动化幻灯片生成的多样化范式,从代码驱动的布局到以图像为中心的合成。然而,评估这些异构系统仍然具有挑战性,因为现有的协议通常难以提供跨架构的可比分数,或者依赖于未校准的判断。本文介绍了SlidesGen-Bench,这是一个旨在通过三个核心原则来评估幻灯片生成的基准:通用性、量化性和可靠性。首先,为了建立一个统一的评估框架,我们将分析建立在视觉领域,将终端输出视为渲染,以保持与底层生成方法无关。其次,我们提出了一种计算方法,可以定量地评估幻灯片的三个不同维度——内容、美学和可编辑性——提供可重复的指标,而先前的工作依赖于主观或参考相关的代理。最后,为了确保与人类偏好的高度相关性,我们构建了Slides-Align1.5k数据集,这是一个人类偏好对齐的数据集,涵盖了来自九个主流生成系统在七个场景中的幻灯片。我们的实验表明,SlidesGen-Bench比现有的评估流程更能与人类判断保持一致。我们的代码和数据可在https://github.com/YunqiaoYang/SlidesGen-Bench获得。

🔬 方法详解

问题定义:现有幻灯片生成系统的评估方法存在主观性和不可比性。不同的生成架构采用不同的技术,难以用统一的指标进行衡量。此外,许多评估方法依赖于人工判断或参考幻灯片,导致评估结果不稳定且难以复现。因此,需要一种客观、可量化、且与人类偏好对齐的评估基准。

核心思路:SlidesGen-Bench的核心思路是将幻灯片生成评估问题转化为视觉领域的分析问题。通过将幻灯片视为最终的渲染结果,可以忽略底层生成方法的差异,从而实现对不同架构的统一评估。此外,论文提出了内容、美学和可编辑性三个维度的可计算指标,避免了主观判断和参考依赖,提高了评估的客观性和可重复性。

技术框架:SlidesGen-Bench的整体框架包括以下几个主要模块:1) 数据集构建:构建Slides-Align1.5k数据集,包含来自不同生成系统和场景的幻灯片,并进行人工标注,以对齐人类偏好。2) 指标设计:设计内容、美学和可编辑性三个维度的可计算指标,用于定量评估幻灯片质量。3) 评估流程:将幻灯片生成系统的输出作为输入,利用设计的指标进行评估,并与人工标注进行对比,验证评估结果的有效性。

关键创新:SlidesGen-Bench的关键创新在于提出了一个统一的、可量化的幻灯片生成评估框架。与现有方法相比,该框架具有以下优势:1) 通用性:适用于不同架构的幻灯片生成系统。2) 量化性:采用可计算指标,避免主观判断。3) 可靠性:与人类偏好高度对齐。

关键设计:在指标设计方面,论文针对内容维度,可能采用了信息完整性、主题一致性等指标;针对美学维度,可能采用了布局合理性、色彩搭配等指标;针对可编辑性维度,可能采用了元素可操作性、结构清晰度等指标。具体的技术细节(如损失函数、网络结构等)未知,但整体目标是设计出能够准确反映幻灯片质量的可计算指标。

📊 实验亮点

实验结果表明,SlidesGen-Bench与人类判断具有更高的对齐度,优于现有的评估流程。具体性能数据未知,但论文强调了SlidesGen-Bench在通用性、量化性和可靠性方面的优势,使其能够更准确地评估幻灯片生成系统的质量。

🎯 应用场景

SlidesGen-Bench可应用于自动化幻灯片生成系统的开发与评估,帮助研究人员和开发者客观地比较不同系统的性能,并指导系统优化。该基准还可用于教育领域,辅助学生快速生成高质量的演示文稿,提高学习效率。未来,该研究可扩展到其他文档生成领域,如报告、论文等。

📄 摘要(原文)

The rapid evolution of Large Language Models (LLMs) has fostered diverse paradigms for automated slide generation, ranging from code-driven layouts to image-centric synthesis. However, evaluating these heterogeneous systems remains challenging, as existing protocols often struggle to provide comparable scores across architectures or rely on uncalibrated judgments. In this paper, we introduce SlidesGen-Bench, a benchmark designed to evaluate slide generation through a lens of three core principles: universality, quantification, and reliability. First, to establish a unified evaluation framework, we ground our analysis in the visual domain, treating terminal outputs as renderings to remain agnostic to the underlying generation method. Second, we propose a computational approach that quantitatively assesses slides across three distinct dimensions - Content, Aesthetics, and Editability - offering reproducible metrics where prior works relied on subjective or reference-dependent proxies. Finally, to ensure high correlation with human preference, we construct the Slides-Align1.5k dataset, a human preference aligned dataset covering slides from nine mainstream generation systems across seven scenarios. Our experiments demonstrate that SlidesGen-Bench achieves a higher degree of alignment with human judgment than existing evaluation pipelines. Our code and data are available at https://github.com/YunqiaoYang/SlidesGen-Bench.