PresentAgent-2: Towards Generalist Multimodal Presentation Agents

📄 arXiv: 2605.11363v1 📥 PDF

作者: Wei Wu, Ziyang Xu, Zeyu Zhang, Yang Zhao, Hao Tang

分类: cs.CV, cs.CL

发布日期: 2026-05-12

🔗 代码/项目: GITHUB | PROJECT_PAGE


💡 一句话要点

提出PresentAgent-2,实现通用多模态演示代理,支持多种演示模式。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 演示生成 多模态学习 代理框架 自然语言处理 视频生成

📋 核心要点

  1. 现有演示生成方法主要依赖于静态幻灯片创建,缺乏对用户查询的深度理解和多模态资源的有效利用。
  2. PresentAgent-2通过代理框架,实现从用户查询到完整演示视频的自动生成,支持多种演示模式和交互方式。
  3. 构建了多模态演示基准,并针对不同任务设计了评估标准,验证了PresentAgent-2在内容质量、媒体相关性和交互性方面的有效性。

📝 摘要(中文)

本文介绍PresentAgent-2,一个用于从用户查询生成演示视频的代理框架。给定一个开放式的用户查询和一个选定的演示模式,PresentAgent-2首先将查询总结为一个重点明确的主题,并对演示友好的资源进行深度研究,以收集多模态资源,包括相关的文本、图像、GIF和视频。然后,它构建演示幻灯片,生成特定模式的脚本,并将幻灯片、音频和动态媒体组合成一个完整的演示视频。PresentAgent-2在一个统一的框架内支持三种独立的演示模式:单人演示,生成单人叙述的演示视频;讨论,创建具有结构化发言人角色的多人演示,例如提出引导性问题、解释概念、澄清细节和总结要点;交互,独立支持回答观众基于生成的幻灯片、脚本、检索到的证据和演示上下文提出的问题。为了评估这些能力,我们构建了一个涵盖单人演示、讨论和交互场景的多模态演示基准,并针对内容质量、媒体相关性、动态媒体使用、对话自然性和交互基础等任务特定评估标准。总体而言,PresentAgent-2将演示生成从依赖于文档的幻灯片创建扩展到查询驱动、研究基础的多模态媒体、对话和交互演示视频生成。

🔬 方法详解

问题定义:现有演示生成方法主要集中在静态幻灯片的创建,缺乏根据用户查询进行深度研究和整合多模态资源的能力。此外,现有方法难以支持多人讨论和交互式问答等复杂的演示场景。因此,如何实现从用户查询驱动的、研究基础的、支持多种演示模式和交互方式的演示视频生成是一个挑战。

核心思路:PresentAgent-2的核心思路是构建一个代理框架,该框架能够理解用户查询,进行深度研究以收集相关资源,并根据选定的演示模式生成相应的幻灯片、脚本和多媒体内容。通过将演示生成过程分解为多个可控的步骤,并利用大型语言模型(LLM)进行内容生成和决策,实现自动化和智能化。

技术框架:PresentAgent-2的整体架构包含以下几个主要模块:1) 查询总结模块:将用户查询提炼为核心主题。2) 资源检索模块:基于核心主题,从各种来源(如文本、图像、视频等)检索相关资源。3) 幻灯片构建模块:根据检索到的资源和演示模式,构建演示幻灯片。4) 脚本生成模块:为每张幻灯片生成相应的脚本,并根据演示模式调整脚本内容。5) 视频合成模块:将幻灯片、脚本、音频和动态媒体组合成完整的演示视频。

关键创新:PresentAgent-2的关键创新在于其代理框架的设计,该框架能够将复杂的演示生成任务分解为多个可控的子任务,并利用LLM进行自动化处理。此外,PresentAgent-2还支持多种演示模式(单人演示、讨论、交互),并针对每种模式设计了相应的脚本生成和视频合成策略。

关键设计:在资源检索模块中,使用了针对演示友好的资源来源进行检索,例如学术论文、在线百科等。在脚本生成模块中,针对不同的演示模式,设计了不同的脚本模板和角色分配策略。例如,在讨论模式中,会预先定义不同的发言人角色(如提问者、解释者、总结者),并根据角色分配相应的脚本内容。在交互模式中,会根据幻灯片内容和检索到的证据,生成可能的观众问题和答案。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了一个多模态演示基准,并针对内容质量、媒体相关性、动态媒体使用、对话自然性和交互基础等任务特定评估标准进行了评估。实验结果表明,PresentAgent-2在各种演示模式下均取得了良好的性能,证明了其在生成高质量、多模态、交互式演示视频方面的有效性。具体性能数据未知。

🎯 应用场景

PresentAgent-2可应用于教育、培训、会议等多种场景,帮助用户快速生成高质量的演示视频。例如,教师可以使用PresentAgent-2自动生成课程讲解视频,学生可以使用PresentAgent-2制作课程展示,企业可以使用PresentAgent-2进行产品演示和培训。该研究的未来影响在于推动演示视频生成的自动化和智能化,降低演示制作的门槛,提高演示效率和质量。

📄 摘要(原文)

Presentation generation is moving beyond static slide creation toward end-to-end presentation video generation with research grounding, multimodal media, and interactive delivery. We introduce PresentAgent-2, an agentic framework for generating presentation videos from user queries. Given an open-ended user query and a selected presentation mode, PresentAgent-2 first summarizes the query into a focused topic and performs deep research over presentation-friendly sources to collect multimodal resources, including relevant text, images, GIFs, and videos. It then constructs presentation slides, generates mode-specific scripts, and composes slides, audio, and dynamic media into a complete presentation video. PresentAgent-2 supports three independent presentation modes within a unified framework: Single Presentation, which generates a single-speaker narrated presentation video; Discussion, which creates a multi-speaker presentation with structured speaker roles, such as for asking guiding questions, explaining concepts, clarifying details, and summarizing key points; and Interaction, which independently supports answering audience questions grounded in the generated slides, scripts, retrieved evidence, and presentation context. To evaluate these capabilities, we build a multimodal presentation benchmark covering single presentation, discussion, and interaction scenarios, with task-specific evaluation criteria for content quality, media relevance, dynamic media use, dialogue naturalness, and interaction grounding. Overall, PresentAgent-2 extends presentation generation from document-dependent slide creation to query-driven, research-grounded presentation video generation with multimodal media, dialogue, and interaction. Code: https://github.com/AIGeeksGroup/PresentAgent-2. Website: https://aigeeksgroup.github.io/PresentAgent-2.