PresentAgent-2: Towards Generalist Multimodal Presentation Agents

作者: Wei Wu, Ziyang Xu, Zeyu Zhang, Yang Zhao, Hao Tang

分类: cs.CV, cs.CL

发布日期: 2026-05-12

🔗 代码/项目: GITHUB | PROJECT_PAGE

💡 一句话要点

提出PresentAgent-2，实现通用多模态演示代理，支持多种演示模式。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 演示生成 多模态学习 代理框架 自然语言处理 视频生成

📋 核心要点

现有演示生成方法主要依赖于静态幻灯片创建，缺乏对用户查询的深度理解和多模态资源的有效利用。
PresentAgent-2通过代理框架，实现从用户查询到完整演示视频的自动生成，支持多种演示模式和交互方式。
构建了多模态演示基准，并针对不同任务设计了评估标准，验证了PresentAgent-2在内容质量、媒体相关性和交互性方面的有效性。

📝 摘要（中文）

本文介绍PresentAgent-2，一个用于从用户查询生成演示视频的代理框架。给定一个开放式的用户查询和一个选定的演示模式，PresentAgent-2首先将查询总结为一个重点明确的主题，并对演示友好的资源进行深度研究，以收集多模态资源，包括相关的文本、图像、GIF和视频。然后，它构建演示幻灯片，生成特定模式的脚本，并将幻灯片、音频和动态媒体组合成一个完整的演示视频。PresentAgent-2在一个统一的框架内支持三种独立的演示模式：单人演示，生成单人叙述的演示视频；讨论，创建具有结构化发言人角色的多人演示，例如提出引导性问题、解释概念、澄清细节和总结要点；交互，独立支持回答观众基于生成的幻灯片、脚本、检索到的证据和演示上下文提出的问题。为了评估这些能力，我们构建了一个涵盖单人演示、讨论和交互场景的多模态演示基准，并针对内容质量、媒体相关性、动态媒体使用、对话自然性和交互基础等任务特定评估标准。总体而言，PresentAgent-2将演示生成从依赖于文档的幻灯片创建扩展到查询驱动、研究基础的多模态媒体、对话和交互演示视频生成。

🔬 方法详解

问题定义：现有演示生成方法主要集中在静态幻灯片的创建，缺乏根据用户查询进行深度研究和整合多模态资源的能力。此外，现有方法难以支持多人讨论和交互式问答等复杂的演示场景。因此，如何实现从用户查询驱动的、研究基础的、支持多种演示模式和交互方式的演示视频生成是一个挑战。

核心思路：PresentAgent-2的核心思路是构建一个代理框架，该框架能够理解用户查询，进行深度研究以收集相关资源，并根据选定的演示模式生成相应的幻灯片、脚本和多媒体内容。通过将演示生成过程分解为多个可控的步骤，并利用大型语言模型（LLM）进行内容生成和决策，实现自动化和智能化。

技术框架：PresentAgent-2的整体架构包含以下几个主要模块：1) 查询总结模块：将用户查询提炼为核心主题。2) 资源检索模块：基于核心主题，从各种来源（如文本、图像、视频等）检索相关资源。3) 幻灯片构建模块：根据检索到的资源和演示模式，构建演示幻灯片。4) 脚本生成模块：为每张幻灯片生成相应的脚本，并根据演示模式调整脚本内容。5) 视频合成模块：将幻灯片、脚本、音频和动态媒体组合成完整的演示视频。

关键创新：PresentAgent-2的关键创新在于其代理框架的设计，该框架能够将复杂的演示生成任务分解为多个可控的子任务，并利用LLM进行自动化处理。此外，PresentAgent-2还支持多种演示模式（单人演示、讨论、交互），并针对每种模式设计了相应的脚本生成和视频合成策略。

关键设计：在资源检索模块中，使用了针对演示友好的资源来源进行检索，例如学术论文、在线百科等。在脚本生成模块中，针对不同的演示模式，设计了不同的脚本模板和角色分配策略。例如，在讨论模式中，会预先定义不同的发言人角色（如提问者、解释者、总结者），并根据角色分配相应的脚本内容。在交互模式中，会根据幻灯片内容和检索到的证据，生成可能的观众问题和答案。

🖼️ 关键图片

📊 实验亮点

论文构建了一个多模态演示基准，并针对内容质量、媒体相关性、动态媒体使用、对话自然性和交互基础等任务特定评估标准进行了评估。实验结果表明，PresentAgent-2在各种演示模式下均取得了良好的性能，证明了其在生成高质量、多模态、交互式演示视频方面的有效性。具体性能数据未知。

🎯 应用场景

PresentAgent-2可应用于教育、培训、会议等多种场景，帮助用户快速生成高质量的演示视频。例如，教师可以使用PresentAgent-2自动生成课程讲解视频，学生可以使用PresentAgent-2制作课程展示，企业可以使用PresentAgent-2进行产品演示和培训。该研究的未来影响在于推动演示视频生成的自动化和智能化，降低演示制作的门槛，提高演示效率和质量。

📄 摘要（原文）

Presentation generation is moving beyond static slide creation toward end-to-end presentation video generation with research grounding, multimodal media, and interactive delivery. We introduce PresentAgent-2, an agentic framework for generating presentation videos from user queries. Given an open-ended user query and a selected presentation mode, PresentAgent-2 first summarizes the query into a focused topic and performs deep research over presentation-friendly sources to collect multimodal resources, including relevant text, images, GIFs, and videos. It then constructs presentation slides, generates mode-specific scripts, and composes slides, audio, and dynamic media into a complete presentation video. PresentAgent-2 supports three independent presentation modes within a unified framework: Single Presentation, which generates a single-speaker narrated presentation video; Discussion, which creates a multi-speaker presentation with structured speaker roles, such as for asking guiding questions, explaining concepts, clarifying details, and summarizing key points; and Interaction, which independently supports answering audience questions grounded in the generated slides, scripts, retrieved evidence, and presentation context. To evaluate these capabilities, we build a multimodal presentation benchmark covering single presentation, discussion, and interaction scenarios, with task-specific evaluation criteria for content quality, media relevance, dynamic media use, dialogue naturalness, and interaction grounding. Overall, PresentAgent-2 extends presentation generation from document-dependent slide creation to query-driven, research-grounded presentation video generation with multimodal media, dialogue, and interaction. Code: https://github.com/AIGeeksGroup/PresentAgent-2. Website: https://aigeeksgroup.github.io/PresentAgent-2.

PresentAgent-2: Towards Generalist Multimodal Presentation Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理