COMIC: Agentic Sketch Comedy Generation

作者: Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz

分类: cs.CV, cs.AI, cs.CL, cs.MA, cs.NE

发布日期: 2026-03-11

备注: Project page: https://susunghong.github.io/COMIC/

💡 一句话要点

提出COMIC框架，通过智能体生成媲美专业水平的喜剧短视频

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 喜剧生成 智能体系统 视频生成 LLM评论员 幽默评估 内容创作 自动化生成

📋 核心要点

现有视频生成方法难以捕捉喜剧的复杂性和主观性，缺乏有效的幽默评估机制。
COMIC框架模拟真实制作流程，利用智能体群体进行创意生成、评估和优化，提升喜剧视频的质量和多样性。
实验证明，COMIC框架生成的喜剧短视频质量接近专业水平，并在视频生成方面表现出最先进的性能。

📝 摘要（中文）

本文提出了一种全自动AI系统，用于生成类似于《周六夜现场》等节目的喜剧短视频。该系统以角色参考为起点，采用基于真实制作工作室角色的智能体群体，通过迭代竞争、评估和改进来优化创意和输出的质量和多样性。一个关键贡献是引入了LLM评论员，通过分析YouTube上的喜剧视频语料库，使其与真实观众的偏好对齐，从而自动评估幽默感。实验表明，该框架生成的结果在视频生成方面达到了最先进的水平，并且质量接近专业制作的短剧。

🔬 方法详解

问题定义：论文旨在解决自动生成高质量喜剧短视频的问题。现有方法在理解和生成幽默内容方面存在不足，难以捕捉喜剧的微妙之处和观众的偏好。此外，缺乏有效的幽默评估机制，导致生成的内容质量参差不齐。

核心思路：论文的核心思路是模拟真实喜剧制作流程，构建一个由多个智能体组成的系统，每个智能体扮演不同的角色（如编剧、导演、演员等），通过协作、竞争和迭代优化来生成喜剧内容。利用大型语言模型（LLM）作为评论员，学习观众的幽默偏好，从而对生成的内容进行评估和反馈。

技术框架：COMIC框架包含以下主要模块：1) 角色参考输入：提供角色形象和背景信息。2) 智能体群体：由多个智能体组成，每个智能体负责不同的任务，如创意生成、剧本编写、视频生成等。3) 迭代优化：智能体之间进行竞争和协作，通过迭代优化来提高内容质量。4) LLM评论员：使用大型语言模型作为评论员，根据观众的幽默偏好对生成的内容进行评估和反馈。5) 视频生成：将剧本转化为最终的喜剧短视频。

关键创新：该论文的关键创新在于：1) 引入了智能体群体，模拟真实制作流程，提高了内容生成的多样性和质量。2) 使用LLM作为评论员，通过学习观众的幽默偏好，实现了自动化的幽默评估。3) 将角色参考作为输入，使得生成的视频内容更加个性化和有趣。

关键设计：LLM评论员的设计是关键。论文通过分析YouTube上的大量喜剧视频，训练LLM来预测观众对不同类型幽默的反应。损失函数的设计旨在最大化LLM评论员对生成内容的幽默评分，并鼓励智能体生成多样化的内容。智能体之间的协作和竞争机制也至关重要，通过合理的奖励和惩罚机制，鼓励智能体生成高质量的内容。

🖼️ 关键图片

📊 实验亮点

实验结果表明，COMIC框架生成的喜剧短视频在幽默感、创意性和娱乐性方面都达到了较高的水平，接近专业制作的短剧。通过与现有视频生成方法进行对比，COMIC框架在多个指标上都取得了显著的提升，证明了其有效性和优越性。LLM评论员的引入显著提高了幽默评估的准确性，使得系统能够更好地捕捉观众的偏好。

🎯 应用场景

该研究成果可应用于娱乐产业，例如自动生成短视频内容、辅助喜剧创作、个性化推荐喜剧内容等。此外，该技术还可以扩展到其他类型的视频生成，例如教育视频、广告视频等，具有广阔的应用前景和商业价值。未来，该技术有望改变内容创作的方式，降低创作成本，提高创作效率。

📄 摘要（原文）

We propose a fully automated AI system that produces short comedic videos similar to sketch shows such as Saturday Night Live. Starting with character references, the system employs a population of agents loosely based on real production studio roles, structured to optimize the quality and diversity of ideas and outputs through iterative competition, evaluation, and improvement. A key contribution is the introduction of LLM critics aligned with real viewer preferences through the analysis of a corpus of comedy videos on YouTube to automatically evaluate humor. Our experiments show that our framework produces results approaching the quality of professionally produced sketches while demonstrating state-of-the-art performance in video generation.

COMIC: Agentic Sketch Comedy Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理