COMIC: Agentic Sketch Comedy Generation

📄 arXiv: 2603.11048v1 📥 PDF

作者: Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz

分类: cs.CV, cs.AI, cs.CL, cs.MA, cs.NE

发布日期: 2026-03-11

备注: Project page: https://susunghong.github.io/COMIC/


💡 一句话要点

提出COMIC框架,通过智能体生成媲美专业水平的喜剧短视频

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 喜剧生成 智能体系统 视频生成 LLM评论员 幽默评估 内容创作 自动化生成

📋 核心要点

  1. 现有视频生成方法难以捕捉喜剧的复杂性和主观性,缺乏有效的幽默评估机制。
  2. COMIC框架模拟真实制作流程,利用智能体群体进行创意生成、评估和优化,提升喜剧视频的质量和多样性。
  3. 实验证明,COMIC框架生成的喜剧短视频质量接近专业水平,并在视频生成方面表现出最先进的性能。

📝 摘要(中文)

本文提出了一种全自动AI系统,用于生成类似于《周六夜现场》等节目的喜剧短视频。该系统以角色参考为起点,采用基于真实制作工作室角色的智能体群体,通过迭代竞争、评估和改进来优化创意和输出的质量和多样性。一个关键贡献是引入了LLM评论员,通过分析YouTube上的喜剧视频语料库,使其与真实观众的偏好对齐,从而自动评估幽默感。实验表明,该框架生成的结果在视频生成方面达到了最先进的水平,并且质量接近专业制作的短剧。

🔬 方法详解

问题定义:论文旨在解决自动生成高质量喜剧短视频的问题。现有方法在理解和生成幽默内容方面存在不足,难以捕捉喜剧的微妙之处和观众的偏好。此外,缺乏有效的幽默评估机制,导致生成的内容质量参差不齐。

核心思路:论文的核心思路是模拟真实喜剧制作流程,构建一个由多个智能体组成的系统,每个智能体扮演不同的角色(如编剧、导演、演员等),通过协作、竞争和迭代优化来生成喜剧内容。利用大型语言模型(LLM)作为评论员,学习观众的幽默偏好,从而对生成的内容进行评估和反馈。

技术框架:COMIC框架包含以下主要模块:1) 角色参考输入:提供角色形象和背景信息。2) 智能体群体:由多个智能体组成,每个智能体负责不同的任务,如创意生成、剧本编写、视频生成等。3) 迭代优化:智能体之间进行竞争和协作,通过迭代优化来提高内容质量。4) LLM评论员:使用大型语言模型作为评论员,根据观众的幽默偏好对生成的内容进行评估和反馈。5) 视频生成:将剧本转化为最终的喜剧短视频。

关键创新:该论文的关键创新在于:1) 引入了智能体群体,模拟真实制作流程,提高了内容生成的多样性和质量。2) 使用LLM作为评论员,通过学习观众的幽默偏好,实现了自动化的幽默评估。3) 将角色参考作为输入,使得生成的视频内容更加个性化和有趣。

关键设计:LLM评论员的设计是关键。论文通过分析YouTube上的大量喜剧视频,训练LLM来预测观众对不同类型幽默的反应。损失函数的设计旨在最大化LLM评论员对生成内容的幽默评分,并鼓励智能体生成多样化的内容。智能体之间的协作和竞争机制也至关重要,通过合理的奖励和惩罚机制,鼓励智能体生成高质量的内容。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,COMIC框架生成的喜剧短视频在幽默感、创意性和娱乐性方面都达到了较高的水平,接近专业制作的短剧。通过与现有视频生成方法进行对比,COMIC框架在多个指标上都取得了显著的提升,证明了其有效性和优越性。LLM评论员的引入显著提高了幽默评估的准确性,使得系统能够更好地捕捉观众的偏好。

🎯 应用场景

该研究成果可应用于娱乐产业,例如自动生成短视频内容、辅助喜剧创作、个性化推荐喜剧内容等。此外,该技术还可以扩展到其他类型的视频生成,例如教育视频、广告视频等,具有广阔的应用前景和商业价值。未来,该技术有望改变内容创作的方式,降低创作成本,提高创作效率。

📄 摘要(原文)

We propose a fully automated AI system that produces short comedic videos similar to sketch shows such as Saturday Night Live. Starting with character references, the system employs a population of agents loosely based on real production studio roles, structured to optimize the quality and diversity of ideas and outputs through iterative competition, evaluation, and improvement. A key contribution is the introduction of LLM critics aligned with real viewer preferences through the analysis of a corpus of comedy videos on YouTube to automatically evaluate humor. Our experiments show that our framework produces results approaching the quality of professionally produced sketches while demonstrating state-of-the-art performance in video generation.