OpenMic: A Multi-Agent-Based Stand-Up Comedy Generation System

📄 arXiv: 2601.08288v1 📥 PDF

作者: Yuyang Wu, Hanzhong Cao, Jianhao Chen, Yufei Li

分类: cs.AI

发布日期: 2026-01-13


💡 一句话要点

OpenMic:一个基于多智能体的中文单口喜剧生成系统

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 单口喜剧生成 多智能体系统 AutoGen 检索增强生成 RAG 中文幽默 长文本生成 喜剧视频生成

📋 核心要点

  1. 现有中文幽默数据集更适合幽默理解而非长文本生成,导致直接监督训练与单口喜剧生成任务不匹配。
  2. OpenMic采用多智能体系统,通过迭代优化幽默、节奏和可表演性,将人生话题转化为完整的单口喜剧。
  3. 系统利用检索增强生成(RAG)扩展素材和想法,并微调JokeWriter模型以学习单口喜剧的结构和回调。

📝 摘要(中文)

中文单口喜剧的生成不仅仅是简单的文本生成,它需要植根于文化的幽默、精确的节奏把握、舞台表演提示以及隐含的多步骤推理。此外,常用的中文幽默数据集更适合于幽默理解和评估,而非长篇单口喜剧生成,导致直接监督与目标任务不匹配。为了解决这些挑战,我们提出了OpenMic,一个构建于AutoGen之上的端到端多智能体系统,它可以将用户提供的人生话题转化为3-5分钟的中文单口喜剧表演,并进一步生成带有旁白的喜剧视频。OpenMic在一个多轮迭代循环规划中协调多个专业智能体,以共同优化幽默、节奏和可表演性。为了缓解数据集与任务的不匹配,我们利用检索增强生成(RAG)来增强生成,以实现素材的扎根和想法的扩展,并且我们微调了一个专门的JokeWriter,以更好地内化单口喜剧特有的铺垫-笑点结构和长程回调。

🔬 方法详解

问题定义:论文旨在解决中文单口喜剧自动生成的问题。现有方法主要痛点在于:1) 缺乏能够直接用于长篇单口喜剧生成的数据集;2) 生成过程需要考虑文化背景、幽默感、节奏感和舞台表现等复杂因素;3) 传统文本生成方法难以捕捉单口喜剧中常见的铺垫-笑点结构和长程回调。

核心思路:论文的核心思路是利用多智能体系统模拟单口喜剧创作过程,将复杂的生成任务分解为多个智能体协同完成的子任务,并通过迭代优化来提升生成质量。同时,利用检索增强生成(RAG)来缓解数据集不足的问题,并专门训练JokeWriter模型来学习单口喜剧的结构。

技术框架:OpenMic系统基于AutoGen框架构建,包含多个专业智能体,例如:主题挖掘智能体、笑话编写智能体、节奏控制智能体、表演提示生成智能体等。系统采用多轮迭代循环规划,每个智能体负责特定的子任务,并通过共享信息和协作来共同优化生成结果。整体流程包括:用户输入主题 -> 主题挖掘 -> 笑话编写 -> 节奏控制 -> 表演提示生成 -> 喜剧视频生成。

关键创新:该论文的关键创新在于:1) 提出了一个基于多智能体的中文单口喜剧生成系统,能够模拟人类创作过程,实现高质量的喜剧内容生成;2) 采用检索增强生成(RAG)来缓解数据集不足的问题,提升生成内容的相关性和多样性;3) 专门训练JokeWriter模型来学习单口喜剧的结构,提升生成内容的幽默感和可读性。

关键设计:OpenMic系统的关键设计包括:1) 多智能体的角色分配和协作机制;2) RAG模块的检索策略和知识融合方法;3) JokeWriter模型的训练数据和损失函数设计;4) 迭代优化过程中的反馈机制和终止条件。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了OpenMic系统的有效性。实验结果表明,OpenMic生成的单口喜剧在幽默感、节奏感和可表演性等方面均优于基线模型。此外,用户评估结果也表明,OpenMic生成的喜剧内容具有较高的娱乐性和吸引力。具体性能数据未知。

🎯 应用场景

OpenMic系统具有广泛的应用前景,例如:可以用于自动生成单口喜剧剧本,为喜剧演员提供创作灵感;可以用于生成个性化的喜剧内容,满足不同用户的娱乐需求;可以用于教育领域,帮助学生学习幽默表达和创作技巧。未来,该技术有望应用于智能客服、虚拟助手等领域,提升人机交互的趣味性和自然性。

📄 摘要(原文)

Chinese stand-up comedy generation goes beyond plain text generation, requiring culturally grounded humor, precise timing, stage-performance cues, and implicit multi-step reasoning. Moreover, commonly used Chinese humor datasets are often better suited for humor understanding and evaluation than for long-form stand-up generation, making direct supervision misaligned with the target task. To address these challenges, we present OpenMic, an end-to-end multi-agent system built on AutoGen that transforms a user-provided life topic into a 3-5 minute Chinese stand-up performance and further produces a narrated comedy video. OpenMic orchestrates multiple specialized agents in a multi-round iterative loop-planning to jointly optimize humor, timing, and performability. To mitigate the dataset-task mismatch, we augment generation with retrieval-augmented generation (RAG) for material grounding and idea expansion, and we fine-tune a dedicated JokeWriter to better internalize stand-up-specific setup-punchline structures and long-range callbacks.