LLMPopcorn: An Empirical Study of LLMs as Assistants for Popular Micro-video Generation

作者: Junchen Fu, Xuri Ge, Kaiwen Zheng, Ioannis Arapakis, Xin Xin, Joemon M. Jose

分类: cs.CL, cs.CV

发布日期: 2025-02-18 (更新: 2025-02-19)

💡 一句话要点

LLMPopcorn：探索大语言模型辅助生成高流量微视频的潜力与方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 微视频生成 大语言模型 提示工程 AI内容创作 视频生成模型

📋 核心要点

现有方法缺乏对LLM辅助生成高流量微视频的系统性研究，未能充分挖掘LLM在内容创作方面的潜力。
论文提出LLMPopcorn框架，探索利用LLM生成微视频脚本，并结合视频生成模型生成最终视频，旨在提升微视频的受欢迎程度。
实验结果表明，DeepSeek-V3等先进LLM能够生成与人类创作内容相当的微视频，提示工程能进一步提升视频的受欢迎程度。

📝 摘要（中文）

本文对大语言模型（LLM）辅助生成高流量微视频（LLMPopcorn）进行了实证研究。鉴于高质量AI生成内容的兴起，以及LLM在文本生成和推理方面的能力，本文旨在探索LLM在辅助创作热门微视频方面的潜力。具体研究了以下问题：（i）如何有效利用LLM辅助生成热门微视频？（ii）基于提示的增强在多大程度上可以优化LLM生成的内容以获得更高的受欢迎程度？（iii）各种LLM和视频生成器在热门微视频生成任务中的表现如何？研究表明，DeepSeek-V3等先进LLM能够生成与人类创作内容具有相当受欢迎程度的微视频。提示增强进一步提高了受欢迎程度。基准测试表明DeepSeek-V3和DeepSeek-R1在LLM中表现突出，而LTX-Video和HunyuanVideo在视频生成方面领先。这项开创性工作推进了AI辅助微视频创作，并揭示了新的研究机会。代码和数据集将开源。

🔬 方法详解

问题定义：论文旨在解决如何利用大语言模型（LLM）辅助生成更受欢迎的微视频的问题。现有方法缺乏对LLM在微视频生成方面的系统性研究，未能充分利用LLM的文本生成和推理能力来提升微视频的吸引力。微视频平台内容爆炸，创作者难以脱颖而出，需要更高效的内容创作方式。

核心思路：论文的核心思路是利用LLM生成高质量的微视频脚本，然后将脚本输入到视频生成模型中，最终生成微视频。通过提示工程（Prompt Engineering）优化LLM的输出，使其更符合热门微视频的特征，从而提高视频的受欢迎程度。这种方法旨在降低微视频创作门槛，提高创作效率和内容质量。

技术框架：LLMPopcorn框架主要包含两个阶段：1) LLM脚本生成阶段：使用不同的LLM（如ChatGPT、DeepSeek等）和提示词模板生成微视频脚本。通过提示工程，引导LLM生成更具吸引力、更符合目标受众口味的脚本。2) 视频生成阶段：将生成的脚本输入到不同的视频生成模型（如LTX-Video、HunyuanVideo等）中，生成最终的微视频。

关键创新：论文的关键创新在于系统性地研究了LLM在微视频生成中的应用，并提出了基于提示工程的优化方法。通过实验验证了不同LLM和视频生成模型在微视频生成任务中的性能，并找到了表现最佳的组合。此外，论文还开源了代码和数据集，为后续研究提供了便利。

关键设计：论文使用了多种LLM（如ChatGPT、DeepSeek-V3、DeepSeek-R1等）和视频生成模型（如LTX-Video、HunyuanVideo等）进行对比实验。提示工程方面，设计了不同的提示词模板，包括角色设定、场景描述、情节发展等，以引导LLM生成更符合要求的脚本。实验中，使用点赞数、评论数、分享数等指标来衡量微视频的受欢迎程度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DeepSeek-V3在LLM中表现突出，能够生成与人类创作内容具有相当受欢迎程度的微视频。提示增强进一步提高了视频的受欢迎程度。LTX-Video和HunyuanVideo在视频生成方面表现领先。通过对比实验，论文确定了LLM和视频生成模型的最佳组合，为实际应用提供了参考。

🎯 应用场景

该研究成果可应用于微视频内容创作平台，帮助创作者更高效地生成高质量、高流量的微视频。此外，该技术还可应用于广告营销、教育娱乐等领域，实现AI驱动的内容生成，降低内容创作成本，提升内容传播效果。未来，该研究方向有望推动AI在内容创作领域的更广泛应用。

📄 摘要（原文）

Popular Micro-videos, dominant on platforms like TikTok and YouTube, hold significant commercial value. The rise of high-quality AI-generated content has spurred interest in AI-driven micro-video creation. However, despite the advanced capabilities of large language models (LLMs) like ChatGPT and DeepSeek in text generation and reasoning, their potential to assist the creation of popular micro-videos remains largely unexplored. In this paper, we conduct an empirical study on LLM-assisted popular micro-video generation (LLMPopcorn). Specifically, we investigate the following research questions: (i) How can LLMs be effectively utilized to assist popular micro-video generation? (ii) To what extent can prompt-based enhancements optimize the LLM-generated content for higher popularity? (iii) How well do various LLMs and video generators perform in the popular micro-video generation task? By exploring these questions, we show that advanced LLMs like DeepSeek-V3 enable micro-video generation to achieve popularity comparable to human-created content. Prompt enhancements further boost popularity, and benchmarking highlights DeepSeek-V3 and DeepSeek-R1 among LLMs, while LTX-Video and HunyuanVideo lead in video generation. This pioneering work advances AI-assisted micro-video creation, uncovering new research opportunities. We will release the code and datasets to support future studies.

LLMPopcorn: An Empirical Study of LLMs as Assistants for Popular Micro-video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理