An evaluation of LLMs for generating movie reviews: GPT-4o, Gemini-2.0 and DeepSeek-V3

作者: Brendan Sands, Yining Wang, Chenhao Xu, Yuxuan Zhou, Lai Wei, Rohitash Chandra

分类: cs.CL, cs.AI

发布日期: 2025-05-30

💡 一句话要点

评估大型语言模型在电影评论生成中的表现：GPT-4o、Gemini-2.0 和 DeepSeek-V3

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 电影评论生成 文本生成 情感分析 用户调查

📋 核心要点

现有方法在电影评论生成方面缺乏情感丰富性和文体连贯性，难以与人类撰写的评论相媲美。
该研究利用电影字幕和剧本作为输入，探索GPT-4o、DeepSeek-V3和Gemini-2.0在生成电影评论方面的能力。
实验结果表明，LLM能够生成语法流畅的电影评论，但情感表达和文体风格仍需改进，DeepSeek-V3表现最佳。

📝 摘要（中文）

本研究评估了大型语言模型（LLMs）在生成电影评论方面的能力。我们提出了一个框架，利用GPT-4o、DeepSeek-V3和Gemini-2.0三个LLM生成电影评论，并通过与IMDb用户评论进行比较来评估它们的性能。我们使用电影字幕和剧本作为LLM的输入，并研究它们如何影响生成的评论质量。我们从词汇、情感极性、相似性和主题一致性等方面评估了基于LLM的电影评论与IMDb用户评论的对比。结果表明，LLM能够生成语法流畅且结构完整的电影评论。然而，LLM生成的评论与IMDb评论在情感丰富性和文体连贯性方面仍存在明显差距，表明需要进一步改进以提高电影评论生成的整体质量。我们进行了一项基于调查的分析，参与者需要区分LLM和IMDb用户评论。结果表明，LLM生成的评论很难与IMDb用户评论区分开来。我们发现DeepSeek-V3生成了最平衡的评论，与IMDb评论最为接近。GPT-4o过分强调了积极情绪，而Gemini-2.0更好地捕捉了消极情绪，但表现出过度的情绪强度。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLMs）在生成电影评论方面的能力，并分析其与人类撰写的IMDb用户评论之间的差距。现有方法生成的电影评论通常缺乏情感丰富性和文体连贯性，难以达到人类评论的水平。

核心思路：论文的核心思路是利用电影字幕和剧本作为LLMs的输入，以此来引导LLMs生成电影评论。通过比较LLM生成的评论与IMDb用户评论，分析LLMs在词汇、情感极性、相似性和主题一致性等方面的表现，从而评估LLMs在电影评论生成方面的能力。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 选择三个LLMs（GPT-4o、DeepSeek-V3和Gemini-2.0）；2) 收集电影字幕和剧本作为输入数据；3) 使用LLMs生成电影评论；4) 从词汇、情感极性、相似性和主题一致性等方面评估LLM生成的评论与IMDb用户评论的对比；5) 进行用户调查，评估LLM生成的评论与IMDb用户评论的可区分性。

关键创新：该研究的关键创新在于系统性地评估了多个先进LLMs在电影评论生成方面的能力，并深入分析了LLM生成的评论与人类评论之间的差距。此外，该研究还探索了不同类型的输入数据（电影字幕和剧本）对LLM生成评论质量的影响。

关键设计：在评估LLM生成的评论时，论文采用了多种指标，包括词汇多样性、情感极性（使用情感分析工具）、相似性（使用文本相似度算法）和主题一致性（使用主题模型）。此外，用户调查的设计也至关重要，通过让参与者区分LLM生成的评论和IMDb用户评论，可以更直观地评估LLM生成评论的质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM能够生成语法流畅且结构完整的电影评论，但情感丰富性和文体连贯性仍有待提高。DeepSeek-V3生成了最平衡的评论，与IMDb评论最为接近。GPT-4o过分强调了积极情绪，而Gemini-2.0更好地捕捉了消极情绪，但表现出过度的情绪强度。用户调查显示，LLM生成的评论很难与IMDb用户评论区分开来。

🎯 应用场景

该研究成果可应用于自动化内容生成、情感分析、个性化推荐系统等领域。例如，可以利用LLM自动生成电影评论，为用户提供更全面的信息；也可以分析用户评论的情感倾向，从而改进电影制作和营销策略。未来，该技术有望应用于更广泛的文本生成任务，例如新闻报道、产品描述等。

📄 摘要（原文）

Large language models (LLMs) have been prominent in various tasks, including text generation and summarisation. The applicability of LLMs to the generation of product reviews is gaining momentum, paving the way for the generation of movie reviews. In this study, we propose a framework that generates movie reviews using three LLMs (GPT-4o, DeepSeek-V3, and Gemini-2.0), and evaluate their performance by comparing the generated outputs with IMDb user reviews. We use movie subtitles and screenplays as input to the LLMs and investigate how they affect the quality of reviews generated. We review the LLM-based movie reviews in terms of vocabulary, sentiment polarity, similarity, and thematic consistency in comparison to IMDB user reviews. The results demonstrate that LLMs are capable of generating syntactically fluent and structurally complete movie reviews. Nevertheless, there is still a noticeable gap in emotional richness and stylistic coherence between LLM-generated and IMDb reviews, suggesting that further refinement is needed to improve the overall quality of movie review generation. We provided a survey-based analysis where participants were told to distinguish between LLM and IMDb user reviews. The results show that LLM-generated reviews are difficult to distinguish from IMDB user reviews. We found that DeepSeek-V3 produced the most balanced reviews, closely matching IMDb reviews. GPT-4o overemphasised positive emotions, while Gemini-2.0 captured negative emotions better but showed excessive emotional intensity.

An evaluation of LLMs for generating movie reviews: GPT-4o, Gemini-2.0 and DeepSeek-V3

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理