Comparative Study of Large Language Models on Chinese Film Script Continuation: An Empirical Analysis Based on GPT-5.2 and Qwen-Max

📄 arXiv: 2601.14826v1 📥 PDF

作者: Yuxuan Cao, Zida Yang, Ye Wang

分类: cs.CL

发布日期: 2026-01-21

备注: 18 pages, 6 figures, 6 tables, 20 references. First two authors contributed equally. Corresponding author: Ye Wang (wangye@whu.edu.cn)


💡 一句话要点

构建中文电影剧本续写基准,对比GPT-5.2与Qwen-Max在创意写作中的性能差异。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 中文电影剧本续写 创意写作 基准数据集 多维度评估

📋 核心要点

  1. 现有大型语言模型在创意写作中应用广泛,但缺乏针对文化特定叙事任务的系统性评估,尤其是在中文电影剧本续写方面。
  2. 本研究构建中文电影剧本续写基准,采用“前半部分续写后半部分”范式,并设计多维度评估框架,对比GPT-5.2和Qwen-Max的性能。
  3. 实验结果表明,GPT-5.2在结构保持、整体质量和综合得分方面显著优于Qwen-Max,但在ROUGE-L指标上略逊于Qwen-Max。

📝 摘要(中文)

本研究旨在系统性地考察大型语言模型(LLMs)在文化特定叙事任务中的表现,尤其是在中文电影剧本续写方面的能力。为此,我们构建了首个包含53部经典电影的中文电影剧本续写基准,并设计了一个多维度评估框架,用于比较GPT-5.2和Qwen-Max-Latest。采用“前半部分续写后半部分”的范式,每部电影生成3个样本,共获得303个有效样本(GPT-5.2:157个,有效率98.7%;Qwen-Max:146个,有效率91.8%)。评估指标包括ROUGE-L、结构相似性以及基于LLM的评分(DeepSeek-Reasoner)。对144个配对样本的统计分析表明,Qwen-Max在ROUGE-L上略高于GPT-5.2(0.2230 vs 0.2114,d=-0.43);然而,GPT-5.2在结构保持(0.93 vs 0.75,d=0.46)、整体质量(44.79 vs 25.72,d=1.04)和综合得分(0.50 vs 0.39,d=0.84)方面显著优于Qwen-Max。整体质量的效果量达到较大水平(d>0.8)。GPT-5.2在角色一致性、语 Tone-风格匹配和格式保持方面表现出色,而Qwen-Max在生成稳定性方面存在不足。本研究为中文创意写作中LLM的评估提供了一个可复现的框架。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在中文电影剧本续写任务中的性能评估问题。现有方法缺乏针对中文文化背景的基准数据集和多维度评估体系,难以全面衡量模型在角色一致性、风格匹配和结构保持等方面的能力。

核心思路:论文的核心思路是构建一个中文电影剧本续写基准,并设计一个综合性的评估框架,从多个维度对大型语言模型进行评估。通过对比不同模型在同一任务上的表现,可以更清晰地了解它们在中文创意写作方面的优势和不足。

技术框架:整体流程包括以下几个阶段:1) 构建中文电影剧本续写基准,包含53部经典电影;2) 采用“前半部分续写后半部分”的范式,生成续写样本;3) 使用ROUGE-L、结构相似性以及基于LLM的评分(DeepSeek-Reasoner)等多维度指标进行评估;4) 对评估结果进行统计分析,比较不同模型的性能差异。

关键创新:论文的主要创新点在于:1) 构建了首个中文电影剧本续写基准,为该领域的研究提供了数据基础;2) 设计了一个多维度的评估框架,能够更全面地衡量模型在中文创意写作方面的能力;3) 采用了LLM-as-Judge的评估方式,利用大型语言模型进行自动评分,提高了评估的效率和客观性。

关键设计:在数据生成方面,每部电影生成3个续写样本,以保证评估的可靠性。在评估指标方面,除了传统的ROUGE-L指标外,还引入了结构相似性指标,以衡量模型在剧本结构保持方面的能力。此外,还使用了DeepSeek-Reasoner进行自动评分,并对评分结果进行了统计分析。

📊 实验亮点

实验结果表明,GPT-5.2在结构保持(0.93 vs 0.75,d=0.46)、整体质量(44.79 vs 25.72,d=1.04)和综合得分(0.50 vs 0.39,d=0.84)方面显著优于Qwen-Max,整体质量的效果量达到较大水平(d>0.8)。Qwen-Max在ROUGE-L指标上略高于GPT-5.2(0.2230 vs 0.2114,d=-0.43)。

🎯 应用场景

该研究成果可应用于提升大型语言模型在中文创意写作领域的应用能力,例如辅助编剧进行剧本创作、生成电影情节概要等。此外,该研究构建的中文电影剧本续写基准和评估框架,可为后续研究提供参考,推动中文自然语言处理技术的发展。

📄 摘要(原文)

As large language models (LLMs) are increasingly applied to creative writing, their performance on culturally specific narrative tasks warrants systematic investigation. This study constructs the first Chinese film script continuation benchmark comprising 53 classic films, and designs a multi-dimensional evaluation framework comparing GPT-5.2 and Qwen-Max-Latest. Using a "first half to second half" continuation paradigm with 3 samples per film, we obtained 303 valid samples (GPT-5.2: 157, 98.7% validity; Qwen-Max: 146, 91.8% validity). Evaluation integrates ROUGE-L, Structural Similarity, and LLM-as-Judge scoring (DeepSeek-Reasoner). Statistical analysis of 144 paired samples reveals: Qwen-Max achieves marginally higher ROUGE-L (0.2230 vs 0.2114, d=-0.43); however, GPT-5.2 significantly outperforms in structural preservation (0.93 vs 0.75, d=0.46), overall quality (44.79 vs 25.72, d=1.04), and composite scores (0.50 vs 0.39, d=0.84). The overall quality effect size reaches large effect level (d>0.8). GPT-5.2 excels in character consistency, tone-style matching, and format preservation, while Qwen-Max shows deficiencies in generation stability. This study provides a reproducible framework for LLM evaluation in Chinese creative writing.