Subjective Evaluation Profile Analysis of Science Fiction Short Stories and its Critical-Theoretical Significance

📄 arXiv: 2507.11582v1 📥 PDF

作者: Kazuyoshi Otsuka

分类: cs.CL

发布日期: 2025-06-07

备注: 38 pages. Manuscript submitted for review to the Journal of Computational Literary Studies (JCLS)


💡 一句话要点

利用大语言模型作为“主观文学评论家”分析科幻小说审美偏好与评价模式

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文学评价 主观性分析 科幻小说 评价模式

📋 核心要点

  1. 现有文学评价研究缺乏对LLM主观评价模式的深入探索,难以理解其内在的审美偏好。
  2. 该研究将LLM视为“主观文学评论家”,通过分析其对科幻小说的评价,揭示其潜在的价值体系。
  3. 实验表明,LLM在文学评价中表现出显著的个体差异和独特的评价模式,类似于人类的批判学派。

📝 摘要(中文)

本研究将大型语言模型(LLM)定位为“主观文学评论家”,旨在探索文学评估中的审美偏好和评价模式。研究中,十篇日语科幻短篇小说被翻译成英文,并由六个最先进的LLM在七个独立的会话中进行评估。主成分分析和聚类技术揭示了评估一致性的显著差异(α范围从1.00到0.35)以及五种不同的评估模式。此外,不同故事之间的评估方差差异高达4.5倍,TF-IDF分析证实了每个模型独特的评估词汇。我们使用原创科幻语料库的七次会话日内协议,策略性地最小化了外部偏差,从而观察到由RLHF塑造的隐式价值体系及其对文学判断的影响。这些发现表明,LLM可能具有类似于人类批判学派的个体评估特征,而不是作为中立的基准测试者。

🔬 方法详解

问题定义:现有方法难以理解大型语言模型在文学评价中的主观偏好和评价模式。传统文学批评方法主要依赖于人工分析,效率低且难以规模化。此外,缺乏针对LLM文学评价的系统性研究,无法有效揭示其内在的价值体系和审美标准。

核心思路:该研究的核心思路是将LLM视为具有主观性的“文学评论家”,通过分析其对文学作品的评价,推断其内在的价值取向和评价标准。通过控制实验条件,尽量减少外部偏差,从而更清晰地观察到LLM自身特性对文学判断的影响。

技术框架:整体框架包括以下几个阶段:1) 选择十篇日语科幻短篇小说并翻译成英文;2) 使用六个最先进的LLM在七个独立会话中对这些小说进行评估;3) 对LLM的评估结果进行主成分分析和聚类分析,以识别不同的评价模式;4) 使用TF-IDF分析评估不同模型使用的评价词汇的差异;5) 分析评估一致性(使用克朗巴赫α系数)和评估方差。

关键创新:该研究的关键创新在于:1) 将LLM视为具有主观性的文学评论家,而非简单的文本分析工具;2) 设计了严格的实验协议,通过控制外部偏差,更清晰地观察到LLM自身特性对文学判断的影响;3) 结合主成分分析、聚类分析和TF-IDF分析等多种技术手段,全面分析LLM的评价模式和价值取向。

关键设计:研究中,选择了十篇日语科幻短篇小说,并将其翻译成英文,以避免LLM对日语的语言偏见。使用了六个最先进的LLM,并在七个独立的会话中进行评估,以评估评估的一致性。使用克朗巴赫α系数来衡量评估的一致性。使用TF-IDF分析来识别不同模型使用的评价词汇的差异。日内多次评估的设计是为了减少时间推移带来的外部因素影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在文学评价中表现出显著的个体差异,评估一致性差异显著(α范围从1.00到0.35)。不同故事之间的评估方差差异高达4.5倍,表明LLM对不同类型的故事具有不同的敏感度。TF-IDF分析证实了每个模型独特的评估词汇,进一步验证了LLM具有类似于人类批判学派的个体评估特征。

🎯 应用场景

该研究成果可应用于理解和改进LLM在内容创作、推荐系统和情感分析等领域的应用。通过深入了解LLM的评价模式和价值取向,可以更好地利用LLM进行文学创作辅助、个性化推荐和情感倾向分析,并为开发更具人文关怀的AI系统提供理论基础。

📄 摘要(原文)

This study positions large language models (LLMs) as "subjective literary critics" to explore aesthetic preferences and evaluation patterns in literary assessment. Ten Japanese science fiction short stories were translated into English and evaluated by six state-of-the-art LLMs across seven independent sessions. Principal component analysis and clustering techniques revealed significant variations in evaluation consistency (α ranging from 1.00 to 0.35) and five distinct evaluation patterns. Additionally, evaluation variance across stories differed by up to 4.5-fold, with TF-IDF analysis confirming distinctive evaluation vocabularies for each model. Our seven-session within-day protocol using an original Science Fiction corpus strategically minimizes external biases, allowing us to observe implicit value systems shaped by RLHF and their influence on literary judgment. These findings suggest that LLMs may possess individual evaluation characteristics similar to human critical schools, rather than functioning as neutral benchmarkers.