SAGE: Hierarchical LLM-Based Literary Evaluation through Ontology-Grounded Interpretive Dimensions

📄 arXiv: 2605.07102v1 📥 PDF

作者: Tianyu Wang, Nianjun Zhou

分类: cs.CL

发布日期: 2026-05-08

备注: 19 pages, 4 figures


💡 一句话要点

提出SAGE分层评估框架,利用本体论驱动的大语言模型实现文学质量的量化评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型评估 文学质量分析 本体论驱动 可解释性AI 生成式文本评价 计算文学研究

📋 核心要点

  1. 现有文学评估缺乏对文化、哲学等深层语义维度的量化手段,难以有效衡量生成式模型在复杂叙事中的质量表现。
  2. 提出SAGE分层评估框架,通过本体论构建解释维度,结合多轮迭代反思与双模式评估机制,实现对文学质量的系统性拆解。
  3. 实验证实该方法具有极高的评分一致性,并量化了不同体裁间的质量鸿沟,揭示了模型在情感表达与哲学深度上的学习差异。

📝 摘要(中文)

评估文学质量需要衡量文化表征、情感深度和哲学复杂性等难以直接计算的维度。本文提出了SAGE框架,通过本体论驱动的解释性维度,将文学质量分解为多层级结构,并利用大语言模型进行多轮迭代反思与独立验证。研究在100篇短故事(涵盖经典文学、通俗小说及LLM生成文本)上进行了验证,涉及文化、情感心理及存在哲学三个分析层。实验结果显示,该框架实现了98.8%的评分收敛率和超过94%的评分者间一致性。统计分析揭示了明确的体裁质量层级,并指出哲学深度与文化批判是当前生成式模型与人类创作的主要差距所在,证明了理论驱动的LLM评估在实现测量级可靠性方面的潜力。

🔬 方法详解

问题定义:文学质量评估涉及高度主观且抽象的维度(如文化内涵、哲学深度),传统的自动化指标(如BLEU、ROUGE)无法捕捉这些深层语义特征,导致模型生成质量评估缺乏理论支撑与可解释性。

核心思路:引入本体论(Ontology)作为评估基石,将文学质量解构为可操作的解释性维度。通过多轮迭代反思(Iterative Reflection)机制,模拟人类文学批评的审视过程,确保评估结果的稳定性和逻辑严密性。

技术框架:SAGE框架包含三个分析层:文化层、情感-心理层、存在-哲学层。评估流程采用双模式(内容基准与元数据基准)评估,通过多轮LLM交互进行评分,并引入独立验证模块以消除模型偏差。

关键创新:将本体论与LLM评估结合,实现了从“基于统计的文本匹配”向“基于理论的语义评价”的范式转换。通过分层评估揭示了不同维度在模型训练中的可学习性差异,为评估生成式模型提供了可量化的标准。

关键设计:采用多轮迭代反思机制,要求模型在给出评分前进行自我批判与修正;使用Cohen's d效应量分析不同维度间的差距,量化模型在特定文学特征上的表现瓶颈,确保评估过程具备统计学意义上的稳健性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在600次评估中实现了98.8%的评分收敛率和超过94%的评分者间一致性。研究发现经典文学、通俗小说与LLM生成文本在质量上存在显著层级(p<0.001),其中哲学深度与文化批判维度的效应量(Cohen's d > 2.4)远高于情感表达(d=1.68),有力证明了当前模型在深层逻辑与文化批判能力上仍存在显著短板。

🎯 应用场景

该研究可广泛应用于生成式AI的质量控制与评估系统,特别是在创意写作辅助、文学创作模型评测及自动化内容审核领域。其分层评估方法为衡量AI在复杂叙事、文化敏感度及哲学深度方面的表现提供了标准化工具,对提升大模型在人文领域的创作水平具有重要指导意义。

📄 摘要(原文)

Evaluating literary quality requires assessing interpretive dimensions such as cultural representation, emotional depth, and philosophical sophistication that resist straightforward computational measurement. We introduce SAGE, a hierarchical evaluation framework that decomposes literary quality into ontology-grounded interpretive dimensions assessed through structured large language model evaluation with multi-round iterative reflection and independent validation. We validate the framework on 100 short stories (50 canonical works, 30 pulp fiction, 20 LLM-generated narratives) across three analytical layers (cultural, emotional-psychological, existential-philosophical) using dual-mode assessment. Across 600 evaluations, the framework achieves 98.8% score convergence and greater than 94% inter-rater agreement, with near-perfect mode invariance between content-based and metadata-based evaluation. Statistical analysis reveals a consistent genre hierarchy (Canonical > Pulp > LLM, all p<0.001) with layer-specific discrimination: cultural critique and philosophical depth exhibit very large effect sizes (Cohen's d>2.4), while emotional representation shows smaller gaps (d=1.68), suggesting that affective patterns are more learnable from training data than critical stance or philosophical depth. Cross-layer correlations (r=0.649-0.683) confirm the three dimensions capture empirically distinguishable quality facets. These findings demonstrate that theory-driven LLM evaluation can achieve measurement-grade reliability and support systematic identification of where current generative models fall short of human literary production, with direct implications for scalable automated evaluation of open-ended text generation.