KRISTEVA: Close Reading as a Novel Task for Benchmarking Interpretive Reasoning
作者: Peiqi Sui, Juan Diego Rodriguez, Philippe Laban, Dean Murphy, Joseph P. Dexter, Richard Jean So, Samuel Baker, Pramit Chaudhuri
分类: cs.CL
发布日期: 2025-05-14 (更新: 2025-06-03)
备注: ACL 2025 main
💡 一句话要点
提出KRISTEVA基准,用于评估LLM在文学作品解读推理中的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文学作品解读 解释性推理 大型语言模型 基准数据集 文体特征提取
📋 核心要点
- 现有方法缺乏对LLM在文学作品解读能力上的评估,多学科基准如MMLU未包含文学科目。
- KRISTEVA基准通过设计三个难度递增的任务,模拟文学作品解读过程中的不同要素,评估LLM的推理能力。
- 实验结果表明,虽然LLM具备一定文学作品解读能力,但与人类专家相比仍有差距,存在提升空间。
📝 摘要(中文)
本文提出了KRISTEVA,这是首个用于评估解释性推理的文学作品解读基准。该基准包含1331道多项选择题,改编自大学英语课程的课堂数据。KRISTEVA提出了三个难度递增的任务集合,以模拟文学作品解读过程中的不同要素,用于测试大型语言模型(LLM)对文学作品的理解和推理能力:1)提取文体特征;2)从参数化知识中检索相关的上下文信息;3)文体和外部上下文之间的多跳推理。基线结果表明,虽然最先进的LLM具备一定的大学水平的文学作品解读能力(准确率49.7%-69.7%),但其在11个任务中的10个任务上的表现仍然落后于经验丰富的人类评估者。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在文学作品解读和解释性推理能力评估方面缺乏标准基准的问题。现有方法和基准,例如MMLU,并未将文学作为评估科目,因此无法有效衡量LLM在理解和分析文学文本方面的能力。这阻碍了LLM在人文社科领域的应用,也限制了对LLM更深层次推理能力的探索。
核心思路:论文的核心思路是构建一个专门针对文学作品解读的基准数据集,并设计一系列任务来模拟人类进行文学作品解读的过程。通过评估LLM在这些任务上的表现,可以更准确地衡量其在理解文体特征、检索相关上下文信息以及进行多跳推理方面的能力。这种方法旨在弥合LLM在自然语言处理和人文社科之间的差距。
技术框架:KRISTEVA基准包含以下几个主要组成部分:1)数据集构建:从大学英语课程的课堂数据中改编了1331道多项选择题,涵盖不同文学作品和文体。2)任务设计:设计了三个难度递增的任务集合,包括提取文体特征、检索相关上下文信息以及文体和外部上下文之间的多跳推理。3)评估指标:使用准确率作为评估LLM在各个任务上表现的指标。4)基线实验:使用最先进的LLM在KRISTEVA基准上进行实验,并与人类评估者的表现进行比较。
关键创新:KRISTEVA基准的关键创新在于它是首个专门针对文学作品解读的基准数据集。与现有的通用基准相比,KRISTEVA更侧重于评估LLM在理解文体特征、进行解释性推理以及整合外部知识方面的能力。此外,KRISTEVA的任务设计也更贴近人类进行文学作品解读的实际过程。
关键设计:KRISTEVA基准的关键设计包括:1)多项选择题的设计:每个问题都包含一个问题和四个选项,其中只有一个选项是正确的。问题设计旨在考察LLM对文学作品的细节理解、文体特征的把握以及上下文信息的运用。2)任务难度的递增:三个任务集合的难度逐渐增加,旨在逐步考察LLM的推理能力。3)数据集的多样性:数据集涵盖了不同文学作品和文体,以确保评估结果的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,最先进的LLM在KRISTEVA基准上取得了49.7%-69.7%的准确率,表明其具备一定的大学水平的文学作品解读能力。然而,与经验丰富的人类评估者相比,LLM在11个任务中的10个任务上的表现仍然落后,表明LLM在文学作品解读方面仍有很大的提升空间。
🎯 应用场景
KRISTEVA基准可用于评估和提升LLM在人文社科领域的应用能力,例如辅助文学研究、自动生成文学评论、个性化阅读推荐等。该基准还有助于推动LLM在理解复杂文本、进行解释性推理和整合外部知识方面的研究进展,促进AI技术在更广泛领域的应用。
📄 摘要(原文)
Each year, tens of millions of essays are written and graded in college-level English courses. Students are asked to analyze literary and cultural texts through a process known as close reading, in which they gather textual details to formulate evidence-based arguments. Despite being viewed as a basis for critical thinking and widely adopted as a required element of university coursework, close reading has never been evaluated on large language models (LLMs), and multi-discipline benchmarks like MMLU do not include literature as a subject. To fill this gap, we present KRISTEVA, the first close reading benchmark for evaluating interpretive reasoning, consisting of 1331 multiple-choice questions adapted from classroom data. With KRISTEVA, we propose three progressively more difficult sets of tasks to approximate different elements of the close reading process, which we use to test how well LLMs may seem to understand and reason about literary works: 1) extracting stylistic features, 2) retrieving relevant contextual information from parametric knowledge, and 3) multi-hop reasoning between style and external contexts. Our baseline results find that, while state-of-the-art LLMs possess some college-level close reading competency (accuracy 49.7% - 69.7%), their performances still trail those of experienced human evaluators on 10 out of our 11 tasks.