Zero-shot Large Language Models for Automatic Readability Assessment

📄 arXiv: 2604.24470v1 📥 PDF

作者: Riley Grossman, Yi Chen

分类: cs.CL

发布日期: 2026-04-27

备注: Accepted to ACL 2026 (Main Conference)


💡 一句话要点

提出基于零样本大语言模型的自动可读性评估方法,显著提升评估效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动可读性评估 大型语言模型 零样本学习 自然语言处理 文本理解

📋 核心要点

  1. 现有的自动可读性评估方法缺乏有效利用上下文信息的能力,限制了其在复杂文本上的表现。
  2. 论文提出一种基于零样本提示的大语言模型方法,直接利用LLM的理解能力进行可读性评估,无需额外训练。
  3. 实验表明,该方法在多个数据集上超越了现有技术,并且提出的LAURAE方法在跨语言和不同文本长度上表现出更强的鲁棒性。

📝 摘要(中文)

本文提出了一种新的零样本提示方法,用于自动可读性评估(ARA)。该方法旨在利用大型语言模型(LLM)作为一种无监督的ARA方法,并对10个不同的开源LLM(例如,不同的大小和开发者)在14个不同的数据集(例如,不同的文本长度和语言)上进行了全面的评估。实验结果表明,提出的提示方法在14个数据集中的13个上优于现有方法。此外,本文还提出了LAURAE,它结合了LLM和可读性公式的分数,通过捕捉可读性的上下文和浅层特征(例如,句子长度)来提高鲁棒性。评估结果表明,LAURAE在不同语言、文本长度和技术语言数量方面均优于现有方法。

🔬 方法详解

问题定义:论文旨在解决自动可读性评估(ARA)问题。现有的ARA方法通常依赖于人工设计的特征或需要大量标注数据进行训练,泛化能力有限,且难以捕捉文本的深层语义信息。此外,现有方法在处理不同语言、文本长度和技术性较强的文本时,鲁棒性较差。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的语言理解和生成能力,通过零样本提示的方式,直接让LLM评估文本的可读性。这种方法无需额外的训练数据,能够更好地捕捉文本的上下文信息和语义特征。同时,结合传统的可读性公式,可以提高评估的鲁棒性。

技术框架:整体框架包含两个主要部分:1) 基于零样本提示的LLM可读性评估:将文本输入LLM,通过特定的提示语,让LLM输出可读性评分或等级。2) LAURAE:将LLM的评分与传统可读性公式的评分进行融合,得到最终的可读性评估结果。

关键创新:论文的关键创新在于:1) 首次将零样本提示技术应用于ARA任务,充分利用了LLM的知识和推理能力。2) 提出了LAURAE方法,通过融合LLM和传统可读性公式的评分,提高了评估的鲁棒性和准确性。3) 对多种LLM和数据集进行了全面的评估,验证了方法的有效性和泛化能力。

关键设计:在零样本提示方面,论文设计了有效的提示语,引导LLM进行可读性评估。LAURAE方法中,采用了加权平均的方式融合LLM和可读性公式的评分,权重参数可以通过实验进行调整。具体使用的LLM包括多种开源模型,如不同大小和不同开发者提供的模型。数据集涵盖了多种语言、文本长度和技术领域。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的零样本提示方法在14个数据集中的13个上优于现有方法。LAURAE方法在跨语言、不同文本长度和技术语言数量方面均表现出更强的鲁棒性。例如,在特定数据集上,LAURAE相比最佳基线方法,准确率提升了超过5%。

🎯 应用场景

该研究成果可广泛应用于教育、医疗、新闻等领域,帮助确保材料的可读性符合目标受众的需求。例如,可以用于评估教材的难度等级,确保医疗信息的易懂性,或调整新闻报道的语言风格。此外,该方法还可以用于辅助文本生成,生成更易于理解的内容。

📄 摘要(原文)

Unsupervised automatic readability assessment (ARA) methods have important practical and research applications (e.g., ensuring medical or educational materials are suitable for their target audiences). In this paper, we propose a new zero-shot prompting methodology for ARA and present the first comprehensive evaluation of using large language models (LLMs) as an unsupervised ARA method by testing 10 diverse open-source LLMs (e.g., different sizes and developers) on 14 diverse datasets (e.g., different text lengths and languages). Our findings show that our proposed prompting methodology outperforms prior methods on 13 of the 14 datasets. Furthermore, we propose LAURAE, which combines LLM and readability formula scores to improve robustness by capturing both contextual and shallow (e.g., sentence length) features of readability. Our evaluation demonstrates that LAURAE robustly outperforms prior methods across languages, text lengths, and amounts of technical language.