To Words and Beyond: Probing Large Language Models for Sentence-Level Psycholinguistic Norms of Memorability and Reading Times

📄 arXiv: 2603.12105v1 📥 PDF

作者: Thomas Hikaru Clark, Carlos Arriaga, Javier Conde, Gonzalo Martínez, Pedro Reviriego

分类: cs.CL

发布日期: 2026-03-12


💡 一句话要点

利用微调大语言模型预测句子级心理语言学指标:可记忆性和阅读时间

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 心理语言学 句子可记忆性 阅读时间 微调 自然语言处理

📋 核心要点

  1. 现有方法难以准确预测句子级别的心理语言学特征,如可记忆性和阅读时间,这些特征依赖于词语间的复杂关系。
  2. 本文提出通过微调大型语言模型,使其能够学习并预测句子级别的可记忆性和阅读时间,从而捕捉句子上下文信息。
  3. 实验结果表明,微调后的模型在预测句子可记忆性和阅读时间方面优于传统基线方法,验证了LLM蕴含相关知识。

📝 摘要(中文)

本文研究如何利用大型语言模型(LLMs)预测句子级别的心理语言学指标,包括句子可记忆性和阅读时间。先前研究表明,LLMs可以通过zero-shot prompting方式估计词语和多词表达的心理语言学规范,如效价、唤醒度和具体性,并与人类判断相关。然而,对于词汇决策时间或习得年龄等其他规范,LLMs需要监督微调才能获得与真实值对齐的结果。本文通过微调LLMs,使其能够预测句子可记忆性和阅读时间,这两者涉及句子上下文中多个词语之间的关系。实验结果表明,微调后的模型能够提供与人类数据相关的估计,并超过了可解释基线预测器的预测能力,证明LLMs包含关于句子级别特征的有用信息。同时,zero-shot和few-shot的实验结果好坏参半,进一步表明在使用LLM prompting作为人类认知指标的替代时需要谨慎。

🔬 方法详解

问题定义:论文旨在解决句子级别的心理语言学规范预测问题,特别是句子可记忆性和阅读时间。现有方法,如基于词汇特征的线性模型,难以捕捉句子中词语之间的复杂交互作用,导致预测精度不足。此外,直接使用LLM进行zero-shot预测的效果并不稳定,需要更有效的方法来利用LLM的知识。

核心思路:论文的核心思路是通过监督微调的方式,使LLM学习句子和其对应的心理语言学规范之间的映射关系。通过微调,LLM能够更好地理解句子上下文,并提取与可记忆性和阅读时间相关的特征。这种方法避免了手动设计特征的复杂性,并充分利用了LLM的预训练知识。

技术框架:整体框架包括以下步骤:1) 数据准备:收集包含句子及其对应的可记忆性和阅读时间数据的语料库。2) 模型选择:选择一个预训练的LLM作为基础模型。3) 微调:使用准备好的数据对LLM进行微调,目标是最小化模型预测值与真实值之间的差异。4) 评估:使用独立的测试集评估微调后模型的性能。

关键创新:该研究的关键创新在于将LLM应用于句子级别的心理语言学规范预测,并采用微调的方式来提高预测精度。与传统的基于特征工程的方法相比,该方法能够自动学习句子特征,并捕捉词语之间的复杂关系。此外,该研究还探讨了zero-shot和few-shot prompting在句子级别任务中的表现,为后续研究提供了参考。

关键设计:在微调过程中,使用了均方误差(MSE)作为损失函数,以衡量模型预测值与真实值之间的差异。模型的训练参数包括学习率、batch size和训练轮数等。此外,研究人员还探索了不同的LLM架构和微调策略,以找到最佳的模型配置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过微调的LLM在预测句子可记忆性和阅读时间方面显著优于传统的基线方法。具体来说,微调后的模型与人类判断的相关性显著提高,并且在预测精度方面取得了明显的提升。这些结果表明,LLM包含关于句子级别特征的有用信息,并且可以通过微调有效地利用这些信息。

🎯 应用场景

该研究成果可应用于自然语言处理、心理语言学和教育等领域。例如,可以用于评估文本的可读性和吸引力,辅助内容创作和编辑。此外,还可以用于研究人类阅读过程和认知机制,为语言学习和教学提供理论支持。未来,该技术有望应用于个性化阅读推荐和辅助写作工具。

📄 摘要(原文)

Large Language Models (LLMs) have recently been shown to produce estimates of psycholinguistic norms, such as valence, arousal, or concreteness, for words and multiword expressions, that correlate with human judgments. These estimates are obtained by prompting an LLM, in zero-shot fashion, with a question similar to those used in human studies. Meanwhile, for other norms such as lexical decision time or age of acquisition, LLMs require supervised fine-tuning to obtain results that align with ground-truth values. In this paper, we extend this approach to the previously unstudied features of sentence memorability and reading times, which involve the relationship between multiple words in a sentence-level context. Our results show that via fine-tuning, models can provide estimates that correlate with human-derived norms and exceed the predictive power of interpretable baseline predictors, demonstrating that LLMs contain useful information about sentence-level features. At the same time, our results show very mixed zero-shot and few-shot performance, providing further evidence that care is needed when using LLM-prompting as a proxy for human cognitive measures.