Quantifying the Effects of Word Length, Frequency, and Predictability on Dyslexia

📄 arXiv: 2510.24647v1 📥 PDF

作者: Hugo Rydel-Johnston, Alex Kafkas

分类: cs.CL, q-bio.NC

发布日期: 2025-10-28


💡 一句话要点

量化词长、词频和可预测性对阅读障碍的影响,为干预提供指导

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 阅读障碍 眼动追踪 词汇特征 可预测性 词频 词长

📋 核心要点

  1. 现有方法缺乏对阅读障碍者阅读成本精确定位和量化的能力,难以针对性地进行干预。
  2. 该研究利用眼动追踪数据,结合词汇特征,建模分析词长、词频和可预测性对阅读障碍阅读时间的影响。
  3. 实验表明,词汇特征显著影响阅读时间,且阅读障碍者对可预测性更敏感,缩小了与对照组的差距。

📝 摘要(中文)

本文旨在探究在自然阅读数据集中,阅读障碍的代价在何处以及何种条件下产生。通过眼动追踪数据,结合词汇层面的特征(词长、词频和可预测性),我们建模了这些特征如何影响阅读障碍者的时间成本。研究发现,这三个特征均显著影响典型读者和阅读障碍者的阅读时间,且阅读障碍者对这些特征更为敏感,尤其是可预测性。对这些特征进行反事实操作,可显著缩小阅读障碍者与对照组之间的差距约三分之一,其中可预测性的影响最大,其次是词长和词频。这些模式与阅读障碍理论相符,该理论认为阅读障碍者对语言工作记忆和语音编码有更高的要求。本研究为词汇复杂性和周边视觉预览益处方面的进一步研究提供了动力,以解释剩余的差距。简而言之,我们量化了额外的阅读障碍代价何时产生、代价有多大,并为阅读障碍者的干预和计算模型提供了可操作的指导。

🔬 方法详解

问题定义:该论文旨在量化词长、词频和可预测性等词汇特征对阅读障碍者阅读时间的影响,并确定这些影响在何处以及何种条件下产生。现有方法缺乏对这些因素的精细化分析,难以针对性地设计干预措施。

核心思路:核心思路是利用眼动追踪技术收集阅读数据,并将这些数据与词汇层面的特征(词长、词频和可预测性)对齐。通过建模分析这些特征与阅读时间之间的关系,从而量化它们对阅读障碍者阅读成本的影响。研究假设阅读障碍者对这些特征的敏感性更高,尤其是在可预测性方面。

技术框架:整体框架包括以下几个主要步骤:1)收集大规模自然阅读数据集,并记录参与者的眼动数据;2)提取每个词的词汇特征,包括词长、词频和可预测性;3)将眼动数据与词汇特征对齐,建立每个词的阅读时间与词汇特征之间的对应关系;4)使用统计模型(例如线性混合效应模型)分析词汇特征对阅读时间的影响,并比较阅读障碍者和典型读者之间的差异;5)进行反事实操作,模拟改变词汇特征对阅读时间的影响,并评估对缩小阅读障碍者与对照组差距的效果。

关键创新:关键创新在于:1)使用大规模自然阅读数据集,更贴近真实的阅读场景;2)量化了词长、词频和可预测性对阅读障碍者阅读时间的影响程度;3)通过反事实操作,评估了改变词汇特征对缩小阅读障碍者与对照组差距的效果,为干预措施提供了指导。

关键设计:论文的关键设计包括:1)使用眼动追踪技术精确测量阅读时间;2)选择合适的词汇特征,这些特征被认为与阅读障碍相关;3)使用线性混合效应模型控制个体差异和句子结构等混淆因素;4)采用反事实操作,评估改变词汇特征的潜在影响。

📊 实验亮点

研究发现,词长、词频和可预测性均显著影响阅读时间,且阅读障碍者对这些特征更为敏感。通过反事实操作,改变这些特征可缩小阅读障碍者与对照组之间的差距约三分之一,其中可预测性的影响最大。这些结果为阅读障碍的干预提供了量化的依据。

🎯 应用场景

该研究成果可应用于阅读障碍的诊断和干预。通过量化词汇特征对阅读障碍的影响,可以为个性化干预方案的设计提供依据。例如,可以针对阅读障碍者对可预测性敏感的特点,设计提高文本可预测性的阅读材料。此外,该研究还可以用于开发辅助阅读软件,实时调整文本的词汇特征,以降低阅读障碍者的阅读难度。

📄 摘要(原文)

We ask where, and under what conditions, dyslexic reading costs arise in a large-scale naturalistic reading dataset. Using eye-tracking aligned to word-level features (word length, frequency, and predictability), we model how each feature influences dyslexic time costs. We find that all three features robustly change reading times in both typical and dyslexic readers, and that dyslexic readers show stronger sensitivities to each, especially predictability. Counterfactual manipulations of these features substantially narrow the dyslexic-control gap by about one third, with predictability showing the strongest effect, followed by length and frequency. These patterns align with dyslexia theories that posit heightened demands on linguistic working memory and phonological encoding, and they motivate further work on lexical complexity and parafoveal preview benefits to explain the remaining gap. In short, we quantify when extra dyslexic costs arise, how large they are, and offer actionable guidance for interventions and computational models for dyslexics.