Modeling Bottom-up Information Quality during Language Processing

📄 arXiv: 2509.17047v2 📥 PDF

作者: Cui Ding, Yanning Yin, Lena A. Jäger, Ethan Gotlieb Wilcox

分类: cs.CL

发布日期: 2025-09-21 (更新: 2025-10-25)


💡 一句话要点

提出基于互信息的阅读理解模型,研究视觉信息质量对语言处理的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阅读理解 视觉信息质量 互信息 多模态学习 贝叶斯模型

📋 核心要点

  1. 现有语言处理模型缺乏对自下而上视觉信息质量的量化分析,难以解释噪声输入下的阅读理解难度。
  2. 论文提出基于互信息的视觉信息质量度量方法,并将其融入贝叶斯阅读模型,预测信息质量对阅读时间的影响。
  3. 实验表明,遮挡单词上下半部分会影响阅读时间,且英语单词上半部分比下半部分包含更多信息,与阅读时间表现一致。

📝 摘要(中文)

本文研究了语言处理中自下而上信息质量的影响。主流理论认为语言处理整合了自上而下的预期和自下而上的输入。该模型的一个主要预测是,自下而上输入的质量会调节处理的难易程度——噪声输入会导致困难且费力的理解。我们在阅读领域测试了这个预测。首先,我们提出了一种信息论的操作化方法,将自下而上信息的“质量”定义为视觉信息和单词身份之间的互信息(MI)。我们将这个预测形式化为一个贝叶斯更新的阅读数学模型。其次,我们通过比较参与者在单词信息质量降低(通过遮挡单词的上半部分或下半部分)和完整单词条件下的阅读时间来测试我们的操作化方法。我们收集了英语和汉语的数据。然后,我们使用多模态语言模型来估计视觉输入和单词之间的互信息。我们使用这些数据来估计降低信息质量对阅读时间的具体影响。最后,我们比较了信息在视觉形式中的分布方式。在英语和汉语中,上半部分包含比下半部分更多的关于单词身份的信息。然而,这种不对称在英语中更为明显,这种模式反映在阅读时间中。

🔬 方法详解

问题定义:论文旨在解决如何量化自下而上视觉信息质量,并研究其对语言处理(特别是阅读理解)的影响。现有方法缺乏对视觉信息质量的有效度量,无法解释噪声或部分遮挡等情况下阅读理解难度的变化。

核心思路:论文的核心思路是将视觉信息质量定义为视觉输入和单词身份之间的互信息(Mutual Information)。互信息越高,表示视觉输入包含的关于单词身份的信息越多,信息质量越高。通过量化信息质量,可以预测其对阅读时间的影响。

技术框架:论文构建了一个基于贝叶斯更新的阅读模型。该模型包含以下几个主要步骤:1) 使用多模态语言模型提取视觉特征;2) 计算视觉特征和单词身份之间的互信息,作为视觉信息质量的度量;3) 将互信息融入贝叶斯模型,预测阅读时间;4) 通过实验验证模型预测的准确性。

关键创新:论文的关键创新在于提出了基于互信息的视觉信息质量度量方法。与传统的基于像素或特征相似度的度量方法不同,互信息能够更准确地反映视觉输入对单词身份的贡献,从而更好地解释阅读理解过程。

关键设计:论文的关键设计包括:1) 使用预训练的多模态语言模型(具体模型未知)提取视觉特征,确保特征具有良好的语义表达能力;2) 采用遮挡单词上下半部分的方式来降低视觉信息质量,并记录阅读时间;3) 使用统计方法分析互信息和阅读时间之间的关系,验证模型的预测能力。具体的互信息计算方法和贝叶斯模型的参数设置未知。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,遮挡单词上下半部分显著影响阅读时间,验证了视觉信息质量对阅读理解的重要性。研究发现,英语单词的上半部分比下半部分包含更多关于单词身份的信息,且这种不对称性与阅读时间表现一致。互信息与阅读时间之间存在显著相关性,支持了基于互信息的视觉信息质量度量方法的有效性。具体的性能提升幅度未知。

🎯 应用场景

该研究成果可应用于提升阅读辅助工具的性能,例如为视力障碍人士提供更清晰的阅读体验,或设计更有效的OCR系统。此外,该研究对于理解人类语言处理机制,特别是视觉信息在语言理解中的作用,具有重要的理论价值。

📄 摘要(原文)

Contemporary theories model language processing as integrating both top-down expectations and bottom-up inputs. One major prediction of such models is that the quality of the bottom-up inputs modulates ease of processing -- noisy inputs should lead to difficult and effortful comprehension. We test this prediction in the domain of reading. First, we propose an information-theoretic operationalization for the "quality" of bottom-up information as the mutual information (MI) between visual information and word identity. We formalize this prediction in a mathematical model of reading as a Bayesian update. Second, we test our operationalization by comparing participants' reading times in conditions where words' information quality has been reduced, either by occluding their top or bottom half, with full words. We collect data in English and Chinese. We then use multimodal language models to estimate the mutual information between visual inputs and words. We use these data to estimate the specific effect of reduced information quality on reading times. Finally, we compare how information is distributed across visual forms. In English and Chinese, the upper half contains more information about word identity than the lower half. However, the asymmetry is more pronounced in English, a pattern which is reflected in the reading times.