EMTeC: A Corpus of Eye Movements on Machine-Generated Texts

📄 arXiv: 2408.04289v1 📥 PDF

作者: Lena Sophia Bolliger, Patrick Haller, Isabelle Caroline Rose Cretton, David Robert Reich, Tannon Kew, Lena Ann Jäger

分类: cs.CL

发布日期: 2024-08-08

🔗 代码/项目: GITHUB


💡 一句话要点

EMTeC:一个用于研究机器生成文本上眼动行为的大规模语料库

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 眼动追踪 机器生成文本 自然语言处理 阅读理解 语料库 语言模型 解码策略

📋 核心要点

  1. 现有研究缺乏大规模的、包含丰富信息的机器生成文本眼动语料库,限制了对人类如何阅读和理解机器生成文本的深入研究。
  2. EMTeC语料库通过记录大量参与者阅读不同类型、不同生成策略的机器生成文本时的眼动数据,为该领域提供了宝贵资源。
  3. 该语料库不仅包含眼动数据,还提供了语言模型的内部状态和文本的语言学特征,为多角度分析阅读行为提供了可能。

📝 摘要(中文)

眼动在机器生成文本语料库(EMTeC)是一个自然主义的眼动语料库,记录了107名以英语为母语的人阅读机器生成文本时的眼动数据。这些文本由三个大型语言模型使用五种不同的解码策略生成,并属于六种不同的文本类型。EMTeC包含预处理各个阶段的眼动数据,即以2000 Hz采样的原始坐标数据、注视序列和阅读指标。此外,它还提供了原始的和校正后的注视序列版本,解决了垂直校准漂移问题。而且,该语料库包括生成刺激文本的语言模型的内部信息:转移分数、注意力分数和隐藏状态。刺激文本在文本和单词层面都标注了各种语言特征。我们预计EMTeC将被用于各种用例,例如但不限于:研究机器生成文本上的阅读行为和不同解码策略的影响;研究不同文本类型上的阅读行为;开发新的预处理、数据过滤和漂移校正算法;认知可解释性和增强语言模型;以及评估惊讶度和熵对人类阅读时间的预测能力。所有阶段的预处理数据、模型内部信息以及重现刺激生成、数据预处理和分析的代码都可以通过https://github.com/DiLi-Lab/EMTeC/访问。

🔬 方法详解

问题定义:当前缺乏大规模、高质量的眼动数据集,用于研究人类如何阅读和理解机器生成的文本。现有方法难以深入分析不同生成策略、文本类型以及语言模型内部状态对阅读行为的影响。垂直校准漂移是眼动数据处理中的常见问题,需要有效的校正方法。

核心思路:构建一个包含丰富信息的眼动语料库,涵盖多种机器生成文本类型和生成策略,并提供详细的眼动数据预处理流程和语言模型内部状态信息。通过提供校正后的注视序列,解决垂直校准漂移问题,提高数据的可靠性。

技术框架:EMTeC语料库构建流程主要包括以下几个阶段:1) 使用三个大型语言模型和五种解码策略生成六种不同类型的文本;2) 招募107名以英语为母语的参与者阅读这些文本,并记录他们的眼动数据(2000Hz);3) 对原始眼动数据进行预处理,包括数据清洗、注视检测等;4) 校正垂直校准漂移,并提供原始和校正后的注视序列;5) 标注文本的语言学特征,并提供语言模型的内部状态信息(转移分数、注意力分数、隐藏状态)。

关键创新:该语料库的关键创新在于其全面性和丰富性。它不仅提供了大规模的眼动数据,还包含了生成文本的语言模型的内部状态和文本的语言学特征,为研究者提供了多角度分析阅读行为的可能性。此外,该语料库还提供了校正后的注视序列,解决了垂直校准漂移问题,提高了数据的可靠性。

关键设计:在数据预处理阶段,采用了标准的眼动数据处理流程,包括数据清洗、注视检测等。为了校正垂直校准漂移,研究者开发了一种有效的校正算法(具体细节未知)。在文本标注方面,研究者标注了文本的各种语言学特征,例如词性、句法结构等(具体标注方案未知)。语言模型的内部状态信息包括转移分数、注意力分数和隐藏状态,这些信息可以帮助研究者了解语言模型生成文本的过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究构建了一个包含107名参与者的大规模眼动语料库,涵盖了六种不同类型的机器生成文本和五种不同的解码策略。该语料库提供了原始和校正后的注视序列,以及语言模型的内部状态和文本的语言学特征。研究者提供了重现刺激生成、数据预处理和分析的代码,方便其他研究者使用该语料库。

🎯 应用场景

EMTeC语料库可广泛应用于自然语言处理、认知科学和人机交互等领域。例如,可以用于研究人类如何阅读和理解机器生成的文本,评估不同解码策略对阅读行为的影响,开发新的眼动数据预处理算法,提高语言模型的认知可解释性,以及评估惊讶度和熵对人类阅读时间的预测能力。该语料库还有助于开发更自然、更易于理解的机器生成文本。

📄 摘要(原文)

The Eye Movements on Machine-Generated Texts Corpus (EMTeC) is a naturalistic eye-movements-while-reading corpus of 107 native English speakers reading machine-generated texts. The texts are generated by three large language models using five different decoding strategies, and they fall into six different text type categories. EMTeC entails the eye movement data at all stages of pre-processing, i.e., the raw coordinate data sampled at 2000 Hz, the fixation sequences, and the reading measures. It further provides both the original and a corrected version of the fixation sequences, accounting for vertical calibration drift. Moreover, the corpus includes the language models' internals that underlie the generation of the stimulus texts: the transition scores, the attention scores, and the hidden states. The stimuli are annotated for a range of linguistic features both at text and at word level. We anticipate EMTeC to be utilized for a variety of use cases such as, but not restricted to, the investigation of reading behavior on machine-generated text and the impact of different decoding strategies; reading behavior on different text types; the development of new pre-processing, data filtering, and drift correction algorithms; the cognitive interpretability and enhancement of language models; and the assessment of the predictive power of surprisal and entropy for human reading times. The data at all stages of pre-processing, the model internals, and the code to reproduce the stimulus generation, data pre-processing and analyses can be accessed via https://github.com/DiLi-Lab/EMTeC/.