Graph Representations for Reading Comprehension Analysis using Large Language Model and Eye-Tracking Biomarker
作者: Yuhong Zhang, Jialu Li, Shilai Yang, Yuchen Xu, Gert Cauwenberghs, Tzyy-Ping Jung
分类: cs.CL, q-bio.NC
发布日期: 2025-07-16
💡 一句话要点
利用大语言模型和眼动追踪生物标记,提出基于图表示的阅读理解分析方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 阅读理解 大型语言模型 眼动追踪 图表示 人机协同学习
📋 核心要点
- 现有方法仅关注单个词语,限制了对阅读理解深度的理解,结论较为简单。
- 利用LLM将文本构建为图结构,节点和边分别代表词语和语义关系,从而提升理解的深度。
- 实验表明,LLM在图拓扑结构层面表现出与人类高度一致的语言理解能力。
📝 摘要(中文)
阅读理解是人类认知发展中的一项基本技能。随着大型语言模型(LLMs)的进步,越来越需要比较人类和LLMs如何在不同语境下理解语言,并将这种理解应用于诸如推理、情感解释和信息检索等功能性任务。我们之前的工作使用LLMs和人类生物标记来研究阅读理解过程。结果表明,由LLMs标记的与推理目标相关性高和低的词语所对应的生物标记表现出不同的模式,尤其是在使用眼动追踪数据验证时。然而,仅仅关注单个词语限制了理解的深度,这使得结论尽管具有潜在意义,但有些过于简单。本研究使用基于LLM的AI代理将阅读段落中的词语分组为节点和边,形成基于语义意义和面向问题的提示的基于图的文本表示。然后,我们比较重要节点和边上的眼动注视分布。我们的发现表明,LLMs在图拓扑结构层面表现出高度一致的语言理解能力。这些结果建立在我们之前的发现之上,并为有效的人工智能协同学习策略提供了见解。
🔬 方法详解
问题定义:现有阅读理解分析方法,特别是基于LLM的方法,通常只关注单个词语的重要性,忽略了词语之间的关系,导致对文本理解的深度不足。这种方法无法充分捕捉人类阅读理解的复杂性,例如推理和情感理解等。
核心思路:本研究的核心思路是将阅读理解文本表示为图结构,其中节点代表词语,边代表词语之间的语义关系。通过分析人类在阅读这些图结构时眼动追踪数据,并与LLM生成的图结构进行比较,从而评估LLM在更高层次的语义理解能力。
技术框架:该方法主要包含以下几个阶段:1) 使用LLM对阅读文本进行分析,并根据语义关系和问题导向的提示,将文本中的词语分组为节点和边,构建图结构。2) 收集人类阅读该文本时的眼动追踪数据,包括注视点的位置和持续时间。3) 将眼动追踪数据映射到图结构上,分析人类在重要节点和边上的注视分布。4) 比较LLM生成的图结构和人类眼动追踪数据在图拓扑结构上的相似性,从而评估LLM的阅读理解能力。
关键创新:该研究的关键创新在于使用图结构来表示阅读理解文本,并结合眼动追踪数据来分析人类和LLM的阅读理解过程。这种方法能够捕捉词语之间的语义关系,从而更深入地理解文本的含义。此外,通过比较LLM生成的图结构和人类眼动追踪数据,可以更客观地评估LLM的阅读理解能力。
关键设计:LLM的选择和提示工程是关键设计之一。选择合适的LLM,并设计有效的提示,可以确保LLM能够准确地识别文本中的语义关系,并生成高质量的图结构。此外,眼动追踪数据的预处理和分析方法也会影响实验结果的准确性。例如,需要对眼动追踪数据进行滤波和校准,并选择合适的指标来衡量注视分布。
🖼️ 关键图片
📊 实验亮点
研究发现,LLM在图拓扑结构层面表现出与人类高度一致的语言理解能力。这意味着LLM不仅能够理解单个词语的含义,还能够理解词语之间的关系,从而更深入地理解文本的含义。这一发现为开发更智能的阅读理解系统奠定了基础。
🎯 应用场景
该研究成果可应用于开发更有效的人工智能阅读理解系统,例如智能教育、自动问答和信息检索等领域。通过理解人类的阅读理解过程,可以设计出更符合人类认知习惯的AI系统,从而提高人机交互的效率和用户体验。此外,该研究还可以为开发人机协同学习策略提供参考。
📄 摘要(原文)
Reading comprehension is a fundamental skill in human cognitive development. With the advancement of Large Language Models (LLMs), there is a growing need to compare how humans and LLMs understand language across different contexts and apply this understanding to functional tasks such as inference, emotion interpretation, and information retrieval. Our previous work used LLMs and human biomarkers to study the reading comprehension process. The results showed that the biomarkers corresponding to words with high and low relevance to the inference target, as labeled by the LLMs, exhibited distinct patterns, particularly when validated using eye-tracking data. However, focusing solely on individual words limited the depth of understanding, which made the conclusions somewhat simplistic despite their potential significance. This study used an LLM-based AI agent to group words from a reading passage into nodes and edges, forming a graph-based text representation based on semantic meaning and question-oriented prompts. We then compare the distribution of eye fixations on important nodes and edges. Our findings indicate that LLMs exhibit high consistency in language understanding at the level of graph topological structure. These results build on our previous findings and offer insights into effective human-AI co-learning strategies.