Event Segmentation Applications in Large Language Model Enabled Automated Recall Assessments
作者: Ryan A. Panela, Alex J. Barnett, Morgan D. Barense, Björn Herrmann
分类: cs.CL
发布日期: 2025-02-19 (更新: 2025-10-16)
备注: 35 pages, 8 figures
💡 一句话要点
利用大语言模型实现自动化事件分割与记忆评估,提升认知研究效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 事件分割 记忆评估 认知科学 自动化评估
📋 核心要点
- 现有事件分割和记忆评估方法依赖人工判断,存在主观性和耗时性问题,限制了认知研究的效率和规模。
- 本研究利用大型语言模型(LLM)的强大能力,通过聊天补全和文本嵌入技术,自动化事件分割和回忆评估。
- 实验表明,LLM能准确识别事件边界,且与人类事件分割的一致性更高,为认知研究提供了一种可扩展的替代方案。
📝 摘要(中文)
理解个体在自然环境中如何感知和回忆信息,对于理解感知(如感觉丧失)和记忆(如痴呆)的潜在缺陷至关重要。事件分割,即在动态环境中识别不同事件的过程,是我们感知、编码和回忆经验的核心。这一认知过程不仅影响即时理解,还塑造特定事件的记忆。然而,当前的研究方法严重依赖于人类判断来评估分割模式和回忆能力,这既主观又耗时。虽然已经出现了一些自动化事件分割和回忆评分的方法,但与人类反应的有效性和易于实施性仍需进一步提高。为了解决这些问题,我们利用大型语言模型(LLM)来自动执行事件分割和评估回忆,分别采用聊天补全和文本嵌入模型。我们针对人类注释验证了这些模型,并确定LLM可以准确识别事件边界,并且人类事件分割与LLM的一致性高于人类之间的一致性。利用该框架,我们提出了一种自动化回忆评估方法,该方法揭示了分割叙事事件与参与者回忆之间的语义相似性可以估计回忆表现。我们的研究结果表明,LLM可以有效地模拟人类分割模式,并提供回忆评估,这是一种可扩展的替代手动评分的方法。这项研究为使用人工智能驱动的方法研究感知、记忆和认知障碍之间的交叉点开辟了新的途径。
🔬 方法详解
问题定义:论文旨在解决当前事件分割和回忆评估方法中依赖人工标注导致的主观性和效率低下的问题。现有方法耗时且难以规模化,阻碍了对人类认知过程(如感知、记忆和认知障碍)的深入研究。
核心思路:论文的核心思路是利用大型语言模型(LLM)模拟人类的事件分割模式,并基于LLM的语义理解能力自动评估回忆表现。通过将LLM作为一种认知模型,可以有效降低对人工标注的依赖,提高评估效率和客观性。
技术框架:整体框架包含两个主要模块:事件分割和回忆评估。事件分割模块使用LLM的聊天补全能力,输入叙事文本,输出事件边界的预测。回忆评估模块使用LLM的文本嵌入能力,计算分割后的叙事事件与参与者回忆之间的语义相似度,以此评估回忆表现。
关键创新:最重要的创新点在于将LLM应用于事件分割和回忆评估,并验证了LLM在模拟人类认知过程方面的有效性。与传统的基于规则或统计模型的自动化方法相比,LLM具有更强的语义理解能力和泛化能力,能够更好地捕捉人类的认知模式。
关键设计:论文使用了预训练的LLM,并通过少量样本进行微调,以适应特定的叙事文本和回忆数据。在事件分割模块,采用了基于提示工程(prompt engineering)的方法,设计合适的提示语引导LLM进行事件边界的预测。在回忆评估模块,采用了余弦相似度作为语义相似度的度量指标,并将其与参与者的实际回忆表现进行关联分析。
📊 实验亮点
实验结果表明,LLM在事件分割任务中表现出色,与人类标注的一致性高于人类之间的一致性。此外,基于LLM的回忆评估方法能够有效预测参与者的回忆表现,与人工评分结果具有高度相关性。这些结果验证了LLM在认知评估方面的潜力,为自动化认知研究提供了新的思路。
🎯 应用场景
该研究成果可广泛应用于认知科学、神经心理学和临床医学等领域。例如,可用于大规模评估认知障碍患者的记忆功能,辅助诊断和治疗。此外,该方法还可应用于教育领域,评估学生的学习效果和知识掌握程度。未来,结合多模态数据(如视频、音频),有望实现更精准的事件分割和回忆评估。
📄 摘要(原文)
Understanding how individuals perceive and recall information in their natural environments is critical to understanding potential failures in perception (e.g., sensory loss) and memory (e.g., dementia). Event segmentation, the process of identifying distinct events within dynamic environments, is central to how we perceive, encode, and recall experiences. This cognitive process not only influences moment-to-moment comprehension but also shapes event specific memory. Despite the importance of event segmentation and event memory, current research methodologies rely heavily on human judgements for assessing segmentation patterns and recall ability, which are subjective and time-consuming. A few approaches have been introduced to automate event segmentation and recall scoring, but validity with human responses and ease of implementation require further advancements. To address these concerns, we leverage Large Language Models (LLMs) to automate event segmentation and assess recall, employing chat completion and text-embedding models, respectively. We validated these models against human annotations and determined that LLMs can accurately identify event boundaries, and that human event segmentation is more consistent with LLMs than among humans themselves. Using this framework, we advanced an automated approach for recall assessments which revealed semantic similarity between segmented narrative events and participant recall can estimate recall performance. Our findings demonstrate that LLMs can effectively simulate human segmentation patterns and provide recall evaluations that are a scalable alternative to manual scoring. This research opens novel avenues for studying the intersection between perception, memory, and cognitive impairment using methodologies driven by artificial intelligence.