Locations of Characters in Narratives: Andersen and Persuasion Datasets
作者: Batuhan Ozyurt, Roya Arkhmammadova, Deniz Yuret
分类: cs.CL
发布日期: 2025-04-04
备注: 14 pages, 3 figures, 10 tables
💡 一句话要点
构建Andersen和Persuasion数据集,用于评估LLM在叙事文本中理解人物与地点关系的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自然语言处理 阅读理解 空间理解 大型语言模型 叙事文本
📋 核心要点
- 现有阅读理解研究较少关注叙事文本中人物与地点的空间关系理解,缺乏相关数据集。
- 通过构建Andersen和Persuasion数据集,并设计基于文本片段和位置提问的prompt,来评估LLM的空间理解能力。
- 实验结果表明,现有LLM在理解叙事文本中人物与地点关系方面仍有提升空间,最佳模型准确率约为60%。
📝 摘要(中文)
本文提出了两个新的数据集:Andersen和Persuasion,旨在测试人工智能在理解叙事语境中空间关系的能力,特别是人物及其所在位置之间的关系。Andersen数据集选自汉斯·克里斯蒂安·安徒生的《安徒生童话》中的十五个儿童故事,并手动标注了每个故事中人物及其相应位置。Persuasion数据集则手动标注了简·奥斯汀的小说《劝导》中的人物及其位置。研究人员使用这些数据集来提示大型语言模型(LLM),通过提取故事或小说中的摘录,并结合提问摘录中提到的人物位置的问题来创建提示。在测试的五个LLM中,Andersen数据集上表现最佳的模型在61.85%的示例中准确识别了位置,而Persuasion数据集上表现最佳的模型在56.06%的示例中准确识别了位置。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在叙事文本中理解人物与其所在位置之间关系的问题。现有方法缺乏针对这种空间关系理解的专门评估数据集,难以有效测试和提升LLM在此方面的能力。
核心思路:论文的核心思路是通过构建包含人物和地点标注的叙事文本数据集,并设计特定的prompt,来评估LLM对人物与地点关系的理解能力。通过分析LLM在这些任务上的表现,可以了解其在空间理解方面的优势和不足。
技术框架:整体流程包括以下几个步骤:1) 选择合适的叙事文本,包括《安徒生童话》和《劝导》;2) 手动标注文本中出现的人物及其所在位置;3) 从文本中提取片段,并结合提问人物位置的问题,生成prompt;4) 使用prompt提示多个LLM,并记录其回答;5) 评估LLM回答的准确性,并进行分析。
关键创新:该研究的关键创新在于构建了专门用于评估LLM在叙事文本中理解人物与地点关系的数据集。与通用阅读理解数据集相比,该数据集更侧重于空间关系的理解。此外,prompt的设计也针对性地考察了LLM对人物与地点关系的推理能力。
关键设计:数据集包含两个部分:Andersen数据集和Persuasion数据集。Andersen数据集包含15个儿童故事,Persuasion数据集包含一部小说。标注信息包括人物名称和其所在位置。Prompt由文本片段和问题组成,问题形式为“XX在哪里?”。评估指标为LLM回答的准确率。
📊 实验亮点
实验结果表明,在Andersen数据集上,表现最佳的LLM的准确率为61.85%,在Persuasion数据集上,表现最佳的LLM的准确率为56.06%。这些结果表明,虽然LLM在一定程度上能够理解叙事文本中人物与地点的关系,但仍有很大的提升空间。该研究为后续研究提供了基准和方向。
🎯 应用场景
该研究成果可应用于提升智能助手的叙事理解能力,例如,让智能助手能够更好地回答用户关于故事中人物位置的问题。此外,该研究也有助于开发更具空间感知能力的虚拟角色和游戏AI,使其能够更自然地与环境互动。未来,该研究可以扩展到更复杂的叙事场景,例如包含多个地点和人物交互的场景。
📄 摘要(原文)
The ability of machines to grasp spatial understanding within narrative contexts is an intriguing aspect of reading comprehension that continues to be studied. Motivated by the goal to test the AI's competence in understanding the relationship between characters and their respective locations in narratives, we introduce two new datasets: Andersen and Persuasion. For the Andersen dataset, we selected fifteen children's stories from "Andersen's Fairy Tales" by Hans Christian Andersen and manually annotated the characters and their respective locations throughout each story. Similarly, for the Persuasion dataset, characters and their locations in the novel "Persuasion" by Jane Austen were also manually annotated. We used these datasets to prompt Large Language Models (LLMs). The prompts are created by extracting excerpts from the stories or the novel and combining them with a question asking the location of a character mentioned in that excerpt. Out of the five LLMs we tested, the best-performing one for the Andersen dataset accurately identified the location in 61.85% of the examples, while for the Persuasion dataset, the best-performing one did so in 56.06% of the cases.