Annotating References to Mythological Entities in French Literature

📄 arXiv: 2412.18270v1 📥 PDF

作者: Thierry Poibeau

分类: cs.AI

发布日期: 2024-12-24

期刊: CHR (Computational Humanities Research) -- Digital Methods for Mythological Research Workshop, Dec 2024, Aarhus (Danemark), Denmark


💡 一句话要点

利用大型语言模型标注法语文学作品中对希腊罗马神话实体的引用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 神话实体标注 法语文学 自然语言处理 文学研究

📋 核心要点

  1. 现有方法难以高效且全面地标注法语文学作品中对希腊罗马神话的引用,这是一个耗时且需要专业知识的任务。
  2. 本文提出利用大型语言模型直接进行标注,并探索其在提供解释性见解方面的能力,以辅助文学研究。
  3. 实验表明,LLMs在标注任务上表现良好,但作为信息检索工具时存在幻觉问题,需要谨慎使用。

📝 摘要(中文)

本文探讨了大型语言模型(LLMs)在标注现代法语文学作品中对罗马和希腊神话实体引用方面的相关性。我们提出了一个标注方案,并证明了最新的LLMs可以直接应用该方案并有效地执行标注任务,尽管偶尔会出现重大的分析错误。此外,我们还表明,LLMs(更具体地说是ChatGPT)能够提供对文学作者使用神话引用的解释性见解。然而,我们也发现LLMs难以准确识别小说中的相关段落(当用作信息检索引擎时),经常出现幻觉并生成虚构的例子,这个问题引起了重大的伦理问题。尽管如此,如果谨慎使用,LLMs仍然是执行高精度标注的宝贵工具,特别是对于那些难以通过手动方法大规模全面标注的任务。

🔬 方法详解

问题定义:论文旨在解决法语文学作品中对罗马和希腊神话实体的引用进行自动标注的问题。现有的人工标注方法耗时且成本高昂,难以大规模应用。此外,现有方法缺乏对神话引用进行深入解释的能力。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大语言理解和生成能力,直接对文学文本进行标注,并尝试利用LLMs提供对神话引用更深层次的解释。通过设计合适的标注方案,引导LLMs识别和理解文本中对神话实体的引用。

技术框架:论文的技术框架主要包括以下几个阶段:1) 设计标注方案,明确需要标注的神话实体类型和属性;2) 利用LLMs(如ChatGPT)直接对法语文学文本进行标注,并评估其标注准确性;3) 探索LLMs在提供解释性见解方面的能力,例如分析作者使用神话引用的意图;4) 将LLMs作为信息检索引擎,用于识别小说中的相关段落,并评估其检索效果。

关键创新:论文的关键创新在于探索了LLMs在文学研究领域的应用,特别是利用LLMs进行神话引用标注和解释性分析。与传统的人工标注方法相比,LLMs具有自动化、高效和可扩展的优势。此外,论文还指出了LLMs在信息检索方面存在的幻觉问题,为后续研究提供了重要的参考。

关键设计:论文的关键设计包括:1) 精心设计的标注方案,确保标注的一致性和准确性;2) 选择合适的LLMs(如ChatGPT)进行实验,并针对其特点进行优化;3) 设计合理的评估指标,全面评估LLMs在标注、解释和信息检索方面的性能;4) 对LLMs的幻觉问题进行深入分析,并提出可能的解决方案。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLMs可以直接应用于标注方案并有效地执行标注任务,尽管偶尔会出现重大的分析错误。LLMs(特别是ChatGPT)能够提供对文学作者使用神话引用的解释性见解。然而,LLMs在作为信息检索引擎时,存在幻觉问题,会生成虚构的例子。标注准确率未知,但强调了LLM在特定任务上的潜力。

🎯 应用场景

该研究成果可应用于文学研究、文化遗产保护、教育等领域。通过自动标注和分析文学作品中的神话引用,可以帮助研究人员更深入地理解文学作品的内涵和文化背景。此外,该技术还可以用于构建知识图谱,促进对古代神话和文学作品的数字化管理和利用。未来的研究可以探索如何进一步提高LLMs的标注准确性和解释能力,并解决其存在的幻觉问题。

📄 摘要(原文)

In this paper, we explore the relevance of large language models (LLMs) for annotating references to Roman and Greek mythological entities in modern and contemporary French literature. We present an annotation scheme and demonstrate that recent LLMs can be directly applied to follow this scheme effectively, although not without occasionally making significant analytical errors. Additionally, we show that LLMs (and, more specifically, ChatGPT) are capable of offering interpretative insights into the use of mythological references by literary authors. However, we also find that LLMs struggle to accurately identify relevant passages in novels (when used as an information retrieval engine), often hallucinating and generating fabricated examples-an issue that raises significant ethical concerns. Nonetheless, when used carefully, LLMs remain valuable tools for performing annotations with high accuracy, especially for tasks that would be difficult to annotate comprehensively on a large scale through manual methods alone.