Investigating Literary Motifs in Ancient and Medieval Novels with Large Language Models
作者: Emelie Hallenberg
分类: cs.CL
发布日期: 2025-04-30
💡 一句话要点
利用微调大语言模型分析古代和中世纪小说中的文学母题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 文学母题 古代小说 文本分析 自然语言处理
📋 核心要点
- 现有方法难以有效识别和量化古代小说中复杂的文学母题,阻碍了对文学演变趋势的深入研究。
- 本研究通过微调大语言模型,使其能够自动识别和提取古代小说中的文学母题,从而实现定量分析。
- 实验结果表明,该方法能够有效提取文学母题,并揭示不同时期小说中母题频率的波动,反映了潜在的趋势和影响。
📝 摘要(中文)
本研究旨在通过应用微调的大语言模型,调查公元一世纪至15世纪中叶的希腊虚构叙事(通常被称为爱情小说或传奇故事)在文学母题的使用上有哪些共同之处,以及它们之间存在哪些差异。这些文本在许多方面被认为具有相似性,尤其是在特定文学母题的使用上。研究结果表明,虽然某些母题贯穿整个语料库,但其他母题的频率会发生波动,这表明存在某些趋势或外部影响。最终,该方法证明能够根据预定义的定义充分提取文学母题,从而为定量和定性分析提供数据。
🔬 方法详解
问题定义:该论文旨在解决古代和中世纪小说中文学母题的自动识别和分析问题。现有方法,如人工分析,耗时且主观,难以进行大规模的定量研究。因此,需要一种自动化的方法来提取和分析这些母题,以便更好地理解文学作品之间的联系和演变。
核心思路:论文的核心思路是利用大语言模型(LLM)的强大文本理解和生成能力,通过微调使其能够识别和提取小说中的文学母题。通过在特定数据集上训练LLM,使其能够学习到文学母题的特征和模式,从而实现自动化的母题提取。
技术框架:该研究的技术框架主要包括以下几个步骤:1. 构建古代和中世纪小说语料库;2. 定义文学母题的类别和标准;3. 选择合适的大语言模型作为基础模型;4. 使用标注好的语料库对LLM进行微调,使其能够识别和提取文学母题;5. 对提取的母题进行定量和定性分析,揭示文学作品之间的联系和演变趋势。
关键创新:该研究的关键创新在于将大语言模型应用于文学研究领域,实现文学母题的自动化提取和分析。与传统的人工分析方法相比,该方法具有更高的效率和客观性,能够处理大规模的文本数据,并揭示隐藏在文本中的深层模式。
关键设计:论文的关键设计包括:1. 精心设计的文学母题类别体系,确保能够全面覆盖小说中的各种母题;2. 使用高质量的标注数据对LLM进行微调,提高模型的准确性和泛化能力;3. 设计合理的评估指标,对模型的性能进行客观评估;4. 采用定量和定性相结合的方法,对提取的母题进行深入分析。
📊 实验亮点
研究结果表明,微调的大语言模型能够有效地提取古代小说中的文学母题,并揭示不同时期小说中母题频率的波动。例如,研究发现某些母题在特定时期的小说中出现频率较高,这可能与当时的社会文化背景有关。该方法为文学研究提供了一种新的工具和视角。
🎯 应用场景
该研究成果可应用于文学研究、文化遗产保护和教育等领域。通过自动分析文学作品中的母题,可以帮助研究人员更好地理解文学作品的演变和文化背景。此外,该技术还可以用于构建智能阅读系统,帮助读者更好地理解和欣赏文学作品。
📄 摘要(原文)
The Greek fictional narratives often termed love novels or romances, ranging from the first century CE to the middle of the 15th century, have long been considered as similar in many ways, not least in the use of particular literary motifs. By applying the use of fine-tuned large language models, this study aims to investigate which motifs exactly that the texts in this corpus have in common, and in which ways they differ from each other. The results show that while some motifs persist throughout the corpus, others fluctuate in frequency, indicating certain trends or external influences. Conclusively, the method proves to adequately extract literary motifs according to a set definition, providing data for both quantitative and qualitative analyses.