LitSeg: Narrative-Aware Document Segmentation for Literary RAG
作者: Ruikang Zhang, Zhanni Chen, Yiqiao Cai, Qi Su
分类: cs.CL, cs.AI
发布日期: 2026-05-26
💡 一句话要点
提出LitSeg,利用叙事理论进行文学作品RAG的文档分割,提升检索和生成效果。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: RAG 文档分割 叙事理论 文学作品 数据蒸馏
📋 核心要点
- 现有RAG方法在文学作品分割中缺乏语义理解,导致情节碎片化和引用不清晰,影响检索和生成。
- LitSeg利用叙事理论,通过多阶段提示提取事件、解开线索、明确结构和定位转折点,指导文档分割。
- LitSeg-Lite通过数据蒸馏将复杂过程简化为单次推理,并在实验中显著提升了检索准确性和QA性能。
📝 摘要(中文)
检索增强生成(RAG)通过整合外部知识来增强大型语言模型(LLM)的能力,尤其是在文学作品等长尾领域。然而,RAG中至关重要的文档分割步骤在很大程度上仍未被充分探索。现有的策略通常缺乏语义理解,忽略了文学作品复杂的叙事结构,导致情节碎片化和引用不清晰,严重阻碍了检索和生成性能。为了解决这个问题,我们提出了一种新颖的、以叙事理论为指导的分割框架LitSeg。通过多阶段提示,LitSeg显式地提取有效事件,解开叙事线索,阐明叙事结构,并定位转折点来指导分割。为了减轻大型模型多阶段推理的计算开销,我们进一步引入了LitSeg-Lite,这是一个轻量级的单次分块器,通过两阶段训练策略在LitSeg生成的数据上进行微调,将复杂的过程提炼为单次推理。大量的实验表明,通过结构上独立的文本块,我们的方法显著提高了检索准确性和上下文相关性,最终增强了下游QA性能,同时消融研究验证了叙事指导和数据蒸馏的有效性。
🔬 方法详解
问题定义:论文旨在解决文学作品RAG中,现有文档分割方法忽略叙事结构,导致检索和生成效果不佳的问题。现有方法通常是语义盲的,无法理解文学作品中复杂的叙事关系,造成情节割裂和上下文丢失。
核心思路:论文的核心思路是利用叙事理论指导文档分割。通过分析文学作品的叙事结构,提取关键事件、叙事线索和转折点,从而将文档分割成结构上独立的文本块。这样可以更好地保留上下文信息,提高检索的准确性和生成的相关性。
技术框架:LitSeg框架包含多阶段提示的叙事结构提取和LitSeg-Lite的单次分块两个主要部分。首先,通过多阶段提示,利用大型语言模型提取文本中的事件、叙事线索和转折点。然后,基于这些信息,将文档分割成独立的文本块。为了降低计算成本,使用LitSeg生成的数据训练一个轻量级的单次分块器LitSeg-Lite。
关键创新:论文的关键创新在于将叙事理论引入到文档分割中。与传统的基于语义相似度或固定窗口的分割方法不同,LitSeg能够理解文学作品的叙事结构,从而进行更有效的分割。此外,通过数据蒸馏,将复杂的多阶段推理过程转化为单次推理,大大提高了效率。
关键设计:LitSeg的多阶段提示包括事件提取、叙事线索解缠和转折点定位等步骤。LitSeg-Lite采用两阶段训练策略,首先进行预训练,然后使用LitSeg生成的数据进行微调。具体的参数设置和损失函数等细节在论文中未明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LitSeg方法在检索准确性和上下文相关性方面显著优于基线方法,最终提升了下游QA性能。具体的性能数据和提升幅度在摘要中未给出,属于未知信息。消融研究验证了叙事指导和数据蒸馏的有效性。
🎯 应用场景
该研究成果可应用于文学作品的智能阅读、分析和创作。例如,可以帮助读者更好地理解文学作品的情节和人物关系,也可以用于自动生成文学作品的摘要或续写。此外,该方法还可以推广到其他具有复杂叙事结构的文本领域,如历史文献和新闻报道。
📄 摘要(原文)
Retrieval-Augmented Generation (RAG) enhances Large Language Models (LLMs) by incorporating external knowledge, particularly for long-tail domains such as literary works. However, the critical step of document segmentation in RAG remains largely underexplored. Existing strategies are typically semantically blind and overlook the complicated narrative structures of literary works, often resulting in fragmented plots and unclear references that severely hinder retrieval and generation performance. To address this, we propose LitSeg, a novel narrative-theory-guided segmentation framework. By employing multi-stage prompting, LitSeg explicitly extracts valid events, untangles narrative threads, clarifies narrative structures, and locates turning points to inform segmentation. To alleviate the computational overhead of multi-stage inference with large-scale models, we further introduce LitSeg-Lite, a lightweight single-pass chunker fine-tuned on LitSeg-generated data via a two-stage training strategy, distilling the complex process into a single inference pass. Extensive experiments demonstrate that with structurally independent text chunks, our methods significantly improve retrieval accuracy and context relevance over baselines, ultimately enhancing downstream QA performance, while ablation studies validate the efficacy of narratological guidance and data distillation.