Evaluating Chunking Strategies For Retrieval-Augmented Generation in Oil and Gas Enterprise Documents

📄 arXiv: 2603.24556v1 📥 PDF

作者: Samuel Taiwo, Mohd Amaluddin Yusoff

分类: cs.IR, cs.AI

发布日期: 2026-03-25

备注: Presented at CCSEIT 2026. This version matches the published proceedings

期刊: Computer Science and Information Technology (CS and IT), pp. 49-67, 2026

DOI: 10.5121/csit.2026.160507


💡 一句话要点

针对油气企业文档,评估RAG中不同分块策略对检索增强生成的影响

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 文档分块 结构感知 油气行业 大型语言模型

📋 核心要点

  1. 现有RAG方法在处理油气行业文档时,由于文档结构复杂,分块策略选择不当导致检索效果不佳。
  2. 提出结构感知分块策略,充分利用文档的内在结构信息,以提升检索的准确性和效率。
  3. 实验表明,结构感知分块在top-K检索指标上优于其他分块策略,且计算成本更低,但在P&ID图上效果有限。

📝 摘要(中文)

检索增强生成(RAG)已成为解决大型语言模型(LLM)局限性的框架。然而,其有效性从根本上取决于文档分块——一个经常被忽视的质量决定因素。本文提出了一项实证研究,量化了四种分块策略的性能差异:固定大小滑动窗口、递归、基于断点的语义分块和结构感知分块。我们使用油气企业文档的专有语料库评估了这些方法,包括文本繁重的手册、表格繁重的规范以及管道和仪表图(P and IDs)。我们的研究结果表明,结构感知分块产生更高的整体检索有效性,尤其是在top-K指标中,并且比语义或基线策略产生显著更低的计算成本。至关重要的是,所有四种方法在P and IDs上的有效性都有限,突出了纯粹基于文本的RAG在视觉和空间编码文档中的一个核心局限性。我们得出结论,虽然显式结构保留对于专业领域至关重要,但未来的工作必须集成多模态模型来克服当前的局限性。

🔬 方法详解

问题定义:论文旨在解决在油气行业文档中使用RAG时,由于文档类型多样(文本、表格、图表),传统分块方法无法有效提取信息,导致检索效果差的问题。现有方法如固定大小分块、语义分块等,忽略了文档的结构信息,无法适应油气行业文档的特点。

核心思路:论文的核心思路是利用文档的结构信息进行分块,即结构感知分块。这种方法能够更好地保留文档的上下文信息和语义关系,从而提高检索的准确性和效率。通过显式地保留文档的结构,可以更好地理解文档的内容,并生成更相关的答案。

技术框架:论文评估了四种分块策略:固定大小滑动窗口、递归分块、基于断点的语义分块和结构感知分块。整体流程包括:1)文档预处理;2)使用不同的分块策略将文档分割成块;3)使用嵌入模型将块转换为向量表示;4)使用检索模型根据查询检索相关的块;5)使用LLM根据检索到的块生成答案。

关键创新:论文的关键创新在于提出了结构感知分块策略,该策略能够根据文档的结构信息(如标题、段落、表格等)进行分块。与传统的基于文本的分块方法相比,结构感知分块能够更好地保留文档的上下文信息和语义关系,从而提高检索的准确性和效率。

关键设计:结构感知分块的关键设计在于如何识别和利用文档的结构信息。具体实现可能涉及使用正则表达式、解析器或其他自然语言处理技术来识别文档的标题、段落、表格等结构元素。然后,根据这些结构元素将文档分割成块。对于表格,可以考虑将表格的行或列作为块。对于图表,由于纯文本RAG效果不佳,需要考虑多模态方法。

📊 实验亮点

实验结果表明,结构感知分块策略在油气企业文档上的检索效果优于其他分块策略,尤其是在top-K检索指标上。结构感知分块在检索准确率上取得了显著提升,同时计算成本也低于语义分块等方法。然而,所有方法在处理P&ID图时效果均不理想,表明需要引入多模态模型。

🎯 应用场景

该研究成果可应用于油气行业的知识管理、智能问答系统、合规性检查等领域。通过提升RAG系统的检索准确性和效率,可以帮助工程师和管理人员更快地找到所需信息,提高工作效率,降低运营成本。未来可扩展到其他具有复杂文档结构的行业,如金融、法律等。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) has emerged as a framework to address the constraints of Large Language Models (LLMs). Yet, its effectiveness fundamentally hinges on document chunking - an often-overlooked determinant of its quality. This paper presents an empirical study quantifying performance differences across four chunking strategies: fixed-size sliding window, recursive, breakpoint-based semantic, and structure-aware. We evaluated these methods using a proprietary corpus of oil and gas enterprise documents, including text-heavy manuals, table-heavy specifications, and piping and instrumentation diagrams (P and IDs). Our findings show that structure-aware chunking yields higher overall retrieval effectiveness, particularly in top-K metrics, and incurs significantly lower computational costs than semantic or baseline strategies. Crucially, all four methods demonstrated limited effectiveness on P and IDs, underscoring a core limitation of purely text-based RAG within visually and spatially encoded documents. We conclude that while explicit structure preservation is essential for specialised domains, future work must integrate multimodal models to overcome current limitations.