Evaluating Chunking Strategies For Retrieval-Augmented Generation in Oil and Gas Enterprise Documents

作者: Samuel Taiwo, Mohd Amaluddin Yusoff

分类: cs.IR, cs.AI

发布日期: 2026-03-25

备注: Presented at CCSEIT 2026. This version matches the published proceedings

期刊: Computer Science and Information Technology (CS and IT), pp. 49-67, 2026

DOI: 10.5121/csit.2026.160507

💡 一句话要点

针对油气企业文档，评估RAG中不同分块策略对检索增强生成的影响

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 文档分块 结构感知 油气行业 大型语言模型

📋 核心要点

现有RAG方法在处理油气行业文档时，由于文档结构复杂，分块策略选择不当导致检索效果不佳。
提出结构感知分块策略，充分利用文档的内在结构信息，以提升检索的准确性和效率。
实验表明，结构感知分块在top-K检索指标上优于其他分块策略，且计算成本更低，但在P&ID图上效果有限。

📝 摘要（中文）

检索增强生成(RAG)已成为解决大型语言模型(LLM)局限性的框架。然而，其有效性从根本上取决于文档分块——一个经常被忽视的质量决定因素。本文提出了一项实证研究，量化了四种分块策略的性能差异：固定大小滑动窗口、递归、基于断点的语义分块和结构感知分块。我们使用油气企业文档的专有语料库评估了这些方法，包括文本繁重的手册、表格繁重的规范以及管道和仪表图(P and IDs)。我们的研究结果表明，结构感知分块产生更高的整体检索有效性，尤其是在top-K指标中，并且比语义或基线策略产生显著更低的计算成本。至关重要的是，所有四种方法在P and IDs上的有效性都有限，突出了纯粹基于文本的RAG在视觉和空间编码文档中的一个核心局限性。我们得出结论，虽然显式结构保留对于专业领域至关重要，但未来的工作必须集成多模态模型来克服当前的局限性。

🔬 方法详解

问题定义：论文旨在解决在油气行业文档中使用RAG时，由于文档类型多样（文本、表格、图表），传统分块方法无法有效提取信息，导致检索效果差的问题。现有方法如固定大小分块、语义分块等，忽略了文档的结构信息，无法适应油气行业文档的特点。

核心思路：论文的核心思路是利用文档的结构信息进行分块，即结构感知分块。这种方法能够更好地保留文档的上下文信息和语义关系，从而提高检索的准确性和效率。通过显式地保留文档的结构，可以更好地理解文档的内容，并生成更相关的答案。

技术框架：论文评估了四种分块策略：固定大小滑动窗口、递归分块、基于断点的语义分块和结构感知分块。整体流程包括：1）文档预处理；2）使用不同的分块策略将文档分割成块；3）使用嵌入模型将块转换为向量表示；4）使用检索模型根据查询检索相关的块；5）使用LLM根据检索到的块生成答案。

关键创新：论文的关键创新在于提出了结构感知分块策略，该策略能够根据文档的结构信息（如标题、段落、表格等）进行分块。与传统的基于文本的分块方法相比，结构感知分块能够更好地保留文档的上下文信息和语义关系，从而提高检索的准确性和效率。

关键设计：结构感知分块的关键设计在于如何识别和利用文档的结构信息。具体实现可能涉及使用正则表达式、解析器或其他自然语言处理技术来识别文档的标题、段落、表格等结构元素。然后，根据这些结构元素将文档分割成块。对于表格，可以考虑将表格的行或列作为块。对于图表，由于纯文本RAG效果不佳，需要考虑多模态方法。

📊 实验亮点

实验结果表明，结构感知分块策略在油气企业文档上的检索效果优于其他分块策略，尤其是在top-K检索指标上。结构感知分块在检索准确率上取得了显著提升，同时计算成本也低于语义分块等方法。然而，所有方法在处理P&ID图时效果均不理想，表明需要引入多模态模型。

🎯 应用场景

该研究成果可应用于油气行业的知识管理、智能问答系统、合规性检查等领域。通过提升RAG系统的检索准确性和效率，可以帮助工程师和管理人员更快地找到所需信息，提高工作效率，降低运营成本。未来可扩展到其他具有复杂文档结构的行业，如金融、法律等。

📄 摘要（原文）

Retrieval-Augmented Generation (RAG) has emerged as a framework to address the constraints of Large Language Models (LLMs). Yet, its effectiveness fundamentally hinges on document chunking - an often-overlooked determinant of its quality. This paper presents an empirical study quantifying performance differences across four chunking strategies: fixed-size sliding window, recursive, breakpoint-based semantic, and structure-aware. We evaluated these methods using a proprietary corpus of oil and gas enterprise documents, including text-heavy manuals, table-heavy specifications, and piping and instrumentation diagrams (P and IDs). Our findings show that structure-aware chunking yields higher overall retrieval effectiveness, particularly in top-K metrics, and incurs significantly lower computational costs than semantic or baseline strategies. Crucially, all four methods demonstrated limited effectiveness on P and IDs, underscoring a core limitation of purely text-based RAG within visually and spatially encoded documents. We conclude that while explicit structure preservation is essential for specialised domains, future work must integrate multimodal models to overcome current limitations.

Evaluating Chunking Strategies For Retrieval-Augmented Generation in Oil and Gas Enterprise Documents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理