MultiDocFusion: Hierarchical and Multimodal Chunking Pipeline for Enhanced RAG on Long Industrial Documents

📄 arXiv: 2604.12352v1 📥 PDF

作者: Joongmin Shin, Chanjun Park, Jeongbae Park, Jaehyung Seo, Heuiseok Lim

分类: cs.AI, cs.CL

发布日期: 2026-04-14

期刊: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing

DOI: 10.18653/v1/2025.emnlp-main.1062


💡 一句话要点

提出MultiDocFusion以解决长工业文档处理中的信息损失问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长工业文档 多模态分块 文档解析 OCR技术 层次结构重建 信息检索 问答系统

📋 核心要点

  1. 现有的文本分块方法未能有效处理复杂的长工业文档结构,导致信息丢失和答案质量下降。
  2. MultiDocFusion通过多模态分块管道,结合视觉文档解析、OCR、层次结构重建和DFS分组,解决了上述问题。
  3. 在工业基准测试中,MultiDocFusion的检索精度提高了8-15%,ANLS问答评分提高了2-3%,显示出其有效性。

📝 摘要(中文)

基于RAG的问答系统已成为处理长工业文档的有效方法。然而,传统的文本分块方法常常忽视复杂的文档结构,导致信息丢失和答案质量下降。为了解决这一问题,本文提出了MultiDocFusion,一个多模态分块管道,集成了文档区域检测、OCR文本提取、基于大语言模型的文档结构重建和DFS分组构建层次块。通过在工业基准上的广泛实验,MultiDocFusion在检索精度上提高了8-15%,在ANLS问答评分上提高了2-3%,强调了明确利用文档层次结构在多模态文档问答中的关键作用。这些显著的性能提升突显了结构感知分块在增强基于RAG的问答系统中的必要性。

🔬 方法详解

问题定义:本文旨在解决传统文本分块方法在处理长工业文档时的信息丢失和答案质量下降的问题。现有方法往往忽视文档的复杂结构,导致检索和问答效果不佳。

核心思路:MultiDocFusion的核心思路是通过多模态分块管道,结合视觉解析和大语言模型,重建文档的层次结构,从而提高信息的完整性和问答的准确性。

技术框架:该方法包括四个主要模块:文档区域检测(使用视觉解析技术)、文本提取(通过OCR技术)、层次结构重建(利用DSHP-LLM)和层次块构建(通过DFS分组)。

关键创新:最重要的创新在于通过层次结构的显式利用,提升了多模态文档问答的效果。这一方法与传统的平面分块方法有本质区别,能够更好地保留文档信息。

关键设计:在设计中,采用了基于大语言模型的文档部分层次解析(DSHP-LLM),并通过深度优先搜索(DFS)算法进行层次块的构建,确保了信息的完整性和结构的合理性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,MultiDocFusion在检索精度上提高了8-15%,在ANLS问答评分上提高了2-3%。这些数据表明,该方法在多模态文档问答中显著优于现有基线,强调了结构感知分块的重要性。

🎯 应用场景

该研究的潜在应用领域包括工业文档管理、智能问答系统和信息检索等。通过提高长文档处理的效率和准确性,MultiDocFusion能够为企业在文档分析和知识提取方面带来实际价值,未来可能推动相关领域的技术进步。

📄 摘要(原文)

RAG-based QA has emerged as a powerful method for processing long industrial documents. However, conventional text chunking approaches often neglect complex and long industrial document structures, causing information loss and reduced answer quality. To address this, we introduce MultiDocFusion, a multimodal chunking pipeline that integrates: (i) detection of document regions using vision-based document parsing, (ii) text extraction from these regions via OCR, (iii) reconstruction of document structure into a hierarchical tree using large language model (LLM)-based document section hierarchical parsing (DSHP-LLM), and (iv) construction of hierarchical chunks through DFS-based grouping. Extensive experiments across industrial benchmarks demonstrate that MultiDocFusion improves retrieval precision by 8-15% and ANLS QA scores by 2-3% compared to baselines, emphasizing the critical role of explicitly leveraging document hierarchy for multimodal document-based QA. These significant performance gains underscore the necessity of structure-aware chunking in enhancing the fidelity of RAG-based QA systems.