HiKEY: Hierarchical Multimodal Retrieval for Open-Domain Document Question Answering

作者: Joongmin Shin, Gyuho Shim, Jeongbae Park, Jaehyung Seo, Heuiseok Lim

分类: cs.AI, cs.IR

发布日期: 2026-05-28

备注: Accepted to ACL2026 Main

💡 一句话要点

HiKEY提出层级多模态检索框架，解决开放域文档问答中的路由失败和证据碎片化问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放域问答 多模态检索 层级检索 文档理解 检索增强生成

📋 核心要点

现有开放域文档问答方法在大型语料库中难以精确定位目标文档，且多模态证据分散，导致检索效果不佳。
HiKEY通过构建文档层级树，利用层级索引进行粗粒度路由，再进行细粒度多模态检索，有效提升检索精度。
实验表明，HiKEY在检索召回率和端到端问答性能上均显著优于现有方法，证明了其有效性。

📝 摘要（中文）

本文针对大规模工业语料库中基于文档的开放域问答（ODQA）的检索增强生成（RAG）面临的关键瓶颈：定位正确文档的路由失败和整合分散信息的证据碎片化，提出了HiKEY，一个层级树状多模态检索框架，将文档层级结构提升为首要的检索信号。HiKEY通过文档层级解析（DHP）重建逻辑异构图，显式编码父子关系，而非简单的分块。该框架采用层级由粗到精的策略：（1）利用层级索引执行全局路由，快速缩小搜索空间；（2）进行细粒度检索，采用多模态融合策略对章节进行排序，捕捉最具区分性的证据。最后，HiKEY通过混合结构-语义打包策略组装token高效的证据子图。在ODQA基准测试上的实验表明，HiKEY显著优于基于页面和分块的基线方法，检索召回率提高了12.9%，端到端QA性能提高了6.8%。

🔬 方法详解

问题定义：论文旨在解决开放域文档问答（ODQA）中，检索增强生成（RAG）方法在大规模工业语料库上遇到的两个主要问题：一是路由失败，即无法准确找到包含答案的文档；二是证据碎片化，即答案分散在多个文档或文档的不同部分，难以有效整合。现有方法，如基于文本块或页面级图像的方法，难以同时解决这两个问题。

核心思路：HiKEY的核心思路是将文档的层级结构作为检索的重要信号。通过构建文档的层级树，利用由粗到精的检索策略，首先快速缩小搜索范围，然后精确定位包含答案的文档片段。同时，HiKEY采用多模态融合策略，整合文本、表格、图像等多种信息，提高检索的准确性。

技术框架：HiKEY框架包含以下几个主要阶段：1. 文档层级解析（DHP）：将文档解析为层级树结构，显式编码父子关系。2. 层级索引：构建基于层级结构的索引，用于快速缩小搜索空间。3. 全局路由：利用层级索引，从粗到细地筛选候选文档。4. 细粒度检索：对候选文档的章节进行排序，采用多模态融合策略，选择最相关的章节。5. 证据子图组装：将选择的章节组装成token高效的证据子图，用于后续的问答生成。

关键创新：HiKEY的关键创新在于将文档层级结构引入到检索过程中，并结合多模态信息进行检索。与现有方法相比，HiKEY能够更准确地定位目标文档，并整合分散的证据，从而提高问答性能。此外，HiKEY还提出了混合结构-语义打包策略，用于组装token高效的证据子图。

关键设计：DHP模块的具体实现细节（例如，使用的解析器类型和配置），多模态融合策略的具体方法（例如，使用的模型结构和训练方式），以及混合结构-语义打包策略的具体算法是关键设计。论文中可能涉及损失函数的设计，用于优化检索模型的性能。此外，层级索引的具体实现方式（例如，使用的索引结构和查询算法）也会影响检索效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HiKEY在ODQA基准测试上显著优于基于页面和分块的基线方法，检索召回率提高了高达12.9%，端到端QA性能提高了高达6.8%。这些结果证明了HiKEY在解决开放域文档问答中的路由失败和证据碎片化问题方面的有效性。

🎯 应用场景

HiKEY适用于需要处理大量文档的开放域问答场景，例如企业内部知识库问答、法律文档问答、医学文献问答等。该研究可以提高问答系统的准确性和效率，帮助用户快速找到所需信息，具有重要的实际应用价值。未来可以进一步探索如何将HiKEY应用于更复杂的文档结构和更多模态的信息。

📄 摘要（原文）

Retrieval-augmented generation (RAG) for document-based Open-domain Question Answering (ODQA) on large-scale industrial corpora faces two critical bottlenecks: routing failure in locating the correct document and evidence fragmentation in integrating scattered information. Existing approaches relying on flat text chunks or page-level images inherently struggle to (i) precisely pinpoint the target document among thousands of candidates and (ii) organically connect multimodal evidence, such as tables and figures, within a limited token budget. To address these challenges, we propose HiKEY, a hierarchical tree-based multimodal retrieval framework that elevates document hierarchy to a first-class retrieval signal. Instead of simple chunking, HiKEY reconstructs a logical heterogeneous graph via Document Hierarchical Parsing (DHP), explicitly encoding parent-child relationships. Adopting a hierarchical coarse-to-fine strategy, the framework (1) performs global routing to rapidly prune the search space using hierarchical indexing, and (2) conducts fine-grained retrieval to rank sections by employing a multimodal fusion strategy that captures the most discriminative evidence. Finally, HiKEY assembles a token-efficient evidence subgraph via a hybrid structural-semantic packing strategy. Experiments on ODQA benchmarks demonstrate that HiKEY significantly outperforms page- and chunk-based baselines, improving retrieval recall by up to 12.9% and end-to-end QA performance by up to 6.8%.

HiKEY: Hierarchical Multimodal Retrieval for Open-Domain Document Question Answering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理