Structure and Diversity Aware Context Bubble Construction for Enterprise Retrieval Augmented Systems

📄 arXiv: 2601.10681v1 📥 PDF

作者: Amir Khurshid, Abhishek Sehgal

分类: cs.AI

发布日期: 2026-01-15


💡 一句话要点

提出结构和多样性感知的上下文气泡构建方法,用于企业检索增强系统。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 上下文学习 文档结构 多样性约束 企业检索

📋 核心要点

  1. 现有检索增强生成(RAG)方法在构建LLM上下文时,存在信息碎片化、过度检索和内容重复等问题。
  2. 论文提出上下文气泡构建框架,利用文档结构先验和多样性约束,选择相关、互补的文本片段。
  3. 实验表明,该方法能有效减少冗余上下文,覆盖更多次要信息,并提升答案质量和引文准确性。

📝 摘要(中文)

本文提出了一种结构感知和多样性约束的上下文气泡构建框架,用于组装连贯且可引用的跨度束,同时满足严格的token预算。该方法通过组织多粒度跨度(例如,章节和行)并使用任务条件结构先验来指导检索,从而保留和利用固有的文档结构。从高相关性的锚跨度开始,通过约束选择构建上下文气泡,平衡查询相关性、边际覆盖率和冗余惩罚。它显式地约束多样性和预算,产生紧凑且信息丰富的上下文集合,不同于top-k检索。此外,还输出了完整的检索过程,跟踪记录的评分和选择,从而提供可审计性和确定性调整。在企业文档上的实验表明,上下文气泡的效率很高,因为它显著减少了冗余上下文,更好地覆盖了次要方面,并在有限的上下文窗口内具有更好的答案质量和引文忠实度。消融研究表明,结构先验和多样性约束选择都是必要的;移除任何一个组件都会导致覆盖率下降,并增加冗余或不完整的上下文。

🔬 方法详解

问题定义:现有基于检索增强生成(RAG)的大语言模型(LLM)上下文构建方法,通常采用top-k检索策略,导致文档结构中的信息图谱碎片化,过度检索,内容重复,以及查询上下文不充分,特别是忽略了二阶和三阶方面的信息。这些问题限制了LLM在企业级文档检索中的应用效果。

核心思路:论文的核心思路是构建一个“上下文气泡”,该气泡由一组连贯且可引用的文本片段组成,这些片段在满足token预算的同时,最大程度地覆盖查询相关的关键信息和次要信息。通过引入文档结构先验和多样性约束,避免冗余和信息缺失,从而提升LLM的回答质量和引文忠实度。

技术框架:该框架包含以下主要模块:1) 多粒度跨度组织:将文档分解为不同粒度的跨度,如章节、行等,以保留文档结构信息。2) 任务条件结构先验:利用任务相关的结构信息,指导检索过程,例如,优先检索与查询相关的章节。3) 上下文气泡构建:从高相关性的锚跨度开始,通过约束选择算法,逐步扩展上下文气泡,平衡查询相关性、边际覆盖率和冗余惩罚。4) 完整检索过程输出:记录每个跨度的评分和选择过程,提供可审计性和确定性调整。

关键创新:该方法最重要的创新点在于结构感知和多样性约束的上下文选择策略。与传统的top-k检索不同,该方法不仅考虑了跨度与查询的相关性,还考虑了跨度之间的互补性和冗余性,从而构建更紧凑、更全面的上下文。此外,利用文档结构先验,可以更有效地定位关键信息。

关键设计:在上下文气泡构建过程中,需要设计合适的约束选择算法,平衡查询相关性、边际覆盖率和冗余惩罚。具体而言,可以使用以下技术细节:1) 相关性评分:使用预训练语言模型计算跨度与查询的相关性得分。2) 边际覆盖率:衡量新加入的跨度对已有上下文的信息增益。3) 冗余惩罚:对与已有上下文相似的跨度进行惩罚,避免信息重复。4) 多样性约束:可以使用最大边际相关性(MMR)等方法,显式地约束上下文的多样性。5) Token预算:严格限制上下文气泡的总token数量。

📊 实验亮点

实验结果表明,该方法在企业文档上显著减少了冗余上下文,更好地覆盖了次要方面,并在有限的上下文窗口内具有更好的答案质量和引文忠实度。消融研究表明,结构先验和多样性约束选择都是必要的;移除任何一个组件都会导致覆盖率下降,并增加冗余或不完整的上下文。具体性能提升数据未知。

🎯 应用场景

该研究成果可应用于企业级文档检索、智能问答系统、合同审核、知识库构建等领域。通过提供更准确、更全面的上下文信息,可以显著提升LLM在这些应用中的性能,提高工作效率,降低运营成本,并为用户提供更好的体验。未来,该方法有望扩展到其他类型的文档和应用场景。

📄 摘要(原文)

Large language model (LLM) contexts are typically constructed using retrieval-augmented generation (RAG), which involves ranking and selecting the top-k passages. The approach causes fragmentation in information graphs in document structures, over-retrieval, and duplication of content alongside insufficient query context, including 2nd and 3rd order facets. In this paper, a structure-informed and diversity-constrained context bubble construction framework is proposed that assembles coherent, citable bundles of spans under a strict token budget. The method preserves and exploits inherent document structure by organising multi-granular spans (e.g., sections and rows) and using task-conditioned structural priors to guide retrieval. Starting from high-relevance anchor spans, a context bubble is constructed through constrained selection that balances query relevance, marginal coverage, and redundancy penalties. It will explicitly constrain diversity and budget, producing compact and informative context sets, unlike top-k retrieval. Moreover, a full retrieval is emitted that traces the scoring and selection choices of the records, thus providing auditability and deterministic tuning. Experiments on enterprise documents demonstrate the efficiency of context bubble as it significantly reduces redundant context, is better able to cover secondary facets and has a better answer quality and citation faithfulness within a limited context window. Ablation studies demonstrate that both structural priors as well as diversity constraint selection are necessary; removing either component results in a decline in coverage and an increase in redundant or incomplete context.