Secure Multifaceted-RAG for Enterprise: Hybrid Knowledge Retrieval with Security Filtering

📄 arXiv: 2504.13425v2 📥 PDF

作者: Grace Byun, Shinsun Lee, Nayoung Choi, Jinho D. Choi

分类: cs.CL

发布日期: 2025-04-18 (更新: 2025-07-17)


💡 一句话要点

提出SecMulti-RAG,解决企业RAG系统检索范围和数据安全问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 RAG 企业应用 数据安全 多源知识融合

📋 核心要点

  1. 传统RAG系统在企业应用中面临检索范围窄、无法充分利用外部知识以及数据安全风险等问题。
  2. SecMulti-RAG框架通过融合内部文档、预生成专家知识和按需外部LLM知识,扩展检索范围并提升生成质量。
  3. 实验表明,SecMulti-RAG在报告生成任务中显著优于传统RAG,在LLM和人工评估中均取得了更高的胜率。

📝 摘要(中文)

现有的检索增强生成(RAG)系统在企业环境中面临挑战,主要由于检索范围有限和数据安全风险。当相关的内部文档不可用时,系统难以生成准确和完整的响应。此外,使用闭源大型语言模型(LLM)会引发暴露专有信息的担忧。为了解决这些问题,我们提出了安全多面RAG(SecMulti-RAG)框架,该框架不仅从内部文档检索,还从两个补充来源检索:针对预期查询的预生成专家知识和按需外部LLM生成的知识。为了减轻安全风险,我们采用本地开源生成器,并仅在过滤机制认为提示安全时才选择性地利用外部LLM。这种方法增强了完整性,防止了数据泄露,并降低了成本。在汽车行业的报告生成任务评估中,SecMulti-RAG显著优于传统RAG,在基于LLM的评估中,正确性、丰富性和帮助性方面的胜率达到79.3%至91.9%,在人工评估中达到56.3%至70.4%。这突显了SecMulti-RAG作为企业RAG的实用且安全的解决方案。

🔬 方法详解

问题定义:现有企业级RAG系统面临的主要问题是检索范围的局限性和数据安全风险。当内部知识库无法覆盖所有问题时,RAG系统难以生成准确和完整的答案。同时,直接使用外部闭源LLM存在数据泄露的风险,企业对专有信息的保护需求无法得到满足。

核心思路:SecMulti-RAG的核心思路是扩展RAG系统的知识来源,同时引入安全过滤机制。通过融合内部文档、预生成的专家知识和按需生成的外部LLM知识,提高RAG系统的覆盖范围和生成质量。同时,通过安全过滤机制,避免将敏感信息传递给外部LLM,从而保障数据安全。

技术框架:SecMulti-RAG框架包含以下几个主要模块:1) 内部文档检索模块:从企业内部知识库中检索相关文档。2) 预生成专家知识库:存储针对常见问题的预先生成的专家知识。3) 外部LLM知识生成模块:根据需要调用外部LLM生成知识。4) 安全过滤模块:对发送给外部LLM的prompt进行安全检查,防止泄露敏感信息。5) 知识融合与生成模块:将检索到的内部文档、专家知识和外部LLM知识进行融合,并生成最终答案。

关键创新:SecMulti-RAG的关键创新在于多源知识融合和安全过滤机制。传统RAG系统主要依赖内部知识库,而SecMulti-RAG则融合了多种知识来源,提高了覆盖范围和生成质量。安全过滤机制则有效降低了数据泄露的风险,使得企业可以更安全地使用外部LLM。

关键设计:安全过滤模块是关键设计之一,具体实现方式未知,可能采用关键词过滤、正则表达式匹配或基于LLM的安全评估等方法。外部LLM的选择和prompt的设计也至关重要,需要根据具体应用场景进行优化。预生成专家知识库的构建需要领域专家的参与,以保证知识的准确性和完整性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在汽车行业的报告生成任务中,SecMulti-RAG显著优于传统RAG。基于LLM的评估结果显示,SecMulti-RAG在正确性、丰富性和帮助性方面的胜率达到79.3%至91.9%,而人工评估结果显示,胜率达到56.3%至70.4%。这些结果表明,SecMulti-RAG在实际应用中具有显著的优势。

🎯 应用场景

SecMulti-RAG适用于需要安全可靠的知识检索和生成的企业级应用场景,例如:客户服务、技术支持、内部知识管理、报告生成等。该框架可以帮助企业更有效地利用内外部知识,提高工作效率,并降低数据安全风险。未来,该技术有望应用于更广泛的领域,例如金融、医疗等对数据安全要求较高的行业。

📄 摘要(原文)

Existing Retrieval-Augmented Generation (RAG) systems face challenges in enterprise settings due to limited retrieval scope and data security risks. When relevant internal documents are unavailable, the system struggles to generate accurate and complete responses. Additionally, using closed-source Large Language Models (LLMs) raises concerns about exposing proprietary information. To address these issues, we propose the Secure Multifaceted-RAG (SecMulti-RAG) framework, which retrieves not only from internal documents but also from two supplementary sources: pre-generated expert knowledge for anticipated queries and on-demand external LLM-generated knowledge. To mitigate security risks, we adopt a local open-source generator and selectively utilize external LLMs only when prompts are deemed safe by a filtering mechanism. This approach enhances completeness, prevents data leakage, and reduces costs. In our evaluation on a report generation task in the automotive industry, SecMulti-RAG significantly outperforms traditional RAG - achieving 79.3 to 91.9 percent win rates across correctness, richness, and helpfulness in LLM-based evaluation, and 56.3 to 70.4 percent in human evaluation. This highlights SecMulti-RAG as a practical and secure solution for enterprise RAG.