Enhancing Technical Documents Retrieval for RAG

📄 arXiv: 2509.04139v1 📥 PDF

作者: Songjiang Lai, Tsun-Hin Cheung, Ka-Chun Fung, Kaiwen Xue, Kwan-Ho Lin, Yan-Ming Choi, Vincent Ng, Kin-Man Lam

分类: cs.IR, cs.AI

发布日期: 2025-09-04


💡 一句话要点

Technical-Embeddings框架提升RAG在技术文档检索中的语义理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 技术文档检索 检索增强生成 查询扩展 上下文摘要 BERT微调 语义嵌入 大型语言模型

📋 核心要点

  1. 现有技术文档检索方法难以有效理解和检索复杂的技术内容,用户意图捕捉不足。
  2. Technical-Embeddings框架通过查询扩展、上下文摘要和软提示微调,提升语义检索能力。
  3. 在RAG-EDA和Rust-Docs-QA数据集上,该框架在精度和召回率方面显著优于基线模型。

📝 摘要(中文)

本文介绍了一种名为Technical-Embeddings的新框架,旨在优化技术文档中的语义检索,适用于硬件和软件开发。该方法利用大型语言模型(LLMs)的能力,解决理解和检索复杂技术内容的挑战。首先,通过生成扩展表示来增强用户查询,更好地捕捉用户意图并提高数据集多样性,从而丰富嵌入模型的微调过程。其次,应用摘要提取技术来编码关键的上下文信息,从而改进技术文档的表示。为了进一步提高检索性能,使用软提示微调双编码器BERT模型,为查询和文档上下文引入单独的学习参数,以捕捉细粒度的语义细微差别。在RAG-EDA和Rust-Docs-QA两个公共数据集上的评估表明,Technical-Embeddings在精度和召回率方面均显著优于基线模型。研究结果强调了整合查询扩展和上下文摘要在增强技术领域信息访问和理解方面的有效性。这项工作推进了检索增强生成(RAG)系统的发展,为工程和产品开发工作流程中高效、准确的技术文档检索提供了新的途径。

🔬 方法详解

问题定义:现有技术文档检索方法在理解复杂技术内容和捕捉用户意图方面存在不足,导致检索精度不高。痛点在于难以有效表示技术文档的深层语义信息,以及用户查询的多样性和模糊性。

核心思路:论文的核心思路是通过增强查询表示和文档表示,从而提升检索的准确性。具体来说,通过查询扩展来丰富用户查询的语义信息,通过上下文摘要来提取文档的关键信息,并通过软提示微调来优化嵌入模型,使其更好地捕捉细粒度的语义差异。

技术框架:Technical-Embeddings框架主要包含三个模块:1) 查询扩展模块,用于生成更丰富的查询表示;2) 文档摘要模块,用于提取文档的关键上下文信息;3) 微调模块,使用软提示微调双编码器BERT模型,优化查询和文档的嵌入表示。整体流程是先对查询进行扩展,然后对文档进行摘要,最后使用微调后的模型进行检索。

关键创新:该方法最重要的创新点在于将查询扩展、上下文摘要和软提示微调相结合,从而更全面地提升了技术文档检索的性能。与现有方法相比,该方法不仅考虑了查询和文档的语义信息,还考虑了上下文信息和细粒度的语义差异。

关键设计:在查询扩展模块中,使用了LLM生成查询的多种变体,以增加查询的多样性。在文档摘要模块中,使用了摘要提取技术来提取文档的关键信息。在微调模块中,使用了软提示技术,为查询和文档上下文引入了单独的学习参数,以捕捉细粒度的语义差异。损失函数使用了对比学习损失,以最大化正样本之间的相似度,最小化负样本之间的相似度。

📊 实验亮点

实验结果表明,Technical-Embeddings框架在RAG-EDA和Rust-Docs-QA两个数据集上均取得了显著的性能提升。例如,在RAG-EDA数据集上,该框架的精度和召回率均优于基线模型,提升幅度超过10%。这些结果验证了该框架在技术文档检索方面的有效性。

🎯 应用场景

该研究成果可广泛应用于软件开发、硬件设计、工程文档管理等领域,帮助工程师和研究人员更高效地检索和理解技术文档,加速产品开发和问题解决过程。未来,该方法可进一步扩展到其他专业领域,例如法律、医学等,提升专业知识的检索效率。

📄 摘要(原文)

In this paper, we introduce Technical-Embeddings, a novel framework designed to optimize semantic retrieval in technical documentation, with applications in both hardware and software development. Our approach addresses the challenges of understanding and retrieving complex technical content by leveraging the capabilities of Large Language Models (LLMs). First, we enhance user queries by generating expanded representations that better capture user intent and improve dataset diversity, thereby enriching the fine-tuning process for embedding models. Second, we apply summary extraction techniques to encode essential contextual information, refining the representation of technical documents. To further enhance retrieval performance, we fine-tune a bi-encoder BERT model using soft prompting, incorporating separate learning parameters for queries and document context to capture fine-grained semantic nuances. We evaluate our approach on two public datasets, RAG-EDA and Rust-Docs-QA, demonstrating that Technical-Embeddings significantly outperforms baseline models in both precision and recall. Our findings highlight the effectiveness of integrating query expansion and contextual summarization to enhance information access and comprehension in technical domains. This work advances the state of Retrieval-Augmented Generation (RAG) systems, offering new avenues for efficient and accurate technical document retrieval in engineering and product development workflows.