Fine-Tuning Large Language Models and Evaluating Retrieval Methods for Improved Question Answering on Building Codes

作者: Mohammad Aqib, Mohd Hamza, Qipei Mei, Ying Hei Chui

分类: cs.CL, cs.IR, cs.LG

发布日期: 2025-05-07

💡 一句话要点

针对建筑规范问答，提出微调大语言模型并评估检索方法以提升性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 建筑规范 问答系统 检索增强生成 大语言模型 微调

📋 核心要点

建筑规范庞大复杂且更新频繁，人工查询耗时费力，现有方法难以有效应对其技术性强、信息量大的特点。
本研究采用检索增强生成（RAG）框架，通过优化检索器和微调语言模型，提升建筑规范问答系统的性能。
实验表明，Elasticsearch作为检索器表现最佳，且在NBCC数据集上微调语言模型能显著提升其生成相关响应的能力。

📝 摘要（中文）

建筑规范是为确保建筑物结构完整性、防火和可达性而制定的设计、建造和安全标准。它们通常内容广泛、复杂且经常更新，使得手动查询既困难又耗时。主要挑战包括浏览大量文本、理解技术语言以及识别不同章节中的相关条款。一个潜在的解决方案是构建一个基于建筑规范回答用户查询的问答（QA）系统。在构建QA系统的各种方法中，检索增强生成（RAG）在性能方面表现突出。RAG由检索器和语言模型两个组件组成。本研究侧重于为建筑规范确定合适的检索方法，并使用微调技术优化语言模型的生成能力。我们通过对加拿大国家建筑规范（NBCC）进行检索，对各种检索方法进行了详细评估，并探讨了使用从NBCC派生的数据集对多个语言模型进行领域特定微调的影响。我们的分析包括对不同检索器的比较评估，以及预训练和微调模型的性能评估，以确定语言模型在使用NBCC数据集进行微调后的有效性和领域特定适应性。实验结果表明，Elasticsearch被证明是所有检索器中最稳健的。研究结果还表明，在NBCC特定数据集上微调语言模型可以增强其生成上下文相关响应的能力。当与像Elasticsearch这样强大的检索器检索到的上下文相结合时，LLM性能的这种改进可以优化RAG系统，使其能够更好地应对NBCC的复杂性。

🔬 方法详解

问题定义：论文旨在解决建筑规范问答系统中的信息检索和答案生成问题。现有方法在处理大量、专业性强的建筑规范文本时，存在检索效率低、答案相关性差等痛点。人工查询耗时费力，且容易出错。

核心思路：论文的核心思路是利用检索增强生成（RAG）框架，结合强大的检索器和微调的语言模型，实现高效、准确的建筑规范问答。通过检索器快速定位相关文档，然后利用语言模型生成针对用户问题的答案。

技术框架：整体框架包含两个主要模块：检索模块和生成模块。检索模块负责从建筑规范文档中检索与用户问题相关的上下文信息，论文评估了多种检索方法，包括Elasticsearch等。生成模块则利用检索到的上下文信息，通过语言模型生成最终答案。该模块通过在NBCC数据集上进行微调来优化语言模型的生成能力。

关键创新：论文的关键创新在于针对建筑规范领域，系统性地评估了不同检索方法和微调策略对RAG框架性能的影响。通过实验确定了最适合该领域的检索器（Elasticsearch）和微调方法，从而提升了问答系统的整体性能。

关键设计：论文的关键设计包括：1) 详细评估了多种检索方法在NBCC数据集上的性能，包括召回率、准确率等指标。2) 针对不同的语言模型，设计了领域特定的微调策略，包括数据集构建、训练参数设置等。3) 采用了RAG框架，将检索和生成两个模块有效结合，充分利用了检索器的信息定位能力和语言模型的生成能力。

📊 实验亮点

实验结果表明，Elasticsearch作为检索器在NBCC数据集上表现最为稳健。此外，在NBCC数据集上微调语言模型能够显著提升其生成上下文相关响应的能力，从而优化RAG系统的整体性能。具体性能提升数据未知，但结论明确指出微调后的模型在处理NBCC相关问题时表现更佳。

🎯 应用场景

该研究成果可应用于智能建筑设计、建筑规范咨询、建筑工程审核等领域。通过构建高效的建筑规范问答系统，可以显著提高建筑从业人员的工作效率，降低错误率，并促进建筑行业的智能化发展。未来，该技术还可扩展到其他法律法规、技术文档等领域。

📄 摘要（原文）

Building codes are regulations that establish standards for the design, construction, and safety of buildings to ensure structural integrity, fire protection, and accessibility. They are often extensive, complex, and subject to frequent updates, making manual querying challenging and time-consuming. Key difficulties include navigating large volumes of text, interpreting technical language, and identifying relevant clauses across different sections. A potential solution is to build a Question-Answering (QA) system that answers user queries based on building codes. Among the various methods for building a QA system, Retrieval-Augmented Generation (RAG) stands out in performance. RAG consists of two components: a retriever and a language model. This study focuses on identifying a suitable retriever method for building codes and optimizing the generational capability of the language model using fine-tuning techniques. We conducted a detailed evaluation of various retrieval methods by performing the retrieval on the National Building Code of Canada (NBCC) and explored the impact of domain-specific fine-tuning on several language models using the dataset derived from NBCC. Our analysis included a comparative assessment of different retrievers and the performance of both pre-trained and fine-tuned models to determine the efficacy and domain-specific adaptation of language models using fine-tuning on the NBCC dataset. Experimental results showed that Elasticsearch proved to be the most robust retriever among all. The findings also indicate that fine-tuning language models on an NBCC-specific dataset can enhance their ability to generate contextually relevant responses. When combined with context retrieved by a powerful retriever like Elasticsearch, this improvement in LLM performance can optimize the RAG system, enabling it to better navigate the complexities of the NBCC.

Fine-Tuning Large Language Models and Evaluating Retrieval Methods for Improved Question Answering on Building Codes

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理