LLMs to Support a Domain Specific Knowledge Assistant
作者: Maria-Flavia Lovin
分类: cs.CL, cs.AI
发布日期: 2025-02-06
💡 一句话要点
利用LLM生成高质量数据集,构建可持续性报告领域的知识助手
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 问答系统 可持续性报告 国际财务报告准则 合成数据集 领域知识助手
📋 核心要点
- 可持续性报告领域缺乏高质量问答数据集,限制了相关知识助手的开发。
- 利用LLM生成高质量合成问答数据集,并设计评估框架保证数据质量。
- 构建RAG和纯LLM两种架构,并在生成的数据集上进行微调和训练,显著提升问答准确率。
📝 摘要(中文)
本研究提出了一种定制方法,用于开发一个针对国际财务报告准则(IFRS)可持续性报告的领域特定知识助手。由于该领域缺乏公开的问答数据集,阻碍了高质量聊天机器人的开发,以支持公司进行IFRS报告。因此,该项目的两个主要贡献是:(1)利用大型语言模型(LLM)创建了一个基于IFRS可持续性标准的高质量合成问答(QA)数据集,该数据集通过一种新颖的生成和评估流程实现。该数据集包含1063个不同的QA对,涵盖了可持续性报告中潜在用户查询的广泛范围。采用了各种基于LLM的技术来创建数据集,包括思维链推理和少样本提示。开发了一个自定义评估框架,用于评估问题和答案在多个维度上的质量,包括忠实性、相关性和领域特异性。该数据集在这些指标上的平均得分范围为8.16(满分10分)。(2)针对可持续性报告领域的问答,提出了两种架构——RAG流水线和完全基于LLM的流水线。通过在QA数据集上进行实验、微调和训练来开发这些架构。最终的流水线包含一个在领域特定数据上微调的LLM和一个行业分类组件,以提高处理复杂查询的能力。RAG架构在单行业多项选择题上的准确率为85.32%,在跨行业多项选择题上的准确率为72.15%,分别优于基线方法4.67和19.21个百分点。基于LLM的流水线在单行业多项选择题上的准确率为93.45%,在跨行业多项选择题上的准确率为80.30%,分别比基线提高了12.80和27.36个百分点。
🔬 方法详解
问题定义:该论文旨在解决可持续性报告领域缺乏高质量问答数据集的问题,从而阻碍了领域特定知识助手的开发。现有方法难以生成高质量的领域相关问答数据,并且缺乏有效的评估机制来保证数据的质量。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大生成能力,结合领域知识,自动生成高质量的合成问答数据集。同时,设计自定义评估框架,从忠实性、相关性和领域特异性等多个维度评估生成的数据,确保数据集的质量。
技术框架:整体框架包含两个主要部分:数据集生成和问答系统构建。数据集生成阶段,利用LLM生成问答对,并使用自定义评估框架进行评估和筛选。问答系统构建阶段,分别构建了基于RAG的流水线和完全基于LLM的流水线。RAG流水线包含检索模块和生成模块,检索模块负责从知识库中检索相关文档,生成模块利用LLM生成答案。完全基于LLM的流水线直接利用LLM进行问答。
关键创新:该论文的关键创新在于提出了一种新颖的基于LLM的合成问答数据集生成和评估流程。该流程能够生成高质量的领域特定问答数据,解决了可持续性报告领域缺乏高质量数据集的问题。此外,论文还提出了两种针对该领域的问答架构,并取得了显著的性能提升。
关键设计:在数据集生成阶段,采用了思维链推理和少样本提示等技术来提高LLM生成问答对的质量。自定义评估框架包含多个评估指标,如忠实性、相关性和领域特异性,并对每个指标进行加权平均。在问答系统构建阶段,对LLM进行了领域特定数据的微调,并引入了行业分类组件来提高处理复杂查询的能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于LLM的流水线在单行业和跨行业多项选择题上的准确率分别达到93.45%和80.30%,相比基线方法分别提升了12.80和27.36个百分点。RAG架构也取得了显著的性能提升,证明了该方法在可持续性报告领域的有效性。
🎯 应用场景
该研究成果可应用于构建可持续性报告领域的智能知识助手,帮助企业更好地理解和应用IFRS可持续性标准,提高报告的准确性和效率。此外,该方法也可推广到其他领域,解决领域特定知识助手开发中缺乏高质量数据集的问题,具有广泛的应用前景。
📄 摘要(原文)
This work presents a custom approach to developing a domain specific knowledge assistant for sustainability reporting using the International Financial Reporting Standards (IFRS). In this domain, there is no publicly available question-answer dataset, which has impeded the development of a high-quality chatbot to support companies with IFRS reporting. The two key contributions of this project therefore are: (1) A high-quality synthetic question-answer (QA) dataset based on IFRS sustainability standards, created using a novel generation and evaluation pipeline leveraging Large Language Models (LLMs). This comprises 1,063 diverse QA pairs that address a wide spectrum of potential user queries in sustainability reporting. Various LLM-based techniques are employed to create the dataset, including chain-of-thought reasoning and few-shot prompting. A custom evaluation framework is developed to assess question and answer quality across multiple dimensions, including faithfulness, relevance, and domain specificity. The dataset averages a score range of 8.16 out of 10 on these metrics. (2) Two architectures for question-answering in the sustainability reporting domain - a RAG pipeline and a fully LLM-based pipeline. The architectures are developed by experimenting, fine-tuning, and training on the QA dataset. The final pipelines feature an LLM fine-tuned on domain specific data and an industry classification component to improve the handling of complex queries. The RAG architecture achieves an accuracy of 85.32% on single-industry and 72.15% on cross-industry multiple-choice questions, outperforming the baseline approach by 4.67 and 19.21 percentage points, respectively. The LLM-based pipeline achieves an accuracy of 93.45% on single-industry and 80.30% on cross-industry multiple-choice questions, an improvement of 12.80 and 27.36 percentage points over the baseline, respectively.