LLMs to Support a Domain Specific Knowledge Assistant

作者: Maria-Flavia Lovin

分类: cs.CL, cs.AI

发布日期: 2025-02-06

💡 一句话要点

利用LLM生成高质量数据集，构建可持续性报告领域的知识助手

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 问答系统 可持续性报告 国际财务报告准则 合成数据集 领域知识助手

📋 核心要点

可持续性报告领域缺乏高质量问答数据集，限制了相关知识助手的开发。
利用LLM生成高质量合成问答数据集，并设计评估框架保证数据质量。
构建RAG和纯LLM两种架构，并在生成的数据集上进行微调和训练，显著提升问答准确率。

📝 摘要（中文）

本研究提出了一种定制方法，用于开发一个针对国际财务报告准则（IFRS）可持续性报告的领域特定知识助手。由于该领域缺乏公开的问答数据集，阻碍了高质量聊天机器人的开发，以支持公司进行IFRS报告。因此，该项目的两个主要贡献是：（1）利用大型语言模型（LLM）创建了一个基于IFRS可持续性标准的高质量合成问答（QA）数据集，该数据集通过一种新颖的生成和评估流程实现。该数据集包含1063个不同的QA对，涵盖了可持续性报告中潜在用户查询的广泛范围。采用了各种基于LLM的技术来创建数据集，包括思维链推理和少样本提示。开发了一个自定义评估框架，用于评估问题和答案在多个维度上的质量，包括忠实性、相关性和领域特异性。该数据集在这些指标上的平均得分范围为8.16（满分10分）。（2）针对可持续性报告领域的问答，提出了两种架构——RAG流水线和完全基于LLM的流水线。通过在QA数据集上进行实验、微调和训练来开发这些架构。最终的流水线包含一个在领域特定数据上微调的LLM和一个行业分类组件，以提高处理复杂查询的能力。RAG架构在单行业多项选择题上的准确率为85.32%，在跨行业多项选择题上的准确率为72.15%，分别优于基线方法4.67和19.21个百分点。基于LLM的流水线在单行业多项选择题上的准确率为93.45%，在跨行业多项选择题上的准确率为80.30%，分别比基线提高了12.80和27.36个百分点。

🔬 方法详解

问题定义：该论文旨在解决可持续性报告领域缺乏高质量问答数据集的问题，从而阻碍了领域特定知识助手的开发。现有方法难以生成高质量的领域相关问答数据，并且缺乏有效的评估机制来保证数据的质量。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大生成能力，结合领域知识，自动生成高质量的合成问答数据集。同时，设计自定义评估框架，从忠实性、相关性和领域特异性等多个维度评估生成的数据，确保数据集的质量。

技术框架：整体框架包含两个主要部分：数据集生成和问答系统构建。数据集生成阶段，利用LLM生成问答对，并使用自定义评估框架进行评估和筛选。问答系统构建阶段，分别构建了基于RAG的流水线和完全基于LLM的流水线。RAG流水线包含检索模块和生成模块，检索模块负责从知识库中检索相关文档，生成模块利用LLM生成答案。完全基于LLM的流水线直接利用LLM进行问答。

关键创新：该论文的关键创新在于提出了一种新颖的基于LLM的合成问答数据集生成和评估流程。该流程能够生成高质量的领域特定问答数据，解决了可持续性报告领域缺乏高质量数据集的问题。此外，论文还提出了两种针对该领域的问答架构，并取得了显著的性能提升。

关键设计：在数据集生成阶段，采用了思维链推理和少样本提示等技术来提高LLM生成问答对的质量。自定义评估框架包含多个评估指标，如忠实性、相关性和领域特异性，并对每个指标进行加权平均。在问答系统构建阶段，对LLM进行了领域特定数据的微调，并引入了行业分类组件来提高处理复杂查询的能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于LLM的流水线在单行业和跨行业多项选择题上的准确率分别达到93.45%和80.30%，相比基线方法分别提升了12.80和27.36个百分点。RAG架构也取得了显著的性能提升，证明了该方法在可持续性报告领域的有效性。

🎯 应用场景

该研究成果可应用于构建可持续性报告领域的智能知识助手，帮助企业更好地理解和应用IFRS可持续性标准，提高报告的准确性和效率。此外，该方法也可推广到其他领域，解决领域特定知识助手开发中缺乏高质量数据集的问题，具有广泛的应用前景。

📄 摘要（原文）

This work presents a custom approach to developing a domain specific knowledge assistant for sustainability reporting using the International Financial Reporting Standards (IFRS). In this domain, there is no publicly available question-answer dataset, which has impeded the development of a high-quality chatbot to support companies with IFRS reporting. The two key contributions of this project therefore are: (1) A high-quality synthetic question-answer (QA) dataset based on IFRS sustainability standards, created using a novel generation and evaluation pipeline leveraging Large Language Models (LLMs). This comprises 1,063 diverse QA pairs that address a wide spectrum of potential user queries in sustainability reporting. Various LLM-based techniques are employed to create the dataset, including chain-of-thought reasoning and few-shot prompting. A custom evaluation framework is developed to assess question and answer quality across multiple dimensions, including faithfulness, relevance, and domain specificity. The dataset averages a score range of 8.16 out of 10 on these metrics. (2) Two architectures for question-answering in the sustainability reporting domain - a RAG pipeline and a fully LLM-based pipeline. The architectures are developed by experimenting, fine-tuning, and training on the QA dataset. The final pipelines feature an LLM fine-tuned on domain specific data and an industry classification component to improve the handling of complex queries. The RAG architecture achieves an accuracy of 85.32% on single-industry and 72.15% on cross-industry multiple-choice questions, outperforming the baseline approach by 4.67 and 19.21 percentage points, respectively. The LLM-based pipeline achieves an accuracy of 93.45% on single-industry and 80.30% on cross-industry multiple-choice questions, an improvement of 12.80 and 27.36 percentage points over the baseline, respectively.

LLMs to Support a Domain Specific Knowledge Assistant

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理