Knowledge Augmented Finetuning Matters in both RAG and Agent Based Dialog Systems

📄 arXiv: 2506.22852v1 📥 PDF

作者: Yucheng Cai, Yuxuan Wu, Yi Huang, Junlan Feng, Zhijian Ou

分类: cs.CL

发布日期: 2025-06-28


💡 一句话要点

提出知识增强微调(KAFT)方法,提升RAG和Agent对话系统在知识密集型场景下的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识增强微调 检索增强生成 Agent对话系统 大型语言模型 知识密集型对话

📋 核心要点

  1. 现有RAG和Agent对话系统依赖提示工程,但LLM难以有效利用检索到的知识,尤其在特定领域。
  2. 论文提出知识增强微调(KAFT),即利用领域数据和外部知识微调LLM,使其更好地利用检索知识。
  3. 在MobileCS2数据集上的实验表明,KAFT在RAG和Agent系统中显著优于提示,尤其提升了事实准确性。

📝 摘要(中文)

大型语言模型(LLMs)已被广泛应用于对话系统。尽管取得了一定进展,但在知识密集型场景中,LLMs容易出错。近年来,基于检索增强生成(RAG)和Agent的方法通过增强LLMs从外部知识库(KBs)检索知识的能力,从而提高事实准确性。这通常通过提示LLMs指令、示例和检索到的知识来实现。然而,LLMs可能难以有效地利用检索到的知识进行响应生成,因为它们没有经过充分的训练来针对特定领域进行此类生成。为了缓解这个问题,我们提出在基于RAG和Agent的系统中,使用特定领域的数据以及特定领域的外部知识来微调LLMs,这被称为知识增强微调(KAFT)。我们基于MobileCS2数据集(一个具有密集知识交互的真实客户服务对话数据集)进行研究,以系统地比较RAG和Agent系统中提示和KAFT技术。实验结果表明,KAFT在RAG和Agent系统中都显著优于提示,尤其是在事实准确性方面。据我们所知,本文代表了第一个研究KAFT思想的可靠实证工作。

🔬 方法详解

问题定义:论文旨在解决知识密集型对话场景下,大型语言模型(LLM)在RAG和Agent系统中难以有效利用检索到的外部知识的问题。现有方法主要依赖于提示工程,但LLM本身缺乏针对特定领域的知识利用能力,导致生成回复的事实准确性不足。

核心思路:论文的核心思路是通过知识增强微调(KAFT),让LLM在特定领域的数据和外部知识上进行微调,从而提升其利用检索知识进行回复生成的能力。KAFT旨在使LLM更好地适应特定领域的知识结构和交互模式,从而提高回复的质量和准确性。

技术框架:KAFT方法应用于RAG和Agent两种对话系统框架。在RAG框架中,首先从外部知识库检索相关知识,然后将检索到的知识与对话历史一起作为LLM的输入,LLM生成回复。在Agent框架中,Agent根据对话历史选择合适的工具(例如知识检索),然后执行工具并获取结果,最后LLM根据对话历史和工具执行结果生成回复。KAFT在这两种框架中都通过微调LLM来提升其性能。

关键创新:论文的关键创新在于提出了知识增强微调(KAFT)的概念,并将其应用于RAG和Agent对话系统。KAFT通过在特定领域的数据和外部知识上微调LLM,使其更好地利用检索到的知识进行回复生成。这是首次针对RAG和Agent系统进行KAFT的实证研究。

关键设计:KAFT的关键设计包括选择合适的领域数据和外部知识,以及设计合适的微调策略。论文使用MobileCS2数据集作为领域数据,该数据集包含真实的客户服务对话,具有丰富的知识交互。外部知识可以采用知识图谱或文本形式。微调策略需要根据具体的LLM和数据集进行调整,例如选择合适的学习率、batch size和训练epochs。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,KAFT在MobileCS2数据集上显著优于基于提示的方法。具体而言,在RAG系统中,KAFT将事实准确性提高了X%;在Agent系统中,KAFT将事实准确性提高了Y%。这些结果表明,KAFT能够有效提升LLM在知识密集型场景下的性能。

🎯 应用场景

该研究成果可应用于各种知识密集型对话系统,例如智能客服、医疗问答、金融咨询等。通过KAFT,可以显著提升对话系统的事实准确性和回复质量,从而提高用户满意度和信任度。未来,该方法可以进一步扩展到其他领域和任务,例如教育、法律等,具有广阔的应用前景。

📄 摘要(原文)

Large language models (LLMs) have recently been applied to dialog systems. Despite making progress, LLMs are prone to errors in knowledge-intensive scenarios. Recently, approaches based on retrieval augmented generation (RAG) and agent have emerged to improve the factual accuracy by enhancing the LLMs with knowledge retrieved from external knowledge bases (KBs). This is mostly implemented by prompting the LLMs with instructions, examples and the retrieved knowledge. However, LLMs may have difficulty using the retrieved knowledge effectively for response generation, because they are not well trained to do such generation for specific domains. To mitigate this problem, we propose to finetune the LLMs in the RAG-based and agent-based systems with domain-specific data, together with domain-specific external knowledge, which is called knowledge augmented finetuning (KAFT). We base our study on the MobileCS2 dataset, a real-life customer service dialog dataset that features intensive knowledge interactions, to systematically compare the prompting and KAFT techniques in the RAG-based and agent-based systems. Experiment results show that KAFT substantially surpasses prompting in both RAG and agent systems, particularly in terms of factual accuracy. To the best of our knowledge, this paper represents the first solid empirical work to investigate the KAFT idea.