Improving Factuality for Dialogue Response Generation via Graph-Based Knowledge Augmentation

📄 arXiv: 2506.12496v2 📥 PDF

作者: Xiangyan Chen, Yujian Gan, Yimeng Gu, Matthew Purver

分类: cs.CL, cs.HC

发布日期: 2025-06-14 (更新: 2025-08-07)


💡 一句话要点

提出基于图知识增强的对话生成框架,提升生成回复的事实性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话生成 知识图谱 事实性 自然语言处理 大型语言模型

📋 核心要点

  1. 现有大型语言模型在对话生成中存在“幻觉”问题,即生成不符合事实的回复。
  2. 论文提出TG-DRG和GA-DRG两种框架,利用图知识增强来提升回复的事实性。
  3. 实验表明,提出的方法在OpendialKG和HybriDialogue数据集上显著提升了对话回复的事实性。

📝 摘要(中文)

大型语言模型(LLMs)在许多自然语言处理任务中取得了成功。然而,它们容易产生幻觉——生成看似合理但不一致或在事实上不正确的文本——这会在某些任务中引起严重问题,包括对话中的回复生成。为了缓解这个问题,我们提出了两种新颖的图知识增强框架,即通过文本化图的对话回复生成(TG-DRG)和图感知对话回复生成(GA-DRG),它们结合了推理引导的对话重构、对话语义知识选择和图增强的回复生成,以提高对话回复的事实性。为了评估生成回复的事实性,我们提出了一个对话事实性得分,该得分解决了现有事实性得分方法在对话设置中的局限性,从而提供了对事实一致性的更可靠评估。我们在OpendialKG和HybriDialogue数据集上使用不同的基线评估了我们的方法。与其他图知识增强基线(包括最先进的G-retriever)相比,我们的方法显着提高了事实性,在对话事实性得分方面,在OpendialKG上提高了3.47%,在HybriDialogue上提高了3.12%。代码将在GitHub上发布。

🔬 方法详解

问题定义:现有对话生成模型,特别是基于大型语言模型的模型,容易产生“幻觉”,即生成看似合理但与事实不符的回复。这在需要事实准确性的对话场景中是一个严重的问题。现有评估回复事实性的方法在对话场景中存在局限性,无法准确衡量回复的事实一致性。

核心思路:论文的核心思路是通过引入外部知识图谱,并利用图结构信息来增强对话生成模型,从而减少“幻觉”的产生。具体来说,通过推理引导的对话重构,对话语义知识选择和图增强的回复生成,使得模型在生成回复时能够更好地利用知识图谱中的信息,从而提高回复的事实性。

技术框架:论文提出了两种框架:TG-DRG(Dialogue Response Generation via Textualised Graphs)和GA-DRG(Graph-Aware Dialogue Response Generation)。两种框架都包含以下几个主要模块:1) 推理引导的对话重构:对原始对话进行重构,使其更适合知识图谱的查询。2) 对话语义知识选择:从知识图谱中选择与对话相关的知识子图。3) 图增强的回复生成:利用选择的知识子图来指导回复的生成。TG-DRG将知识图谱文本化,然后输入到生成模型中;GA-DRG则直接利用图结构信息来增强生成模型。

关键创新:论文的关键创新在于将图知识引入到对话生成中,并提出了两种不同的图知识增强框架。此外,论文还提出了一个对话事实性得分,用于更准确地评估对话回复的事实一致性,解决了现有评估方法在对话场景中的局限性。

关键设计:在TG-DRG中,知识图谱被文本化为三元组序列,然后与对话上下文一起输入到Transformer模型中。在GA-DRG中,使用图神经网络(GNN)来编码知识图谱,并将GNN的输出与对话上下文的表示进行融合,然后用于指导回复的生成。对话事实性得分的计算方式未知,需要参考论文具体细节。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,提出的TG-DRG和GA-DRG框架在OpendialKG和HybriDialogue数据集上都取得了显著的提升。具体来说,在OpendialKG数据集上,对话事实性得分提高了3.47%;在HybriDialogue数据集上,对话事实性得分提高了3.12%。这些提升超过了现有的图知识增强基线方法,包括state-of-the-art的G-retriever。

🎯 应用场景

该研究成果可应用于需要高信息准确度的对话系统,例如医疗问答、金融客服等领域。通过提升对话回复的事实性,可以提高用户对对话系统的信任度,并减少错误信息带来的风险。未来,该技术可以进一步扩展到其他自然语言生成任务中,例如新闻摘要、机器翻译等。

📄 摘要(原文)

Large Language Models (LLMs) succeed in many natural language processing tasks. However, their tendency to hallucinate - generate plausible but inconsistent or factually incorrect text - can cause significant problems in certain tasks, including response generation in dialogue. To mitigate this issue, we propose two novel graph knowledge-augmented frameworks, Dialogue Response Generation via Textualised Graphs (TG-DRG) and Graph-Aware Dialogue Response Generation (GA-DRG), which combine reasoning-guided dialogue reformulation, dialogue sense knowledge selection, and graph-enhanced response generation to improve the factuality of dialogue responses. To evaluate the factuality of generated responses, we propose a dialogue fact score that addresses the limitations of existing fact-score methods in dialogue settings, providing a more reliable assessment of factual consistency. We evaluate our methods using different baselines on the OpendialKG and HybriDialogue datasets. Our methods noticeably improve factuality compared to other graph knowledge-augmentation baselines, including the state-of-the-art G-retriever, achieving improvements of 3.47% on OpendialKG and 3.12% on HybriDialogue in terms of dialogue fact score. The code will be released on GitHub.