Improving Factuality for Dialogue Response Generation via Graph-Based Knowledge Augmentation

作者: Xiangyan Chen, Yujian Gan, Yimeng Gu, Matthew Purver

分类: cs.CL, cs.HC

发布日期: 2025-06-14 (更新: 2025-08-07)

💡 一句话要点

提出基于图知识增强的对话生成框架，提升生成回复的事实性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 对话生成 知识图谱 事实性 自然语言处理 大型语言模型

📋 核心要点

现有大型语言模型在对话生成中存在“幻觉”问题，即生成不符合事实的回复。
论文提出TG-DRG和GA-DRG两种框架，利用图知识增强来提升回复的事实性。
实验表明，提出的方法在OpendialKG和HybriDialogue数据集上显著提升了对话回复的事实性。

📝 摘要（中文）

大型语言模型（LLMs）在许多自然语言处理任务中取得了成功。然而，它们容易产生幻觉——生成看似合理但不一致或在事实上不正确的文本——这会在某些任务中引起严重问题，包括对话中的回复生成。为了缓解这个问题，我们提出了两种新颖的图知识增强框架，即通过文本化图的对话回复生成（TG-DRG）和图感知对话回复生成（GA-DRG），它们结合了推理引导的对话重构、对话语义知识选择和图增强的回复生成，以提高对话回复的事实性。为了评估生成回复的事实性，我们提出了一个对话事实性得分，该得分解决了现有事实性得分方法在对话设置中的局限性，从而提供了对事实一致性的更可靠评估。我们在OpendialKG和HybriDialogue数据集上使用不同的基线评估了我们的方法。与其他图知识增强基线（包括最先进的G-retriever）相比，我们的方法显着提高了事实性，在对话事实性得分方面，在OpendialKG上提高了3.47％，在HybriDialogue上提高了3.12％。代码将在GitHub上发布。

🔬 方法详解

问题定义：现有对话生成模型，特别是基于大型语言模型的模型，容易产生“幻觉”，即生成看似合理但与事实不符的回复。这在需要事实准确性的对话场景中是一个严重的问题。现有评估回复事实性的方法在对话场景中存在局限性，无法准确衡量回复的事实一致性。

核心思路：论文的核心思路是通过引入外部知识图谱，并利用图结构信息来增强对话生成模型，从而减少“幻觉”的产生。具体来说，通过推理引导的对话重构，对话语义知识选择和图增强的回复生成，使得模型在生成回复时能够更好地利用知识图谱中的信息，从而提高回复的事实性。

技术框架：论文提出了两种框架：TG-DRG（Dialogue Response Generation via Textualised Graphs）和GA-DRG（Graph-Aware Dialogue Response Generation）。两种框架都包含以下几个主要模块：1) 推理引导的对话重构：对原始对话进行重构，使其更适合知识图谱的查询。2) 对话语义知识选择：从知识图谱中选择与对话相关的知识子图。3) 图增强的回复生成：利用选择的知识子图来指导回复的生成。TG-DRG将知识图谱文本化，然后输入到生成模型中；GA-DRG则直接利用图结构信息来增强生成模型。

关键创新：论文的关键创新在于将图知识引入到对话生成中，并提出了两种不同的图知识增强框架。此外，论文还提出了一个对话事实性得分，用于更准确地评估对话回复的事实一致性，解决了现有评估方法在对话场景中的局限性。

关键设计：在TG-DRG中，知识图谱被文本化为三元组序列，然后与对话上下文一起输入到Transformer模型中。在GA-DRG中，使用图神经网络（GNN）来编码知识图谱，并将GNN的输出与对话上下文的表示进行融合，然后用于指导回复的生成。对话事实性得分的计算方式未知，需要参考论文具体细节。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的TG-DRG和GA-DRG框架在OpendialKG和HybriDialogue数据集上都取得了显著的提升。具体来说，在OpendialKG数据集上，对话事实性得分提高了3.47%；在HybriDialogue数据集上，对话事实性得分提高了3.12%。这些提升超过了现有的图知识增强基线方法，包括state-of-the-art的G-retriever。

🎯 应用场景

该研究成果可应用于需要高信息准确度的对话系统，例如医疗问答、金融客服等领域。通过提升对话回复的事实性，可以提高用户对对话系统的信任度，并减少错误信息带来的风险。未来，该技术可以进一步扩展到其他自然语言生成任务中，例如新闻摘要、机器翻译等。

📄 摘要（原文）

Large Language Models (LLMs) succeed in many natural language processing tasks. However, their tendency to hallucinate - generate plausible but inconsistent or factually incorrect text - can cause significant problems in certain tasks, including response generation in dialogue. To mitigate this issue, we propose two novel graph knowledge-augmented frameworks, Dialogue Response Generation via Textualised Graphs (TG-DRG) and Graph-Aware Dialogue Response Generation (GA-DRG), which combine reasoning-guided dialogue reformulation, dialogue sense knowledge selection, and graph-enhanced response generation to improve the factuality of dialogue responses. To evaluate the factuality of generated responses, we propose a dialogue fact score that addresses the limitations of existing fact-score methods in dialogue settings, providing a more reliable assessment of factual consistency. We evaluate our methods using different baselines on the OpendialKG and HybriDialogue datasets. Our methods noticeably improve factuality compared to other graph knowledge-augmentation baselines, including the state-of-the-art G-retriever, achieving improvements of 3.47% on OpendialKG and 3.12% on HybriDialogue in terms of dialogue fact score. The code will be released on GitHub.

Improving Factuality for Dialogue Response Generation via Graph-Based Knowledge Augmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理