Evaluating and Improving Graph to Text Generation with Large Language Models

作者: Jie He, Yijun Yang, Wanqiu Long, Deyi Xiong, Victor Gutierrez-Basulto, Jeff Z. Pan

分类: cs.CL

发布日期: 2025-01-24 (更新: 2025-02-14)

备注: NAACL 2025

🔗 代码/项目: GITHUB

💡 一句话要点

评估并改进大型语言模型在图到文本生成任务中的表现，提出PlanGTG数据集。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图到文本生成 大型语言模型 知识图谱 Few-shot学习 数据集构建 PlanGTG 重排序 归因

📋 核心要点

现有大型语言模型在图到文本生成中，难以处理复杂图结构，尤其是在规划大量三元组时表现不佳。
论文提出一种基于多样性-难度的few-shot样本选择方法，并构建PlanGTG数据集，包含重排序和归因两个子任务。
实验表明，使用PlanGTG数据集进行few-shot学习和微调，能显著提升生成文本的质量，为该领域研究提供新方向。

📝 摘要（中文）

大型语言模型（LLMs）在各种任务中展现出巨大的潜力。然而，探索和提升LLMs在理解图结构方面的能力的研究仍然有限。为了弥补这一差距，我们对当前开源LLMs在图到文本生成任务中的prompting进行了全面评估。尽管我们探索了最优的prompting策略，并提出了一种新颖有效的基于多样性-难度的few-shot样本选择方法，但我们发现tuning-free方法带来的改进是渐进式的，因为LLMs难以规划复杂的图，特别是那些具有大量三元组的图。为了进一步提高LLMs在图序列规划和事实依据方面的能力，我们引入了一个新的图到文本数据集PlanGTG，该数据集标注了两个子任务：重排序和归因。通过广泛的自动和人工评估，我们证明了使用PlanGTG数据集，从few-shot学习和微调的角度来看，生成文本的质量都有显著提高。我们的研究为图到文本生成的新研究方向铺平了道路。PlanGTG数据集可在https://github.com/probe2/kg_text中找到。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在图到文本生成任务中，特别是处理复杂图结构时表现不佳的问题。现有方法难以有效利用图结构信息进行规划，尤其是在图包含大量三元组时，LLMs的生成质量会显著下降。这限制了LLMs在知识图谱相关任务中的应用。

核心思路：论文的核心思路是通过构建一个包含重排序和归因两个子任务的新数据集PlanGTG，来提升LLMs在图序列规划和事实依据方面的能力。通过在PlanGTG上进行few-shot学习和微调，使LLMs能够更好地理解和利用图结构信息，从而生成更高质量的文本。

技术框架：整体框架包括以下几个阶段：首先，对现有开源LLMs在图到文本生成任务上进行prompting策略的评估，并提出一种基于多样性-难度的few-shot样本选择方法。其次，构建PlanGTG数据集，该数据集包含图结构、对应的文本描述以及重排序和归因两个子任务的标注。最后，在PlanGTG数据集上进行few-shot学习和微调，并使用自动和人工评估指标来评估生成文本的质量。

关键创新：论文的关键创新在于：1) 提出了PlanGTG数据集，该数据集专门设计用于提升LLMs在图序列规划和事实依据方面的能力，包含重排序和归因两个子任务的标注。2) 提出了一种基于多样性-难度的few-shot样本选择方法，用于选择更具代表性和挑战性的样本进行学习，从而提高LLMs的泛化能力。

关键设计：PlanGTG数据集的关键设计在于其包含的重排序和归因两个子任务。重排序任务要求模型对图中的三元组进行重新排序，以更好地反映文本的叙述顺序。归因任务要求模型识别文本中每个词语对应的图结构部分，从而确保生成文本的事实依据。此外，论文还探索了不同的prompting策略，并根据实验结果选择了最优的策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用PlanGTG数据集进行few-shot学习和微调，能够显著提升生成文本的质量。具体而言，在自动评估指标和人工评估指标上，相比于基线模型，使用PlanGTG数据集训练的模型都取得了显著的提升。这证明了PlanGTG数据集的有效性，以及该方法在提升LLMs图到文本生成能力方面的潜力。

🎯 应用场景

该研究成果可应用于知识图谱问答、知识图谱补全、文本摘要生成等领域。通过提升LLMs在图到文本生成任务中的能力，可以更好地利用知识图谱中的信息，生成更准确、更流畅、更符合事实的文本描述，具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要（原文）

Large language models (LLMs) have demonstrated immense potential across various tasks. However, research for exploring and improving the capabilities of LLMs in interpreting graph structures remains limited. To address this gap, we conduct a comprehensive evaluation of prompting current open-source LLMs on graph-to-text generation tasks. Although we explored the optimal prompting strategies and proposed a novel and effective diversity-difficulty-based few-shot sample selection method, we found that the improvements from tuning-free approaches were incremental, as LLMs struggle with planning on complex graphs, particularly those with a larger number of triplets. To further improve LLMs in planning with graph sequences and grounding in truth, we introduce a new graph-to-text dataset, PlanGTG, annotated with two sub-tasks: reordering and attribution. Through extensive automatic and human evaluations, we demonstrate significant improvements in the quality of generated text from both few-shot learning and fine-tuning perspectives using the PlanGTG dataset. Our study paves the way for new research directions in graph-to-text generation. PlanGTG datasets can be found in https://github.com/probe2/kg_text.

Evaluating and Improving Graph to Text Generation with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理