Leveraging Large Language Models for Building Interpretable Rule-Based Data-to-Text Systems

📄 arXiv: 2502.20609v1 📥 PDF

作者: Jędrzej Warczyński, Mateusz Lango, Ondrej Dusek

分类: cs.CL, cs.AI

发布日期: 2025-02-28


💡 一句话要点

利用大型语言模型构建可解释的规则型数据到文本系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据到文本生成 大型语言模型 可解释性 规则型系统 WebNLG数据集

📋 核心要点

  1. 现有的神经数据到文本模型可解释性差,难以调试和信任,规则型系统虽然可解释但构建成本高昂。
  2. 利用LLM自动生成规则型数据到文本系统,将数据转换规则显式地表达为Python代码,保证了系统的可解释性。
  3. 实验表明,该方法生成的文本质量优于直接prompt LLM,且幻觉更少,同时推理速度远快于神经模型。

📝 摘要(中文)

本文提出了一种简单的方法,该方法利用大型语言模型(LLM)自动实现一个完全可解释的、基于规则的数据到文本系统,并使用纯Python编写。在WebNLG数据集上的实验评估表明,这种构建的系统比直接提示LLM生成文本的质量更好(根据BLEU和BLEURT指标),并且比在相同数据上微调的BART语言模型产生的幻觉更少。此外,在运行时,该方法仅使用单个CPU,生成文本的处理时间仅为神经方法所需时间的一小部分。

🔬 方法详解

问题定义:论文旨在解决数据到文本生成任务中,神经模型可解释性差以及传统规则系统构建成本高的问题。现有神经模型如BART虽然生成质量较高,但缺乏透明度,难以理解其决策过程,也容易产生幻觉。而人工构建规则系统虽然可解释,但需要大量的人工干预和领域知识,成本高昂。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大生成能力,自动生成可解释的规则型数据到文本系统。通过精心设计的prompt,引导LLM将数据到文本的转换逻辑表达为一系列明确的规则,这些规则以Python代码的形式呈现,从而实现系统的可解释性。

技术框架:该方法的核心流程如下:1) 设计合适的prompt,输入给LLM,prompt中包含数据到文本转换的指令和示例。2) LLM根据prompt生成Python代码,该代码定义了一系列规则,用于将输入数据转换为文本。3) 执行生成的Python代码,将输入数据转换为文本输出。整个框架的关键在于prompt的设计,需要能够引导LLM生成高质量且可执行的Python代码。

关键创新:该方法最重要的创新点在于利用LLM自动构建可解释的规则型数据到文本系统。与传统的神经模型相比,该方法生成的系统具有更高的可解释性,因为其转换逻辑以明确的规则形式呈现。与人工构建规则系统相比,该方法大大降低了构建成本,并可以快速适应不同的数据和领域。

关键设计:prompt的设计是该方法的关键。prompt需要包含清晰的指令,例如“将以下数据转换为自然语言描述”,以及一些示例,展示了数据和文本之间的对应关系。此外,prompt还需要引导LLM生成符合特定格式的Python代码,例如使用特定的函数和数据结构。论文中可能还涉及一些超参数的调整,例如LLM的温度参数,以控制生成代码的多样性。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,该方法在WebNLG数据集上取得了显著的成果。与直接prompt LLM相比,该方法生成的文本在BLEU和BLEURT指标上均有提升。与在相同数据上微调的BART模型相比,该方法生成的文本幻觉更少,且推理速度更快,仅使用单个CPU即可在极短时间内完成文本生成。

🎯 应用场景

该研究成果可应用于需要高可解释性的数据到文本生成场景,例如金融报告生成、医疗诊断报告生成、法律文件生成等。该方法能够生成易于理解和验证的文本,有助于提高用户对系统的信任度,并方便进行错误排查和调试。未来,该方法可以进一步扩展到其他自然语言处理任务中,例如机器翻译、文本摘要等。

📄 摘要(原文)

We introduce a simple approach that uses a large language model (LLM) to automatically implement a fully interpretable rule-based data-to-text system in pure Python. Experimental evaluation on the WebNLG dataset showed that such a constructed system produces text of better quality (according to the BLEU and BLEURT metrics) than the same LLM prompted to directly produce outputs, and produces fewer hallucinations than a BART language model fine-tuned on the same data. Furthermore, at runtime, the approach generates text in a fraction of the processing time required by neural approaches, using only a single CPU