Evaluating LLM-Driven Summarisation of Parliamentary Debates with Computational Argumentation
作者: Eoghan Cunningham, Derek Greene, James Cross, Antonio Rago
分类: cs.CL
发布日期: 2026-04-21
备注: Accepted at KR'26 In The Wild Track. Camera ready to follow
💡 一句话要点
提出基于计算论证的框架,评估LLM生成的议会辩论摘要在论证内容上的忠实性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 计算论证 大型语言模型 自动摘要 议会辩论 论证评估
📋 核心要点
- 现有自动摘要评估指标难以准确衡量LLM生成摘要在论证内容上的忠实性,与人类判断一致性相关性差。
- 论文提出基于计算论证的评估框架,关注论证结构在摘要中的忠实保留,特别是对政策结果的推理。
- 通过欧洲议会辩论的案例研究,验证了该方法在评估LLM驱动摘要方面的有效性。
📝 摘要(中文)
理解政策在议会中如何被辩论和论证是民主进程的一个根本方面。然而,辩论的数量和复杂性使得外部受众难以参与。与此同时,大型语言模型(LLMs)已被证明能够实现大规模的自动摘要。虽然辩论摘要可以使议会程序更易于理解,但评估这些摘要是否忠实地传达了论证内容仍然具有挑战性。现有的自动摘要评估指标与人类对一致性的判断(即摘要和源之间的忠实性或对齐)的相关性较差。在这项工作中,我们提出了一个正式的框架,用于评估议会辩论摘要,该框架将论证结构建立在有争议的辩论提案之上。我们提出的新方法,由计算论证驱动,侧重于与忠实地保留用于证明或反对政策结果的推理相关的形式属性。我们使用来自欧洲议会的辩论和相关的LLM驱动的摘要的案例研究来演示我们的方法。
🔬 方法详解
问题定义:论文旨在解决如何评估大型语言模型(LLMs)生成的议会辩论摘要在论证内容上的忠实性问题。现有自动摘要评估指标,如ROUGE等,主要关注文本的字面重叠,无法有效衡量摘要是否准确地传达了原始辩论中的论证结构和推理过程。现有方法的痛点在于缺乏对论证一致性的有效评估手段。
核心思路:论文的核心思路是利用计算论证(Computational Argumentation)来形式化地表示和评估议会辩论中的论证结构。通过将辩论分解为提案、支持论点和反对论点,并分析它们之间的关系,可以更精确地评估摘要是否忠实地保留了这些论证要素。这种方法关注的是论证的逻辑一致性,而不仅仅是文本的相似性。
技术框架:该框架包含以下主要步骤:1) 从议会辩论文本中提取提案(Proposals)、支持论点(Arguments For)和反对论点(Arguments Against)。2) 使用计算论证技术,构建论证图(Argumentation Graph),表示提案与论点之间的支持/反对关系。3) 使用LLM生成辩论摘要。4) 从摘要中提取提案、支持论点和反对论点,并构建摘要的论证图。5) 比较原始辩论的论证图和摘要的论证图,评估摘要在论证结构上的忠实性。评估指标包括论证要素的保留率、论证关系的准确性等。
关键创新:该方法最重要的技术创新点在于将计算论证引入到LLM生成摘要的评估中。与传统的基于文本重叠的评估方法不同,该方法关注的是摘要在论证结构上的忠实性,能够更准确地反映摘要是否准确地传达了原始辩论的核心内容。这种方法提供了一种更具语义理解的评估方式。
关键设计:论文的关键设计包括:1) 使用特定的自然语言处理技术(具体技术未知)从辩论文本和摘要中提取论证要素。2) 定义了论证图的构建规则,明确了提案、支持论点和反对论点之间的关系表示方法。3) 设计了评估指标,用于量化摘要在论证结构上的忠实性。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文通过欧洲议会辩论的案例研究,验证了该方法的有效性。虽然具体的性能数据和对比基线未在摘要中给出,但该研究表明,基于计算论证的评估框架能够更准确地评估LLM生成摘要在论证内容上的忠实性,优于传统的基于文本重叠的评估方法。具体的提升幅度未知。
🎯 应用场景
该研究成果可应用于多个领域,包括:自动生成高质量的政策摘要,帮助公众更好地理解议会辩论;评估LLM在处理复杂论证文本时的能力;改进LLM的摘要生成算法,使其能够更好地保留论证结构。此外,该方法还可用于评估其他类型的论证性文本摘要,如法律文件、科学论文等。
📄 摘要(原文)
Understanding how policy is debated and justified in parliament is a fundamental aspect of the democratic process. However, the volume and complexity of such debates mean that outside audiences struggle to engage. Meanwhile, Large Language Models (LLMs) have been shown to enable automated summarisation at scale. While summaries of debates can make parliamentary procedures more accessible, evaluating whether these summaries faithfully communicate argumentative content remains challenging. Existing automated summarisation metrics have been shown to correlate poorly with human judgements of consistency (i.e., faithfulness or alignment between summary and source). In this work, we propose a formal framework for evaluating parliamentary debate summaries that grounds argument structures in the contested proposals up for debate. Our novel approach, driven by computational argumentation, focuses the evaluation on formal properties concerning the faithful preservation of the reasoning presented to justify or oppose policy outcomes. We demonstrate our methods using a case-study of debates from the European Parliament and associated LLM-driven summaries.