PublicHearingBR: A Brazilian Portuguese Dataset of Public Hearing Transcripts for Summarization of Long Documents
作者: Leandro Carísio Fernandes, Guilherme Zeferino Rodrigues Dobins, Roberto Lotufo, Jayr Alencar Pereira
分类: cs.CL
发布日期: 2024-10-10 (更新: 2025-08-22)
备注: 23 pages
💡 一句话要点
提出了PublicHearingBR,一个用于巴西葡萄牙语长文档摘要的公共听证会记录数据集。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文档摘要 葡萄牙语 数据集 公开听证会 自然语言推理
📋 核心要点
- 现有葡萄牙语长文档摘要数据集匮乏,限制了相关技术的发展和评估。
- 构建了PublicHearingBR数据集,包含公开听证会记录、新闻文章和结构化摘要,旨在促进葡萄牙语长文档摘要研究。
- 提出了一个混合摘要系统作为基线,并探讨了评估大型语言模型生成摘要时面临的幻觉问题,提供了评估指标和标注数据。
📝 摘要(中文)
本文介绍了PublicHearingBR,一个为总结长文档而设计的巴西葡萄牙语数据集。该数据集由巴西众议院举行的公开听证会记录组成,并配有新闻文章和结构化摘要,其中包含参与听证会的人员及其陈述或意见。该数据集支持葡萄牙语长文档摘要系统的开发和评估。我们的贡献包括数据集本身、一个用于建立未来研究基线的混合摘要系统,以及对涉及大型语言模型的摘要评估指标的讨论,解决了生成摘要中的幻觉问题。作为讨论的结果,该数据集还包括用于评估葡萄牙语自然语言推理任务的标注数据。
🔬 方法详解
问题定义:论文旨在解决葡萄牙语长文档摘要任务缺乏高质量数据集的问题。现有方法在葡萄牙语上的表现受限于数据规模和质量,难以有效评估和提升模型性能。此外,使用大型语言模型进行摘要时,容易出现幻觉问题,即生成内容与原文不符,需要有效的评估方法来衡量摘要的真实性。
核心思路:论文的核心思路是构建一个包含真实场景数据的PublicHearingBR数据集,该数据集包含公开听证会记录、相关新闻报道和人工编写的结构化摘要。通过提供高质量的训练和评估数据,促进葡萄牙语长文档摘要技术的发展,并针对大型语言模型的幻觉问题,提供评估指标和标注数据。
技术框架:该研究主要围绕数据集的构建展开,并提供了一个混合摘要系统作为基线。数据集构建流程包括数据收集、清洗、标注等环节。混合摘要系统的具体架构未知,但其目的是为未来的研究提供一个可比较的基准。此外,论文还探讨了评估指标,并提供了用于评估自然语言推理任务的标注数据,以辅助评估摘要的真实性。
关键创新:该论文的关键创新在于构建了PublicHearingBR数据集,这是首个专门针对巴西葡萄牙语长文档摘要任务的大规模数据集。该数据集的特点在于其真实性和多样性,包含了真实的公开听证会记录和相关新闻报道,能够更好地反映实际应用场景。此外,论文还关注了大型语言模型在摘要任务中出现的幻觉问题,并提供了相应的评估指标和标注数据。
关键设计:关于数据集构建的具体细节(如数据清洗方法、标注规范等)以及混合摘要系统的具体参数设置、损失函数、网络结构等技术细节,论文摘要中并未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文构建了PublicHearingBR数据集,并提供了一个混合摘要系统作为基线。虽然摘要中没有给出具体的性能数据和提升幅度,但该数据集的发布为葡萄牙语长文档摘要研究提供了宝贵资源,并为评估大型语言模型的幻觉问题提供了新的思路和方法。
🎯 应用场景
该研究成果可应用于政治领域,例如自动生成公开听证会的摘要,帮助公众快速了解听证会内容。此外,该数据集和评估方法也可用于开发更可靠的葡萄牙语摘要系统,应用于新闻报道、法律文件等领域,提高信息获取效率。
📄 摘要(原文)
This paper introduces PublicHearingBR, a Brazilian Portuguese dataset designed for summarizing long documents. The dataset consists of transcripts of public hearings held by the Brazilian Chamber of Deputies, paired with news articles and structured summaries containing the individuals participating in the hearing and their statements or opinions. The dataset supports the development and evaluation of long document summarization systems in Portuguese. Our contributions include the dataset, a hybrid summarization system to establish a baseline for future studies, and a discussion of evaluation metrics for summarization involving large language models, addressing the challenge of hallucination in the generated summaries. As a result of this discussion, the dataset also includes annotated data to evaluate natural language inference tasks in Portuguese.