BOE-XSUM: Extreme Summarization in Clear Language of Spanish Legal Decrees and Notifications
作者: Andrés Fernández García, Javier de la Rosa, Julio Gonzalo, Roser Morante, Enrique Amigó, Alejandro Benito-Santos, Jorge Carrillo-de-Albornoz, Víctor Fresno, Adrian Ghajari, Guillermo Marco, Laura Plaza, Eva Sánchez Salido
分类: cs.CL
发布日期: 2025-09-29
备注: Published in SEPLN 2025. 20 pages, 4 figures
💡 一句话要点
BOE-XSUM:发布西班牙法律公文的明晰语言极端摘要数据集,并验证微调LLM的有效性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 极端摘要 西班牙语 法律公文 数据集构建 大型语言模型微调
📋 核心要点
- 法律领域西班牙语文档摘要资源匮乏,难以应对日益增长的信息过载问题。
- 构建了BOE-XSUM数据集,包含西班牙官方公报的文档及其人工撰写的简洁摘要。
- 实验表明,在BOE-XSUM上微调的中型LLM显著优于通用零样本模型,性能提升明显。
📝 摘要(中文)
由于信息过载,简洁地总结长文档的能力在日常生活中变得越来越重要。然而,对于西班牙语文档,特别是在法律领域,非常缺乏此类摘要。本文提出了BOE-XSUM,这是一个精心策划的数据集,包含3648份来自西班牙国家官方公报(BOE)的文档的简洁、通俗易懂的摘要。数据集中的每个条目都包含一个简短的摘要、原始文本及其文档类型标签。我们评估了在中等规模的大型语言模型(LLM)上进行BOE-XSUM微调的性能,并将其与零样本设置下的通用生成模型进行比较。结果表明,微调后的模型明显优于非专业模型。值得注意的是,性能最佳的模型——BERTIN GPT-J 6B(32位精度)——比最佳零样本模型DeepSeek-R1的准确率提高了24%(分别为41.6%和33.5%)。
🔬 方法详解
问题定义:现有方法缺乏针对西班牙法律公文的有效摘要能力,通用摘要模型难以适应法律领域的专业术语和行文风格,导致摘要质量不高。此外,缺乏高质量的西班牙法律公文摘要数据集,限制了相关研究的开展。
核心思路:通过构建高质量的BOE-XSUM数据集,并利用该数据集对中等规模的LLM进行微调,使其能够更好地理解和生成西班牙法律公文的摘要。核心在于利用领域数据进行模型适配,提升模型在特定领域的性能。
技术框架:该研究主要包含两个阶段:1)构建BOE-XSUM数据集,包括收集西班牙官方公报(BOE)的文档,并由专业人员撰写简洁、通俗易懂的摘要;2)选择中等规模的LLM(如BERTIN GPT-J 6B),并在BOE-XSUM数据集上进行微调。然后,将微调后的模型与通用零样本模型(如DeepSeek-R1)进行比较。
关键创新:关键创新在于构建了高质量的西班牙法律公文摘要数据集BOE-XSUM,填补了该领域的空白。此外,通过微调中等规模的LLM,在计算资源有限的情况下,实现了显著的性能提升,为领域特定摘要任务提供了一种有效的解决方案。
关键设计:选择了BERTIN GPT-J 6B作为微调的基础模型,该模型具有较好的性能和适中的规模。使用32位精度进行训练。实验中,将微调后的模型与DeepSeek-R1等通用零样本模型进行比较,采用准确率作为评估指标。具体参数设置和损失函数等细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在BOE-XSUM数据集上微调的BERTIN GPT-J 6B模型,其准确率达到41.6%,比最佳零样本模型DeepSeek-R1(准确率33.5%)提高了24%。这表明,通过领域数据微调,可以显著提升LLM在特定领域的摘要性能,即使是中等规模的模型也能取得优异表现。
🎯 应用场景
该研究成果可应用于法律信息检索、法律咨询、智能政务等领域。通过自动生成法律公文的简洁摘要,可以帮助法律从业者、政府工作人员和普通民众快速了解法律法规的内容,提高工作效率和法律知识普及程度。未来,该方法可以推广到其他语言和法律体系,促进法律信息的智能化处理。
📄 摘要(原文)
The ability to summarize long documents succinctly is increasingly important in daily life due to information overload, yet there is a notable lack of such summaries for Spanish documents in general, and in the legal domain in particular. In this work, we present BOE-XSUM, a curated dataset comprising 3,648 concise, plain-language summaries of documents sourced from Spain's ``Boletín Oficial del Estado'' (BOE), the State Official Gazette. Each entry in the dataset includes a short summary, the original text, and its document type label. We evaluate the performance of medium-sized large language models (LLMs) fine-tuned on BOE-XSUM, comparing them to general-purpose generative models in a zero-shot setting. Results show that fine-tuned models significantly outperform their non-specialized counterparts. Notably, the best-performing model -- BERTIN GPT-J 6B (32-bit precision) -- achieves a 24\% performance gain over the top zero-shot model, DeepSeek-R1 (accuracies of 41.6\% vs.\ 33.5\%).