BOE-XSUM: Extreme Summarization in Clear Language of Spanish Legal Decrees and Notifications

作者: Andrés Fernández García, Javier de la Rosa, Julio Gonzalo, Roser Morante, Enrique Amigó, Alejandro Benito-Santos, Jorge Carrillo-de-Albornoz, Víctor Fresno, Adrian Ghajari, Guillermo Marco, Laura Plaza, Eva Sánchez Salido

分类: cs.CL

发布日期: 2025-09-29

备注: Published in SEPLN 2025. 20 pages, 4 figures

💡 一句话要点

BOE-XSUM：发布西班牙法律公文的明晰语言极端摘要数据集，并验证微调LLM的有效性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 极端摘要 西班牙语 法律公文 数据集构建 大型语言模型微调

📋 核心要点

法律领域西班牙语文档摘要资源匮乏，难以应对日益增长的信息过载问题。
构建了BOE-XSUM数据集，包含西班牙官方公报的文档及其人工撰写的简洁摘要。
实验表明，在BOE-XSUM上微调的中型LLM显著优于通用零样本模型，性能提升明显。

📝 摘要（中文）

由于信息过载，简洁地总结长文档的能力在日常生活中变得越来越重要。然而，对于西班牙语文档，特别是在法律领域，非常缺乏此类摘要。本文提出了BOE-XSUM，这是一个精心策划的数据集，包含3648份来自西班牙国家官方公报（BOE）的文档的简洁、通俗易懂的摘要。数据集中的每个条目都包含一个简短的摘要、原始文本及其文档类型标签。我们评估了在中等规模的大型语言模型（LLM）上进行BOE-XSUM微调的性能，并将其与零样本设置下的通用生成模型进行比较。结果表明，微调后的模型明显优于非专业模型。值得注意的是，性能最佳的模型——BERTIN GPT-J 6B（32位精度）——比最佳零样本模型DeepSeek-R1的准确率提高了24%（分别为41.6%和33.5%）。

🔬 方法详解

问题定义：现有方法缺乏针对西班牙法律公文的有效摘要能力，通用摘要模型难以适应法律领域的专业术语和行文风格，导致摘要质量不高。此外，缺乏高质量的西班牙法律公文摘要数据集，限制了相关研究的开展。

核心思路：通过构建高质量的BOE-XSUM数据集，并利用该数据集对中等规模的LLM进行微调，使其能够更好地理解和生成西班牙法律公文的摘要。核心在于利用领域数据进行模型适配，提升模型在特定领域的性能。

技术框架：该研究主要包含两个阶段：1）构建BOE-XSUM数据集，包括收集西班牙官方公报（BOE）的文档，并由专业人员撰写简洁、通俗易懂的摘要；2）选择中等规模的LLM（如BERTIN GPT-J 6B），并在BOE-XSUM数据集上进行微调。然后，将微调后的模型与通用零样本模型（如DeepSeek-R1）进行比较。

关键创新：关键创新在于构建了高质量的西班牙法律公文摘要数据集BOE-XSUM，填补了该领域的空白。此外，通过微调中等规模的LLM，在计算资源有限的情况下，实现了显著的性能提升，为领域特定摘要任务提供了一种有效的解决方案。

关键设计：选择了BERTIN GPT-J 6B作为微调的基础模型，该模型具有较好的性能和适中的规模。使用32位精度进行训练。实验中，将微调后的模型与DeepSeek-R1等通用零样本模型进行比较，采用准确率作为评估指标。具体参数设置和损失函数等细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在BOE-XSUM数据集上微调的BERTIN GPT-J 6B模型，其准确率达到41.6%，比最佳零样本模型DeepSeek-R1（准确率33.5%）提高了24%。这表明，通过领域数据微调，可以显著提升LLM在特定领域的摘要性能，即使是中等规模的模型也能取得优异表现。

🎯 应用场景

该研究成果可应用于法律信息检索、法律咨询、智能政务等领域。通过自动生成法律公文的简洁摘要，可以帮助法律从业者、政府工作人员和普通民众快速了解法律法规的内容，提高工作效率和法律知识普及程度。未来，该方法可以推广到其他语言和法律体系，促进法律信息的智能化处理。

📄 摘要（原文）

The ability to summarize long documents succinctly is increasingly important in daily life due to information overload, yet there is a notable lack of such summaries for Spanish documents in general, and in the legal domain in particular. In this work, we present BOE-XSUM, a curated dataset comprising 3,648 concise, plain-language summaries of documents sourced from Spain's ``Boletín Oficial del Estado'' (BOE), the State Official Gazette. Each entry in the dataset includes a short summary, the original text, and its document type label. We evaluate the performance of medium-sized large language models (LLMs) fine-tuned on BOE-XSUM, comparing them to general-purpose generative models in a zero-shot setting. Results show that fine-tuned models significantly outperform their non-specialized counterparts. Notably, the best-performing model -- BERTIN GPT-J 6B (32-bit precision) -- achieves a 24\% performance gain over the top zero-shot model, DeepSeek-R1 (accuracies of 41.6\% vs.\ 33.5\%).

BOE-XSUM: Extreme Summarization in Clear Language of Spanish Legal Decrees and Notifications

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理