Large Language Models for Summarizing Czech Historical Documents and Beyond
作者: Václav Tran, Jakub Šmíd, Jiří Martínek, Ladislav Lenc, Pavel Král
分类: cs.CL
发布日期: 2025-08-14
备注: Published in Proceedings of the 17th International Conference on Agents and Artificial Intelligence - Volume 2 (ICAART 2025). Official version: https://www.scitepress.org/Link.aspx?doi=10.5220/0013374100003890
💡 一句话要点
利用大型语言模型在捷克历史文档摘要任务中取得新突破
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 捷克语摘要 大型语言模型 历史文档 文本摘要 SumeCzech Posel od Čerchova 自然语言处理 低资源语言
📋 核心要点
- 捷克语,特别是历史文档的摘要任务,因语言复杂性和数据集稀缺而面临挑战。
- 论文利用Mistral和mT5等大型语言模型,探索其在捷克语摘要任务中的潜力。
- 论文在现代捷克语数据集SumeCzech上取得SOTA结果,并构建了新的历史捷克文档摘要数据集。
📝 摘要(中文)
文本摘要旨在将较长的文本缩短为简洁的版本,同时保留其基本含义和关键信息。虽然摘要任务在英语和其他高资源语言中得到了显著探索,但捷克文本摘要,特别是对于历史文档的摘要,由于语言复杂性和带注释数据集的稀缺性,仍然未被充分研究。诸如Mistral和mT5之类的大型语言模型已在许多自然语言处理任务和语言上表现出出色的结果。因此,我们采用这些模型进行捷克语摘要,从而产生了两个关键贡献:(1) 使用这些先进的模型在现代捷克语摘要数据集SumeCzech上实现了新的最先进的结果,以及 (2) 引入了一个名为Posel od Čerchova 的新数据集,用于历史捷克文档的摘要,并提供了基线结果。总之,这些贡献为推进捷克文本摘要提供了巨大的潜力,并为捷克历史文本处理的研究开辟了新的途径。
🔬 方法详解
问题定义:论文旨在解决捷克语文本摘要,特别是历史文档摘要任务中,由于缺乏高质量数据集和现有方法性能不足的问题。现有方法在处理捷克语,尤其是历史捷克语时,面临着语言复杂性和数据稀缺的挑战。
核心思路:论文的核心思路是利用预训练的大型语言模型(LLMs)如Mistral和mT5的强大能力,通过微调这些模型来适应捷克语摘要任务。同时,构建新的数据集来弥补历史捷克语数据不足的现状。
技术框架:论文主要包含两个部分:一是利用现有现代捷克语摘要数据集SumeCzech,微调LLMs并评估其性能;二是构建新的历史捷克语摘要数据集Posel od Čerchova,并提供基线结果。整体流程包括数据预处理、模型微调、评估和结果分析。
关键创新:论文的关键创新在于:1) 将先进的LLMs应用于捷克语摘要任务,并取得了SOTA结果;2) 构建了首个历史捷克语摘要数据集,为该领域的研究提供了宝贵资源。
关键设计:论文使用了Mistral和mT5等预训练模型,并针对捷克语摘要任务进行了微调。具体的技术细节,如微调的超参数设置、损失函数选择等,在摘要中没有详细说明,属于未知信息。Posel od Čerchova数据集的构建细节,如数据来源、标注方法等,也未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
论文在现代捷克语摘要数据集SumeCzech上,使用大型语言模型取得了新的state-of-the-art结果。此外,论文构建了名为Posel od Čerchova 的新数据集,用于历史捷克文档的摘要,并提供了基线结果,为后续研究奠定了基础。具体的性能数据和提升幅度在摘要中没有给出。
🎯 应用场景
该研究成果可应用于捷克历史文献的数字化和知识挖掘,例如自动生成历史新闻报道的摘要,帮助研究人员快速了解历史事件。此外,该方法也可推广到其他低资源语言的历史文档处理,具有重要的文化和社会价值。
📄 摘要(原文)
Text summarization is the task of shortening a larger body of text into a concise version while retaining its essential meaning and key information. While summarization has been significantly explored in English and other high-resource languages, Czech text summarization, particularly for historical documents, remains underexplored due to linguistic complexities and a scarcity of annotated datasets. Large language models such as Mistral and mT5 have demonstrated excellent results on many natural language processing tasks and languages. Therefore, we employ these models for Czech summarization, resulting in two key contributions: (1) achieving new state-of-the-art results on the modern Czech summarization dataset SumeCzech using these advanced models, and (2) introducing a novel dataset called Posel od Čerchova for summarization of historical Czech documents with baseline results. Together, these contributions provide a great potential for advancing Czech text summarization and open new avenues for research in Czech historical text processing.