A document processing pipeline for the construction of a dataset for topic modeling based on the judgments of the Italian Supreme Court

📄 arXiv: 2505.08439v1 📥 PDF

作者: Matteo Marulli, Glauco Panattoni, Marco Bertini

分类: cs.CL

发布日期: 2025-05-13

备注: 51 pages


💡 一句话要点

构建意大利最高法院判决主题建模数据集的文档处理流水线

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文档处理流水线 主题建模 法律文本分析 光学字符识别 文档布局分析

📋 核心要点

  1. 意大利法律领域缺乏公开的最高法院判决数据集,限制了法律主题建模和分析。
  2. 构建文档处理流水线,集成文档布局分析、OCR和文本匿名化,生成优化后的匿名数据集。
  3. 实验表明,该数据集能有效提升主题建模效果,多样性得分0.6198,连贯性得分0.6638。

📝 摘要(中文)

意大利法律研究中主题建模受限于缺乏公开数据集,阻碍了对最高法院判决中法律主题的分析。为了解决这个问题,我们开发了一个文档处理流水线,生成一个匿名化数据集,该数据集针对主题建模进行了优化。该流水线集成了文档布局分析(YOLOv8x)、光学字符识别和文本匿名化。DLA模块实现了0.964的mAP@50和0.800的mAP@50-95。OCR检测器达到了0.9022的mAP@50-95,文本识别器(TrOCR)获得了0.0047的字符错误率和0.0248的单词错误率。与仅使用OCR的方法相比,我们的数据集改进了主题建模,多样性得分达到0.6198,连贯性得分达到0.6638。我们应用BERTopic提取主题,并使用大型语言模型生成标签和摘要。输出结果根据领域专家的解释进行评估。Claude Sonnet 3.7在标签生成方面实现了0.8119的BERTScore F1,在摘要生成方面实现了0.9130的BERTScore F1。

🔬 方法详解

问题定义:论文旨在解决意大利法律研究中缺乏公开的最高法院判决数据集,从而限制了对法律主题进行有效建模和分析的问题。现有方法,如直接使用OCR技术,在处理法律文档时可能存在准确率不足、信息丢失等问题,导致主题建模效果不佳。

核心思路:论文的核心思路是构建一个完整的文档处理流水线,该流水线能够自动地从原始法律文档中提取文本信息,并对其进行预处理和匿名化,最终生成一个高质量、适合主题建模的数据集。通过集成文档布局分析、OCR和文本匿名化等技术,提高数据质量,从而提升主题建模的效果。

技术框架:该文档处理流水线主要包含以下几个模块:1) 文档布局分析(DLA):使用YOLOv8x模型检测文档中的不同区域,例如标题、正文等。2) 光学字符识别(OCR):将图像形式的文本转换为可编辑的文本格式。3) 文本匿名化:对文本中的敏感信息进行匿名化处理,以保护隐私。4) 主题建模:使用BERTopic算法提取文档中的主题。5) 标签和摘要生成:使用大型语言模型(如Claude Sonnet 3.7)自动生成主题的标签和摘要。

关键创新:该论文的关键创新在于构建了一个完整的、针对法律文档特点优化的文档处理流水线。该流水线不仅集成了现有的文档处理技术,还针对法律文档的特殊性进行了优化,例如,使用YOLOv8x进行文档布局分析,可以更准确地识别文档结构,从而提高OCR的准确率。此外,使用大型语言模型自动生成主题标签和摘要,可以减少人工标注的工作量。

关键设计:在文档布局分析模块中,使用了YOLOv8x模型,并针对法律文档的特点进行了训练。在OCR模块中,使用了TrOCR模型,并对其进行了微调,以提高字符识别的准确率。在文本匿名化模块中,使用了基于规则和机器学习的方法,对文本中的敏感信息进行识别和替换。在主题建模模块中,使用了BERTopic算法,并根据实验结果调整了参数,以获得更好的主题提取效果。在标签和摘要生成模块中,使用了Claude Sonnet 3.7模型,并根据领域专家的反馈进行了优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该文档处理流水线能够有效地提高主题建模的效果。DLA模块的mAP@50达到0.964,mAP@50-95达到0.800。OCR检测器的mAP@50-95达到0.9022,TrOCR的字符错误率为0.0047,单词错误率为0.0248。与仅使用OCR的方法相比,使用该流水线生成的数据集进行主题建模,多样性得分提高了0.6198,连贯性得分提高了0.6638。Claude Sonnet 3.7在标签生成和摘要生成方面分别实现了0.8119和0.9130的BERTScore F1。

🎯 应用场景

该研究成果可应用于法律信息检索、法律文本分析、法律咨询等领域。构建的数据集和处理流程能够帮助研究人员和法律从业者更有效地分析和理解法律文档,发现潜在的法律主题和趋势,为法律研究和实践提供支持。未来,该方法可以推广到其他语言和法律体系,构建更大规模、更高质量的法律数据集。

📄 摘要(原文)

Topic modeling in Italian legal research is hindered by the lack of public datasets, limiting the analysis of legal themes in Supreme Court judgments. To address this, we developed a document processing pipeline that produces an anonymized dataset optimized for topic modeling. The pipeline integrates document layout analysis (YOLOv8x), optical character recognition, and text anonymization. The DLA module achieved a mAP@50 of 0.964 and a mAP@50-95 of 0.800. The OCR detector reached a mAP@50-95 of 0.9022, and the text recognizer (TrOCR) obtained a character error rate of 0.0047 and a word error rate of 0.0248. Compared to OCR-only methods, our dataset improved topic modeling with a diversity score of 0.6198 and a coherence score of 0.6638. We applied BERTopic to extract topics and used large language models to generate labels and summaries. Outputs were evaluated against domain expert interpretations. Claude Sonnet 3.7 achieved a BERTScore F1 of 0.8119 for labeling and 0.9130 for summarization.