Large Language Model for Extracting Complex Contract Information in Industrial Scenes

📄 arXiv: 2507.06539v2 📥 PDF

作者: Yunyang Cao, Yanjun Li, Silong Dai

分类: cs.CL

发布日期: 2025-07-09 (更新: 2025-07-10)

期刊: Proceedings of the 42nd International Conference on Machine Learning Workshop NewInML, Vancouver, Canada. PMLR 267, 2025


💡 一句话要点

提出一种基于大语言模型的工业场景复杂合同信息抽取方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 合同信息抽取 大语言模型 数据增强 LoRA微调 工业场景 GPT-4 GPT-3.5

📋 核心要点

  1. 现有方法在工业场景复杂合同信息抽取中面临数据质量和模型鲁棒性挑战。
  2. 利用GPT进行数据标注和增强,结合LoRA微调大语言模型,提升抽取性能。
  3. 实验表明,该方法在保证效率的同时,显著提升了信息抽取的准确性和鲁棒性。

📝 摘要(中文)

本文提出了一种高质量的数据集构建方法,用于工业场景中复杂的合同信息抽取任务,并基于此数据集对大型语言模型进行了微调。首先,对工业合同文本进行聚类分析,并利用GPT-4和GPT-3.5从原始合同数据中提取关键信息,从而获得高质量的数据标注。其次,通过构建新文本来实现数据增强,GPT-3.5从随机组合的关键词生成非结构化的合同文本,提高了模型的鲁棒性。最后,基于高质量的数据集对大型语言模型进行微调。实验结果表明,该模型在保证高领域召回率和精确率,并兼顾解析效率的同时,实现了卓越的整体性能。LoRA、数据平衡和数据增强有效地提高了模型的准确性和鲁棒性。该方法为工业合同信息抽取任务提供了一种新颖而有效的解决方案。

🔬 方法详解

问题定义:工业场景下的合同信息抽取任务面临着合同文本复杂、信息量大、人工标注成本高等问题。现有方法通常依赖于人工标注或简单的规则匹配,效率低且难以处理复杂的合同条款。此外,模型在面对不同类型的合同文本时,鲁棒性较差,难以泛化到新的场景。

核心思路:本文的核心思路是利用大型语言模型(LLM)的强大语义理解和生成能力,结合高质量的数据集和有效的微调策略,实现高效、准确的合同信息抽取。通过GPT-4和GPT-3.5进行数据标注,降低人工成本,提高数据质量。利用GPT-3.5生成非结构化文本进行数据增强,提升模型的鲁棒性。

技术框架:该方法主要包含三个阶段:1) 数据集构建:首先对工业合同文本进行聚类分析,然后利用GPT-4和GPT-3.5提取关键信息进行标注。2) 数据增强:利用GPT-3.5从随机组合的关键词生成非结构化的合同文本。3) 模型微调:基于高质量的数据集,使用LoRA(Low-Rank Adaptation)对大型语言模型进行微调。

关键创新:该方法的主要创新点在于:1) 提出了一种基于LLM的自动化数据标注和增强方法,有效降低了人工成本,提高了数据质量和多样性。2) 结合LoRA微调策略,在保证模型性能的同时,降低了计算资源消耗。

关键设计:在数据标注阶段,使用GPT-4进行初步标注,然后使用GPT-3.5进行校对和补充,以保证标注质量。在数据增强阶段,通过随机组合关键词生成新的合同文本,并控制文本的复杂度和多样性。在模型微调阶段,使用LoRA对预训练的LLM进行微调,并采用数据平衡策略,以解决类别不平衡问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在工业合同信息抽取任务中取得了显著的性能提升。通过LoRA微调,模型在保证高领域召回率和精确率的同时,兼顾了解析效率。数据平衡和数据增强策略有效地提高了模型的准确性和鲁棒性。具体性能数据未知,但强调了整体性能的卓越表现。

🎯 应用场景

该研究成果可广泛应用于金融、法律、制造等行业的合同管理领域。通过自动抽取合同中的关键信息,可以提高合同审核、风险评估和合规性检查的效率,降低人工成本,并为企业决策提供数据支持。未来,该技术还可以扩展到其他类型的文档信息抽取任务,例如财务报表分析、专利信息检索等。

📄 摘要(原文)

This paper proposes a high-quality dataset construction method for complex contract information extraction tasks in industrial scenarios and fine-tunes a large language model based on this dataset. Firstly, cluster analysis is performed on industrial contract texts, and GPT-4 and GPT-3.5 are used to extract key information from the original contract data, obtaining high-quality data annotations. Secondly, data augmentation is achieved by constructing new texts, and GPT-3.5 generates unstructured contract texts from randomly combined keywords, improving model robustness. Finally, the large language model is fine-tuned based on the high-quality dataset. Experimental results show that the model achieves excellent overall performance while ensuring high field recall and precision and considering parsing efficiency. LoRA, data balancing, and data augmentation effectively enhance model accuracy and robustness. The proposed method provides a novel and efficient solution for industrial contract information extraction tasks.