ReLeVAnT: Relevance Lexical Vectors for Accurate Legal Text Classification
作者: Ishaan Gakhar, Harsh Nandwani
分类: cs.CL, cs.AI
发布日期: 2026-04-24
备注: 9 Pages, 2 figures
💡 一句话要点
提出ReLeVAnT框架,利用相关性词汇向量实现精准法律文本分类
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 法律文本分类 相关性词向量 n-gram处理 对比得分匹配 浅层神经网络
📋 核心要点
- 现有法律文档分类方法依赖结构化数据或高算力模型,限制了其在非结构化数据和资源受限场景的应用。
- ReLeVAnT框架通过提取文档的判别性特征,结合n-gram处理和对比得分匹配,实现高效的二元分类。
- 实验结果表明,ReLeVAnT在LexGLUE数据集上取得了优异的分类性能,准确率高达99.3%,F1值达到98.7%。
📝 摘要(中文)
本文提出了一种名为ReLeVAnT的法律文档二元分类框架,旨在解决非结构化数据语料库中法律文档分类的问题。该问题在起草动议、备忘录和大纲,以及案卷摘要、检索系统和训练数据管理等下游任务中至关重要。现有方法依赖于结构化数据、元数据或大型语言模型提取的元数据,以及多模态方法,需要大量的计算资源。ReLeVAnT从文档中不同类别之间的判别性特征入手,利用n-gram处理、对比得分匹配和浅层神经网络作为判别性分类的主要驱动力。该方法只需对每个语料库进行一次关键词提取,然后使用浅层分类器即可快速可靠地对文档进行分类,在LexGLUE数据集上实现了99.3%的准确率和98.7%的F1分数。
🔬 方法详解
问题定义:论文旨在解决法律文档的二元分类问题,即判断一个文档是否与特定的法律主题相关。现有方法通常依赖于文档的元数据(如标题、作者等)或使用大型语言模型提取信息,这限制了它们在缺乏元数据或计算资源有限的场景下的应用。此外,这些方法可能无法充分利用文档本身包含的判别性信息。
核心思路:ReLeVAnT的核心思路是利用文档中不同类别之间具有区分性的词汇特征来进行分类。通过提取和分析这些特征,可以有效地识别文档的相关性,而无需依赖外部元数据或复杂的模型。这种方法旨在提高分类的效率和准确性,同时降低对计算资源的需求。
技术框架:ReLeVAnT框架主要包括以下几个阶段:1) n-gram处理:将文档转换为n-gram序列,以便捕捉词汇之间的关系。2) 关键词提取:对每个语料库进行一次关键词提取,选择最具判别性的词汇。3) 对比得分匹配:计算文档与不同类别关键词之间的对比得分,衡量文档与每个类别的相关性。4) 浅层神经网络:使用浅层神经网络作为分类器,根据对比得分进行二元分类。
关键创新:ReLeVAnT的关键创新在于其利用对比得分匹配来衡量文档与不同类别之间的相关性。这种方法能够有效地捕捉文档中的判别性特征,而无需依赖复杂的模型或大量的训练数据。此外,ReLeVAnT采用一次性关键词提取策略,降低了计算成本,使其更适用于资源受限的场景。
关键设计:论文中对比得分匹配的具体计算方法未知,但可以推测是基于某种相似度度量,例如余弦相似度或Jaccard系数。浅层神经网络的具体结构(如层数、神经元数量)和损失函数(如交叉熵损失)未知,但可以根据具体任务进行调整。n-gram的大小是一个重要的参数,需要根据语料库的特点进行选择。
🖼️ 关键图片
📊 实验亮点
ReLeVAnT在LexGLUE数据集上取得了显著的成果,实现了99.3%的准确率和98.7%的F1分数。这些结果表明,该框架能够有效地识别法律文档的相关性,并且具有很高的分类性能。与现有方法相比,ReLeVAnT在保持高准确率的同时,降低了对计算资源的需求,使其更适用于实际应用。
🎯 应用场景
ReLeVAnT框架可应用于多种法律领域的下游任务,例如起草法律文书、案卷摘要、构建法律检索系统以及自动标注训练数据。该方法能够快速准确地识别相关法律文档,提高工作效率,降低人工成本,并为法律人工智能应用提供有力支持。未来,该框架可以扩展到其他领域的文本分类任务。
📄 摘要(原文)
The classification of legal documents from an unstructured data corpus has several crucial applications in downstream tasks. Documents relevant to court filings are key in use cases such as drafting motions, memos, and outlines, as well as in tasks like docket summarisation, retrieval systems, and training data curation. Current methods classify based on provided metadata, LLM-extracted metadata, or multimodal methods. These methods depend on structured data, metadata, and extensive computational power. This task is approached from a perspective of leveraging discriminative features in the documents between classes. The authors propose ReLeVAnT, a framework for legal document binary classification. ReLeVAnT utilises n-gram processing, contrastive score matching, and a shallow neural network as the primary drivers for discriminative classification. It leverages one-time keyword extraction per corpus, followed by a shallow classifier to swiftly and reliably classify documents with 99.3% accuracy and 98.7% F1 score on the LexGLUE dataset.