ViLegalNLI: Natural Language Inference for Vietnamese Legal Texts
作者: Nhung Thi-Hong Duong, Mai Ngoc Ho, Tin Van Huynh, Kiet Van Nguyen
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-04-30
备注: 33 pages, 17 figures
💡 一句话要点
提出ViLegalNLI,首个大规模越南语法律自然语言推理数据集,促进法律文本理解。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自然语言推理 越南语法律文本 大规模数据集 半自动数据生成 法律人工智能
📋 核心要点
- 现有越南语法律自然语言推理缺乏大规模、高质量的领域数据集,阻碍了相关技术的发展。
- 提出半自动数据生成框架,利用大语言模型生成假设,并进行系统质量验证,确保数据可靠性和法律一致性。
- 实验表明,少样本LLM在ViLegalNLI上表现优异,但性能受假设长度、词汇重叠和推理复杂性影响。
📝 摘要(中文)
本文介绍了ViLegalNLI,这是首个专门为法律领域构建的大规模越南语自然语言推理(NLI)数据集。该数据集包含42,012个前提-假设对,这些数据来源于官方法规文件,并标注了二元推理标签(蕴含和非蕴含)。它涵盖了多个法律领域,并反映了现实的法律推理场景,其特点是结构化逻辑、条件子句和领域特定的术语。为了构建ViLegalNLI,我们提出了一个半自动数据生成框架,该框架集成了大型语言模型以进行受控的假设生成和系统的质量验证程序。该框架结合了伪影缓解策略和跨模型验证,以提高注释的可靠性并确保法律一致性。生成的数据集捕获了各种推理模式,包括释义、逻辑蕴含和法律上无效的推理,从而为越南语法律推理任务提供了一个全面的基准。我们使用多语言模型、越南语特定的预训练语言模型和指令调整的大型语言模型对ViLegalNLI进行了广泛的实验。结果表明,少样本LLM配置始终能获得优异的性能,而性能受到假设长度、词汇重叠和推理复杂性的显着影响。跨领域评估进一步揭示了在不同法律领域推广法律推理的挑战。总的来说,ViLegalNLI为越南语法律NLI建立了一个基础基准,并支持法律推理、法规文本理解以及为法律分析和决策支持开发可靠的AI系统的未来研究。该数据集可公开用于研究目的。
🔬 方法详解
问题定义:论文旨在解决越南语法律文本自然语言推理(NLI)任务缺乏高质量、大规模数据集的问题。现有方法要么依赖人工标注,成本高昂且难以保证一致性,要么使用通用数据集,无法有效捕捉法律领域的复杂逻辑和专业术语。这导致模型在法律推理任务中表现不佳。
核心思路:论文的核心思路是利用大型语言模型(LLM)的生成能力,结合半自动化的数据生成和质量控制流程,高效构建大规模的ViLegalNLI数据集。通过控制LLM的生成过程,并引入伪影缓解和跨模型验证策略,确保数据集的质量和法律一致性。
技术框架:该框架主要包含以下几个阶段:1) 前提选择:从越南语官方法规文件中选择前提文本。2) 假设生成:使用LLM基于前提文本生成假设文本,并控制生成过程以覆盖不同的推理模式(如释义、逻辑蕴含等)。3) 质量验证:通过人工审核、跨模型验证等方式,对生成的数据进行质量评估和筛选,确保数据的准确性和一致性。4) 标签标注:对高质量的前提-假设对进行二元推理标签(蕴含/非蕴含)的标注。
关键创新:该方法的关键创新在于:1) 半自动化数据生成:利用LLM高效生成大量候选数据,降低了人工标注的成本。2) 伪影缓解策略:针对LLM生成数据中可能存在的偏差和噪声,引入了专门的缓解策略,提高了数据质量。3) 跨模型验证:使用多个模型对数据进行验证,进一步确保了数据的一致性和可靠性。
关键设计:在假设生成阶段,论文可能使用了特定的prompt工程技术,引导LLM生成符合要求的假设文本。在质量验证阶段,可能使用了基于规则或模型的自动评估方法,辅助人工审核。具体的损失函数和网络结构取决于实验中使用的LLM模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在ViLegalNLI数据集上,少样本LLM配置表现优异,显著优于传统的多语言模型和越南语特定预训练语言模型。同时,实验也揭示了假设长度、词汇重叠和推理复杂性对模型性能的影响,以及跨领域法律推理的挑战。
🎯 应用场景
ViLegalNLI数据集可应用于多个领域,包括法律文本理解、智能法律咨询、法律判决预测和法律法规检索等。该数据集能够促进越南语法律人工智能的发展,为法律从业者提供更高效、准确的辅助工具,并提升法律服务的智能化水平。
📄 摘要(原文)
In this article, we introduce ViLegalNLI, the first large-scale Vietnamese Natural Language Inference (NLI) dataset specifically constructed for the legal domain. The dataset consists of 42,012 premise-hypothesis pairs derived from official statutory documents and annotated with binary inference labels (Entailment and Non-entailment). It covers multiple legal domains and reflects realistic legal reasoning scenarios characterized by structured logic, conditional clauses, and domain-specific terminology. To construct ViLegalNLI, we propose a semi-automatic data generation framework that integrates large language models for controlled hypothesis generation and systematic quality validation procedures. The framework incorporates artifact mitigation strategies and cross-model validation to improve annotation reliability and ensure legal consistency. The resulting dataset captures diverse reasoning patterns, including paraphrasing, logical implication, and legally invalid inferences, thereby providing a comprehensive benchmark for Vietnamese legal inference tasks. We conduct extensive experiments on the ViLegalNLI using multilingual models, Vietnamese-specific pretrained language models, and instruction-tuned large language models. The results show that few-shot LLM configurations consistently achieve superior performance, while performance is significantly influenced by hypothesis length, lexical overlap, and reasoning complexity. Cross-domain evaluations further reveal the challenges of generalizing legal inference across distinct legal fields. Overall, ViLegalNLI establishes a foundational benchmark for Vietnamese legal NLI and supports future research in legal reasoning, statutory text understanding, and the development of reliable AI systems for legal analysis and decision support. The dataset is publicly available for research purposes.