Reasoners or Translators? Contamination-aware Evaluation and Neuro-Symbolic Robustness in Tax Law

📄 arXiv: 2605.16052v1 📥 PDF

作者: Parisa Kordjamshidi, Samer Aslan, Madhavan Seshadri, Leslie Barrett, Enrico Santus

分类: cs.AI, cs.CL

发布日期: 2026-05-15


💡 一句话要点

提出污染感知评估方法,并验证神经符号框架在税法推理中更具鲁棒性和泛化性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 法律推理 神经符号 大型语言模型 数据污染 税法 形式化表示 符号求解器

📋 核心要点

  1. 现有大型语言模型在法律推理方面取得进展,但其性能可能受到数据污染的影响,无法真实反映推理能力。
  2. 论文提出一种污染检测协议,并对比单体LLM和神经符号系统,评估其在税法推理中的鲁棒性和泛化能力。
  3. 实验结果表明,神经符号框架在法律推理中更可靠,且对未见情况的泛化能力更强,优于单体LLM。

📝 摘要(中文)

大型语言模型(LLMs)的最新进展显著提升了自动化法律推理能力。然而,它们的性能是否反映了真正的法律推理能力,还是数据污染的产物,仍然不清楚。本文对税法推理方法进行了全面的实证研究,并实施了一种污染检测协议,以严格评估LLM的可靠性。研究表明,性能可能因污染而虚高。在此分析的基础上,我们进行了一项系统的评估,比较了单体LLM与混合系统,后者将法规文本翻译成形式化表示,并将推理委托给符号求解器。我们构建了一个新颖的测试套件,旨在通过案例和规则的变化来探测对未见文档的泛化能力。我们的研究结果表明,法律推理本质上是组合式的,神经符号框架为法律AI提供了更可靠和鲁棒的基础,并改善了对未观察到的情况的泛化能力。

🔬 方法详解

问题定义:现有的大型语言模型在法律推理任务中表现出一定的能力,但这些能力可能并非源于真正的推理,而是由于训练数据中存在污染,即模型在训练时已经见过了测试数据或与其高度相似的数据。这导致模型在测试集上的表现被高估,无法真实反映其泛化能力。此外,单体LLM在处理复杂的、组合式的法律推理问题时,缺乏明确的结构化知识表示和推理机制,难以保证推理的可靠性和鲁棒性。

核心思路:论文的核心思路是将法律推理任务分解为两个阶段:首先,将自然语言形式的法律条文翻译成形式化的逻辑表示;然后,利用符号求解器对这些逻辑表示进行推理,从而得到最终的结论。这种神经符号结合的方法旨在利用神经模型的强大表示能力和符号求解器的精确推理能力,从而提高法律推理的可靠性和鲁棒性。

技术框架:论文采用了一种神经符号框架,该框架包含以下几个主要模块:1) 文本编码器:用于将自然语言形式的法律条文编码成向量表示。2) 翻译器:将文本编码器的输出翻译成形式化的逻辑表示,例如一阶逻辑或规则。3) 符号求解器:利用形式化的逻辑表示进行推理,例如使用定理证明器或模型检查器。4) 污染检测模块:用于检测训练数据中是否存在与测试数据相似的样本,从而评估模型的可靠性。整体流程是,给定一个法律问题,首先使用文本编码器对问题和相关的法律条文进行编码,然后使用翻译器将编码后的文本翻译成形式化的逻辑表示,最后使用符号求解器对这些逻辑表示进行推理,得到最终的结论。

关键创新:论文的关键创新在于:1) 提出了一种污染感知的评估方法,用于检测和评估训练数据污染对模型性能的影响。2) 采用了一种神经符号框架,将神经模型的表示能力和符号求解器的推理能力相结合,从而提高了法律推理的可靠性和鲁棒性。3) 构建了一个新颖的测试套件,旨在通过案例和规则的变化来探测模型对未见文档的泛化能力。

关键设计:论文中关于神经符号框架的关键设计包括:1) 翻译器的设计:如何将自然语言文本准确地翻译成形式化的逻辑表示是一个关键问题。论文可能采用了基于序列到序列模型的翻译器,并结合了注意力机制和复制机制,以提高翻译的准确性。2) 符号求解器的选择:不同的符号求解器适用于不同的逻辑表示和推理任务。论文可能根据具体的法律推理任务选择了合适的符号求解器,例如定理证明器或模型检查器。3) 损失函数的设计:为了训练翻译器,论文可能设计了特定的损失函数,例如交叉熵损失或最大似然估计损失,并结合了正则化项,以防止过拟合。

📊 实验亮点

实验结果表明,神经符号框架在税法推理任务中表现出更强的鲁棒性和泛化能力,尤其是在面对未见过的案例和规则变化时。通过污染检测,发现单体LLM的性能可能被数据污染所高估。神经符号框架在特定测试集上相比单体LLM取得了显著的性能提升,证明了其在法律推理方面的优势。

🎯 应用场景

该研究成果可应用于自动化法律咨询、智能合同审查、法律法规合规性检查等领域。通过提高法律推理的可靠性和鲁棒性,有助于降低法律风险,提高法律服务的效率和质量,并为法律从业者提供更强大的辅助工具。未来,该技术有望促进法律知识的普及和法律服务的可及性。

📄 摘要(原文)

Recent advances in large language models (LLMs) have significantly enhanced automated legal reasoning. Yet, it remains unclear whether their performance reflects genuine legal reasoning ability or artifacts of data contamination. We present a comprehensive empirical study of tax law reasoning approaches and implement a contamination detection protocol to rigorously assess LLM reliability. We show that performance can be inflated by contamination. Building on this analysis, we conduct a systematic evaluation, comparing monolithic LLMs with hybrid systems that translate statutory text into formal representations and delegate inference to symbolic solvers. We build a novel test suite designed to probe generalization to unseen documents via case and rule variations. Our findings indicate that legal reasoning is inherently compositional and that neuro-symbolic frameworks offer a more reliable and robust foundation for legal AI, as well as improved generalization to unobserved situations.