DeonticBench: A Benchmark for Reasoning over Rules

📄 arXiv: 2604.04443 📥 PDF

作者: Guangyao Dou, Luis Brena, Akhil Deo, William Jurayj, Jingyu Zhang, Nils Holzenberger, Benjamin Van Durme

分类: cs.CL

发布日期: 2026-04-07


💡 一句话要点

提出DeonticBench基准,用于评估LLM在复杂规则下的义务推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 义务推理 规则推理 大型语言模型 基准数据集 符号计算

📋 核心要点

  1. 现有LLM在复杂规则和上下文下的推理能力不足,尤其是在法律和政策领域的义务推理方面。
  2. DEONTICBENCH基准通过提供真实世界的法律和政策案例,支持语言推理和符号计算两种方法。
  3. 实验表明,现有LLM在DEONTICBENCH上表现不佳,需要进一步研究符号程序生成和推理能力。

📝 摘要(中文)

本文提出了DEONTICBENCH,一个用于评估大型语言模型(LLM)在复杂、特定上下文规则下推理能力的基准。该基准包含6232个任务,涵盖美国联邦税收、航空公司行李政策、美国移民管理和美国州住房法等领域。这些任务可以通过多种方式解决,包括直接的语言推理或借助符号计算。DEONTICBENCH支持自由形式的思维链推理,并提供可选的基于求解器的流程,模型可以将法规和案例事实转换为可执行的Prolog代码,从而实现正式的问题解释和显式程序跟踪。论文发布了所有实例的参考Prolog程序。在最先进的LLM和编码模型上,SARA Numeric硬子集的最佳性能仅为44.4%,Housing数据集上的宏平均F1值为46.6%。论文进一步研究了使用监督微调和强化学习进行符号程序生成的训练方法。虽然训练提高了Prolog生成质量,但当前的强化学习方法仍然无法可靠地解决这些任务。总而言之,DEONTICBENCH为研究真实世界领域中基于上下文的规则推理提供了基准,适用于符号和非符号设置。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在复杂、上下文相关的规则下进行推理的难题,特别是在法律和政策领域中的义务推理(deontic reasoning)。现有方法在处理长上下文、高风险的义务推理任务时表现不足,缺乏专门的基准来评估和提升LLM在此方面的能力。

核心思路:论文的核心思路是构建一个高质量的基准数据集,该数据集包含来自真实世界法律和政策领域的复杂规则和案例,并提供多种解决问题的方式,包括直接的语言推理和基于符号计算的推理。通过这个基准,可以更有效地评估和提升LLM在义务推理方面的能力。

技术框架:DEONTICBENCH基准包含以下几个关键组成部分:1) 数据集:包含6232个任务,涵盖美国联邦税收、航空公司行李政策、美国移民管理和美国州住房法等领域。2) 任务类型:支持多种任务类型,包括直接的语言推理和基于符号计算的推理。3) 评估指标:使用准确率、F1值等指标评估模型的性能。4) 参考程序:提供所有实例的参考Prolog程序,用于符号计算推理。5) 可选的基于求解器的流程:模型可以将法规和案例事实转换为可执行的Prolog代码,从而实现正式的问题解释和显式程序跟踪。

关键创新:DEONTICBENCH的关键创新在于其专注于长上下文、高风险的义务推理任务,并提供了一个全面的基准数据集,涵盖了多个真实世界的法律和政策领域。此外,该基准还支持多种解决问题的方式,包括直接的语言推理和基于符号计算的推理,从而为研究人员提供了更灵活的实验平台。

关键设计:DEONTICBENCH的关键设计包括:1) 数据集的构建:从真实世界的法律和政策文档中提取规则和案例,并进行人工标注和验证。2) 任务的生成:根据规则和案例生成推理任务,并确保任务的难度和多样性。3) Prolog程序的编写:为每个任务编写参考Prolog程序,用于符号计算推理。4) 评估指标的选择:选择合适的评估指标来衡量模型的性能,例如准确率、F1值等。

📊 实验亮点

实验结果表明,现有最先进的LLM和编码模型在DEONTICBENCH上的性能仍然有限,SARA Numeric硬子集的最佳性能仅为44.4%,Housing数据集上的宏平均F1值为46.6%。通过监督微调和强化学习进行符号程序生成的训练可以提高Prolog生成质量,但当前的强化学习方法仍然无法可靠地解决这些任务。这些结果表明,LLM在复杂规则下的推理能力仍有很大的提升空间。

🎯 应用场景

DEONTICBENCH的研究成果可应用于法律咨询、政策制定、合规性检查等领域。通过提升LLM在义务推理方面的能力,可以帮助人们更好地理解和应用法律法规,提高决策的准确性和效率,并降低法律风险。未来,该研究还可扩展到其他领域,如医疗、金融等,为各行各业提供更智能的决策支持。

📄 摘要(原文)

Reasoning with complex, context-specific rules remains challenging for large language models (LLMs). In legal and policy settings, this manifests as deontic reasoning: reasoning about obligations, permissions, and prohibitions under explicit rules. While many recent benchmarks emphasize short-context mathematical reasoning, fewer focus on long-context, high-stakes deontic reasoning. To address this gap, we introduce DEONTICBENCH, a benchmark of 6,232 tasks across U.S. federal taxes, airline baggage policies, U.S. immigration administration, and U.S. state housing law. These tasks can be approached in multiple ways, including direct reasoning in language or with the aid of symbolic computation. Besides free-form chain-of-thought reasoning, DEONTICBENCH enables an optional solver-based workflow in which models translate statutes and case facts into executable Prolog, leading to formal problem interpretations and an explicit program trace. We release reference Prolog programs for all instances. Across frontier LLMs and coding models, best hard-subset performance reaches only 44.4% on SARA Numeric and 46.6 macro-F1 on Housing. We further study training with supervised fine-tuning and reinforcement learning for symbolic program generation. Although training improves Prolog generation quality, current RL methods still fail to solve these tasks reliably. Overall, DEONTICBENCH provides a benchmark for studying context-grounded rule reasoning in real-world domains under both symbolic and non-symbolic settings.