Normative Reasoning in Large Language Models: A Comparative Benchmark from Logical and Modal Perspectives

作者: Kentaro Ozeki, Risako Ando, Takanobu Morishita, Hirohiko Abe, Koji Mineshima, Mitsuhiro Okada

分类: cs.AI, cs.CL

发布日期: 2025-10-30 (更新: 2025-10-31)

备注: Accepted to the 8th BlackboxNLP Workshop at EMNLP 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出NeuBAROCO基准，对比评估LLM在逻辑和模态视角下的规范推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 规范推理 认知模态 逻辑推理 数据集 认知偏差 义务模态

📋 核心要点

现有研究对大型语言模型在规范推理（涉及义务、许可等模态）方面的能力探索不足，缺乏系统性评估。
论文通过对比LLM在规范模态和认知模态推理上的表现，并结合认知因素，评估其规范推理能力。
实验结果表明，LLM在规范推理中存在不一致性，并表现出与人类相似的认知偏差，揭示了逻辑一致性的挑战。

📝 摘要（中文）

规范推理是一种涉及规范或义务模态（如义务和许可）的推理。尽管大型语言模型（LLM）在各种推理任务中表现出了卓越的性能，但它们处理规范推理的能力仍未得到充分探索。本文从逻辑和模态的角度系统地评估了LLM在规范领域的推理能力。具体来说，为了评估LLM对规范模态的推理能力，我们将它们对规范模态的推理与对认知模态的推理进行了比较，因为它们具有共同的形式结构。为此，我们引入了一个新的数据集，涵盖了规范和认知领域中各种形式的推理模式，同时还结合了影响人类推理的非形式认知因素。结果表明，尽管LLM通常遵循有效的推理模式，但它们在特定类型的规范推理中表现出明显的矛盾，并表现出与人类推理心理学研究中观察到的相似的认知偏差。这些发现突出了LLM在规范推理中实现逻辑一致性的挑战，并为提高其可靠性提供了见解。所有数据和代码已在https://github.com/kmineshima/NeuBAROCO上公开发布。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLM）在规范推理方面的能力，特别是它们在处理涉及义务、许可等规范模态时的逻辑一致性。现有方法缺乏对LLM规范推理能力的系统性评估，并且没有充分考虑影响人类推理的认知因素。因此，LLM在规范推理方面可能存在不一致性和认知偏差，影响其可靠性。

核心思路：论文的核心思路是通过对比LLM在规范模态和认知模态推理上的表现来评估其规范推理能力。认知模态与规范模态具有相似的形式结构，因此可以作为评估规范推理的参照。此外，论文还考虑了影响人类推理的非形式认知因素，以更全面地评估LLM的推理能力。通过这种对比和分析，可以揭示LLM在规范推理中存在的不足和挑战。

技术框架：论文的技术框架主要包括以下几个部分：1) 构建一个新的数据集（NeuBAROCO），该数据集涵盖了规范和认知领域中各种形式的推理模式，并结合了非形式认知因素。2) 使用该数据集评估LLM在规范和认知模态推理上的表现。3) 分析LLM在不同类型的规范推理中是否存在不一致性，并识别其认知偏差。4) 将LLM的推理结果与人类的推理结果进行比较，以进一步了解LLM的推理特点。

关键创新：论文的关键创新在于：1) 提出了一个新的数据集NeuBAROCO，该数据集专门用于评估LLM在规范推理方面的能力，并考虑了认知因素。2) 通过对比LLM在规范模态和认知模态推理上的表现，提供了一种更全面的评估LLM规范推理能力的方法。3) 揭示了LLM在规范推理中存在的逻辑不一致性和认知偏差，为改进LLM的规范推理能力提供了新的见解。

关键设计：NeuBAROCO数据集的设计考虑了多种因素，包括：1) 涵盖了各种形式的推理模式，例如肯定前件、否定后件等。2) 包含了规范模态（如义务、许可）和认知模态（如知道、相信）。3) 结合了影响人类推理的非形式认知因素，例如框架效应、确认偏差等。在实验中，论文使用了多种LLM，并采用了标准的评估指标来衡量LLM的推理准确率和一致性。具体的参数设置和损失函数等技术细节在论文中进行了详细描述。

📊 实验亮点

实验结果表明，尽管LLM在某些规范推理任务中表现良好，但它们在特定类型的规范推理中表现出明显的不一致性，并且表现出与人类相似的认知偏差。例如，LLM在处理涉及义务冲突的推理时，容易出现逻辑错误。这些发现表明，LLM在规范推理方面仍存在很大的改进空间。

🎯 应用场景

该研究成果可应用于开发更可靠、更符合伦理规范的人工智能系统。例如，在法律、医疗等领域，需要AI系统进行规范推理，以做出符合法律法规和伦理道德的决策。该研究有助于提高AI系统在这些领域的应用可靠性和安全性，并为未来的AI伦理研究提供参考。

📄 摘要（原文）

Normative reasoning is a type of reasoning that involves normative or deontic modality, such as obligation and permission. While large language models (LLMs) have demonstrated remarkable performance across various reasoning tasks, their ability to handle normative reasoning remains underexplored. In this paper, we systematically evaluate LLMs' reasoning capabilities in the normative domain from both logical and modal perspectives. Specifically, to assess how well LLMs reason with normative modals, we make a comparison between their reasoning with normative modals and their reasoning with epistemic modals, which share a common formal structure. To this end, we introduce a new dataset covering a wide range of formal patterns of reasoning in both normative and epistemic domains, while also incorporating non-formal cognitive factors that influence human reasoning. Our results indicate that, although LLMs generally adhere to valid reasoning patterns, they exhibit notable inconsistencies in specific types of normative reasoning and display cognitive biases similar to those observed in psychological studies of human reasoning. These findings highlight challenges in achieving logical consistency in LLMs' normative reasoning and provide insights for enhancing their reliability. All data and code are released publicly at https://github.com/kmineshima/NeuBAROCO.

Normative Reasoning in Large Language Models: A Comparative Benchmark from Logical and Modal Perspectives

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理