Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

📄 arXiv: 2603.09434v1 📥 PDF

作者: Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya Purkayastha

分类: cs.CL, cs.AI

发布日期: 2026-03-10

备注: Accepted at LREC 2026


💡 一句话要点

揭示LLM叙事焦点偏差:道德推理优先于常识理解

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 常识推理 道德推理 叙事焦点偏差 基准数据集 CoMoral 推理感知训练

📋 核心要点

  1. 现有LLM在道德推理和常识理解之间存在失衡,倾向于优先考虑道德,忽略常识性错误。
  2. 论文提出CoMoral基准数据集,包含道德困境中嵌入的常识矛盾,用于评估LLM的常识推理能力。
  3. 实验发现LLM存在叙事焦点偏差,即对叙述者自身的常识错误识别能力弱于对其他角色的识别。

📝 摘要(中文)

大型语言模型(LLM)越来越多地部署在各种实际应用和用户社区中。因此,确保这些模型在道德上站得住脚并且具备知识感知能力至关重要。本文揭示了当前LLM的一个关键局限性——它们倾向于优先考虑道德推理而非常识理解。为了研究这种现象,我们引入了CoMoral,这是一个新颖的基准数据集,其中包含嵌入在道德困境中的常识矛盾。通过对不同模型规模的十个LLM进行广泛评估,我们发现现有模型始终难以在没有先验信号的情况下识别此类矛盾。此外,我们观察到一种普遍存在的叙事焦点偏差,即LLM更容易检测到归因于次要角色而非主要(叙述者)角色的常识矛盾。我们的综合分析强调需要加强推理感知训练,以提高大型语言模型的常识鲁棒性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在道德推理和常识理解之间存在的偏差问题。现有LLM在处理道德困境时,常常会忽略其中违反常识的矛盾之处,表现出道德推理优先于常识理解的倾向。这种偏差可能导致LLM在实际应用中做出不合理的决策。

核心思路:论文的核心思路是通过构建包含常识矛盾的道德困境数据集,来评估LLM的常识推理能力,并揭示其在处理道德问题时可能存在的偏差。通过分析LLM在不同情境下的表现,可以深入了解其推理机制,并为改进模型提供指导。

技术框架:论文主要包含以下几个阶段:1) 构建CoMoral数据集,该数据集包含一系列道德困境,每个困境中都嵌入了常识矛盾。2) 选择多个不同规模的LLM进行评估。3) 设计实验方案,评估LLM在识别常识矛盾方面的能力。4) 分析实验结果,揭示LLM的叙事焦点偏差。

关键创新:论文的关键创新在于:1) 提出了CoMoral数据集,这是一个专门用于评估LLM在道德困境中常识推理能力的新型基准。2) 揭示了LLM中存在的叙事焦点偏差,即LLM更容易检测到归因于次要角色而非主要角色的常识矛盾。

关键设计:CoMoral数据集的设计关键在于将常识矛盾巧妙地嵌入到道德困境中,使得LLM需要在理解道德情境的同时,识别出违反常识的逻辑错误。实验中,通过改变常识矛盾的归属对象(叙述者或次要角色),来观察LLM的识别能力差异。没有提及具体的参数设置、损失函数或网络结构,因为论文重点在于数据集构建和现象分析,而非模型结构创新。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有LLM在识别CoMoral数据集中的常识矛盾时表现不佳,即使是大型模型也难以有效识别。此外,实验还发现LLM存在显著的叙事焦点偏差,对叙述者自身的常识错误识别率明显低于对其他角色的识别率。这些发现揭示了当前LLM在常识推理方面的局限性,并为未来的研究方向提供了重要启示。

🎯 应用场景

该研究成果可应用于提升LLM在实际应用中的可靠性和安全性。例如,在自动驾驶、医疗诊断等领域,LLM需要具备准确的常识推理能力,以避免做出错误的决策。通过改进LLM的常识推理能力,可以提高其在这些领域的应用价值,并减少潜在风险。此外,该研究还可以促进对LLM推理机制的深入理解,为开发更智能、更可靠的人工智能系统提供理论指导。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly deployed across diverse real-world applications and user communities. As such, it is crucial that these models remain both morally grounded and knowledge-aware. In this work, we uncover a critical limitation of current LLMs -- their tendency to prioritize moral reasoning over commonsense understanding. To investigate this phenomenon, we introduce CoMoral, a novel benchmark dataset containing commonsense contradictions embedded within moral dilemmas. Through extensive evaluation of ten LLMs across different model sizes, we find that existing models consistently struggle to identify such contradictions without prior signal. Furthermore, we observe a pervasive narrative focus bias, wherein LLMs more readily detect commonsense contradictions when they are attributed to a secondary character rather than the primary (narrator) character. Our comprehensive analysis underscores the need for enhanced reasoning-aware training to improve the commonsense robustness of large language models.