The Moral Gap of Large Language Models

📄 arXiv: 2507.18523v1 📥 PDF

作者: Maciej Skorski, Alina Landowska

分类: cs.CL, cs.CY, cs.HC, cs.LG

发布日期: 2025-07-24

备注: preprint

DOI: 10.13140/RG.2.2.26221.70880


💡 一句话要点

揭示大型语言模型在道德推理上的局限性,表明微调模型优于提示工程。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 道德推理 微调 Transformer 提示工程

📋 核心要点

  1. 现有大型语言模型在道德推理任务中表现不足,难以准确识别和理解道德内容。
  2. 该研究通过对比实验,揭示了大型语言模型在道德推理上的局限性,并强调了微调的重要性。
  3. 实验结果表明,针对特定任务进行微调的模型在道德推理方面优于使用提示工程的大型语言模型。

📝 摘要(中文)

道德基础检测对于分析社会讨论和开发符合伦理的人工智能系统至关重要。虽然大型语言模型在各种任务中表现出色,但它们在专门的道德推理方面的性能仍不清楚。本研究首次全面比较了最先进的LLM和微调的transformers在Twitter和Reddit数据集上的表现,使用了ROC、PR和DET曲线分析。结果表明存在显著的性能差距,尽管进行了提示工程的努力,LLM仍表现出较高的假阴性率和对道德内容的系统性低检测。这些发现表明,对于道德推理应用,特定任务的微调仍然优于提示。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在道德推理任务中表现不佳的问题。现有方法,即直接使用LLM进行道德内容检测,存在高假阴性率和系统性低检测的问题,无法满足实际应用需求。现有方法依赖于提示工程,但效果有限。

核心思路:论文的核心思路是通过对比实验,证明针对特定任务进行微调的Transformer模型在道德推理方面优于直接使用LLM和提示工程。这种思路基于微调模型能够更好地学习特定任务的特征表示,从而提高性能。

技术框架:研究采用对比实验的框架。首先,选择Twitter和Reddit数据集作为道德推理任务的benchmark。然后,对比最先进的LLM(通过提示工程)和微调的Transformer模型在这些数据集上的性能。性能评估指标包括ROC曲线、PR曲线和DET曲线。

关键创新:该研究的关键创新在于首次全面比较了LLM和微调模型在道德推理任务上的性能,并揭示了LLM在该任务上的局限性。此外,研究强调了特定任务微调的重要性,为后续研究提供了指导。

关键设计:研究的关键设计包括:1) 选择合适的LLM和Transformer模型;2) 设计有效的提示工程策略;3) 选择合适的微调策略;4) 使用ROC、PR和DET曲线进行全面的性能评估。具体参数设置和网络结构细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,尽管进行了提示工程的努力,大型语言模型在道德推理任务中仍表现出较高的假阴性率和对道德内容的系统性低检测。相比之下,针对特定任务进行微调的Transformer模型在ROC、PR和DET曲线等指标上均优于大型语言模型,证明了微调的有效性。

🎯 应用场景

该研究成果可应用于社交媒体内容审核、舆情分析、伦理风险评估等领域。通过提高道德内容检测的准确性,可以帮助识别和过滤有害信息,促进更健康的网络环境。未来,该研究可以扩展到其他语言和文化背景,并应用于开发更负责任和符合伦理的人工智能系统。

📄 摘要(原文)

Moral foundation detection is crucial for analyzing social discourse and developing ethically-aligned AI systems. While large language models excel across diverse tasks, their performance on specialized moral reasoning remains unclear. This study provides the first comprehensive comparison between state-of-the-art LLMs and fine-tuned transformers across Twitter and Reddit datasets using ROC, PR, and DET curve analysis. Results reveal substantial performance gaps, with LLMs exhibiting high false negative rates and systematic under-detection of moral content despite prompt engineering efforts. These findings demonstrate that task-specific fine-tuning remains superior to prompting for moral reasoning applications.