The Moralization Corpus: Frame-Based Annotation and Analysis of Moralizing Speech Acts across Diverse Text Genres
作者: Maria Becker, Mirko Sommer, Lars Tapken, Yi Wan Teh, Bruno Brocai
分类: cs.CL
发布日期: 2025-12-17
💡 一句话要点
提出道德化语料库以分析多样文本中的道德化言论
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 道德化 语料库 自然语言处理 框架标注 说服性沟通 大型语言模型 文本分析
📋 核心要点
- 道德化作为一种说服性沟通形式尚未得到充分研究,现有方法在识别和分析道德化言论时面临挑战。
- 本文提出了一种基于框架的标注方案,旨在捕捉道德化的构成要素,并应用于多种德语文本以进行深入分析。
- 实验结果显示,详细的提示指令显著提升了道德化检测的效果,且道德化任务的主观性和上下文敏感性依然是主要挑战。
📝 摘要(中文)
道德化是指通过道德价值观来为要求或立场辩护的论证形式,尚未得到充分研究。本文提出了道德化语料库,这是一个新颖的多体裁数据集,旨在分析道德价值在论证性话语中的战略使用。道德化具有语用复杂性和隐含性,给人类标注者和自然语言处理系统带来了显著挑战。我们开发了一种基于框架的标注方案,捕捉道德化的构成要素,并将其应用于多种德语文本。该语料库支持对道德化语言的细致分析,并评估了多种大型语言模型在道德化检测任务中的表现。结果表明,详细的提示指令对模型性能的影响大于少量示例或解释性提示,且道德化任务高度主观且受上下文影响。我们发布了所有数据、标注指南和代码,以促进未来在道德话语和道德推理方面的跨学科研究。
🔬 方法详解
问题定义:本文旨在解决道德化言论的识别和分析问题,现有方法在处理道德化的隐含性和复杂性方面存在不足。
核心思路:通过开发一种基于框架的标注方案,捕捉道德化的核心要素,如道德价值、要求和话语主体,从而提高分析的准确性和细致度。
技术框架:整体架构包括数据收集、框架标注、模型训练和评估四个主要阶段,涵盖多种德语文本类型。
关键创新:最重要的创新点在于提出了框架标注方案,能够系统性地捕捉道德化的构成要素,与现有方法相比,提供了更为细致的分析能力。
关键设计:在标注过程中,设置了明确的标注指南,采用了多种提示策略来评估大型语言模型的表现,确保了实验的系统性和可重复性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用详细的提示指令时,模型在道德化检测任务中的表现显著优于少量示例或解释性提示,显示出提示设计对模型性能的关键影响。道德化任务的主观性和上下文敏感性仍然是主要挑战。
🎯 应用场景
该研究的潜在应用领域包括政治传播、媒体分析和社会网络研究等,能够为理解道德话语的使用提供重要的实证基础。未来,该语料库和方法论可促进道德推理和道德化言论的自动化分析,推动相关领域的研究进展。
📄 摘要(原文)
Moralizations - arguments that invoke moral values to justify demands or positions - are a yet underexplored form of persuasive communication. We present the Moralization Corpus, a novel multi-genre dataset designed to analyze how moral values are strategically used in argumentative discourse. Moralizations are pragmatically complex and often implicit, posing significant challenges for both human annotators and NLP systems. We develop a frame-based annotation scheme that captures the constitutive elements of moralizations - moral values, demands, and discourse protagonists - and apply it to a diverse set of German texts, including political debates, news articles, and online discussions. The corpus enables fine-grained analysis of moralizing language across communicative formats and domains. We further evaluate several large language models (LLMs) under varied prompting conditions for the task of moralization detection and moralization component extraction and compare it to human annotations in order to investigate the challenges of automatic and manual analysis of moralizations. Results show that detailed prompt instructions has a greater effect than few-shot or explanation-based prompting, and that moralization remains a highly subjective and context-sensitive task. We release all data, annotation guidelines, and code to foster future interdisciplinary research on moral discourse and moral reasoning in NLP.