Extended Japanese Commonsense Morality Dataset with Masked Token and Label Enhancement

📄 arXiv: 2410.09564v1 📥 PDF

作者: Takumi Ohashi, Tsubasa Nakagawa, Hitoshi Iyatomi

分类: cs.CL, cs.AI

发布日期: 2024-10-12

期刊: Proceedings of the 33rd ACM International Conference on Information and Knowledge Management (CIKM '24), October 21--25, 2024, Boise, ID, USA

DOI: 10.1145/3627673.3679924


💡 一句话要点

提出MTLE方法扩展日文常识道德数据集,提升AI道德推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 道德推理 数据集增强 文化敏感性 自然语言处理 大型语言模型 日文常识 AI伦理 掩码语言模型

📋 核心要点

  1. 现有AI模型和数据集在道德推理方面忽略了区域和文化差异,尤其缺乏针对特定文化背景的数据集。
  2. 提出Masked Token and Label Enhancement (MTLE)方法,通过掩码和替换关键token来扩展日文常识道德数据集。
  3. 实验表明,使用扩展后的数据集训练的模型在道德推理任务上取得了显著提升,尤其是在日本文化相关的复杂场景中。

📝 摘要(中文)

人工智能的快速发展使得将道德推理融入AI系统至关重要。然而,现有的模型和数据集常常忽略区域和文化差异。为了解决这一不足,我们扩展了JCommonsenseMorality (JCM)数据集,这是唯一公开可用的专注于日本道德的数据集。扩展后的JCM (eJCM)通过我们提出的句子扩展方法Masked Token and Label Enhancement (MTLE),从最初的13,975个句子增加到31,184个句子。MTLE选择性地屏蔽与道德判断相关的重要句子部分,并用大型语言模型(LLM)生成的替代表达替换它们,同时重新分配适当的标签。使用eJCM训练的模型达到了0.857的F1分数,高于原始JCM (0.837)、ChatGPT one-shot分类(0.841)以及使用最先进的增强方法AugGPT进行数据增强(0.850)的分数。特别是在日本文化特有的复杂道德推理任务中,使用eJCM训练的模型表现出显著的性能提升(从0.681增加到0.756),并达到了接近GPT-4 Turbo的性能(0.787)。这些结果证明了eJCM数据集的有效性以及开发考虑文化背景的模型和数据集的重要性。

🔬 方法详解

问题定义:论文旨在解决现有道德推理数据集缺乏文化敏感性的问题,特别是针对日本文化背景的数据集不足。现有方法,如直接使用通用LLM或简单的数据增强,无法充分捕捉日本文化中细微的道德差异,导致模型在处理相关任务时表现不佳。

核心思路:论文的核心思路是通过一种数据增强方法,即Masked Token and Label Enhancement (MTLE),来扩展现有的日文常识道德数据集JCM。MTLE的核心在于选择性地掩码句子中与道德判断相关的关键部分,并利用大型语言模型生成替代表达,同时重新分配相应的标签。这种方法旨在增加数据集的多样性,并使模型能够更好地理解和处理日本文化特有的道德概念。

技术框架:MTLE方法主要包含以下几个步骤:1) 选择需要增强的句子;2) 识别句子中与道德判断相关的关键token;3) 使用掩码策略将这些token进行掩码;4) 利用大型语言模型(LLM)生成替代的token或短语;5) 根据替换后的句子,重新评估并分配相应的道德标签。整个流程旨在生成既保持原意,又具有一定差异性的新句子,从而扩充数据集。

关键创新:MTLE的关键创新在于其选择性掩码和标签增强策略。与传统的随机掩码方法不同,MTLE专注于掩码与道德判断直接相关的token,这使得生成的新句子更具有针对性,能够更好地反映道德推理的细微差别。同时,标签增强步骤确保了新生成的句子具有正确的道德标签,避免了引入噪声数据。

关键设计:在MTLE的具体实现中,论文可能使用了特定的LLM来生成替代token,并设计了相应的提示语(prompts)来引导LLM生成符合要求的表达。此外,标签重新分配可能涉及到人工审核或使用预训练的道德判断模型进行辅助判断。具体的参数设置和网络结构等细节在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用eJCM训练的模型在道德推理任务上取得了显著提升,F1分数达到0.857,超过了原始JCM (0.837)、ChatGPT one-shot (0.841)和AugGPT (0.850)。尤其是在日本文化特有的复杂道德推理任务中,性能从0.681提升到0.756,接近GPT-4 Turbo的0.787。

🎯 应用场景

该研究成果可应用于开发更具文化敏感性的AI道德推理系统,例如,在自动驾驶汽车的伦理决策、医疗诊断的辅助判断、以及客户服务对话系统中,更好地理解和尊重不同文化背景下的道德规范。这将有助于提升AI系统的公平性、可靠性和社会接受度。

📄 摘要(原文)

Rapid advancements in artificial intelligence (AI) have made it crucial to integrate moral reasoning into AI systems. However, existing models and datasets often overlook regional and cultural differences. To address this shortcoming, we have expanded the JCommonsenseMorality (JCM) dataset, the only publicly available dataset focused on Japanese morality. The Extended JCM (eJCM) has grown from the original 13,975 sentences to 31,184 sentences using our proposed sentence expansion method called Masked Token and Label Enhancement (MTLE). MTLE selectively masks important parts of sentences related to moral judgment and replaces them with alternative expressions generated by a large language model (LLM), while re-assigning appropriate labels. The model trained using our eJCM achieved an F1 score of 0.857, higher than the scores for the original JCM (0.837), ChatGPT one-shot classification (0.841), and data augmented using AugGPT, a state-of-the-art augmentation method (0.850). Specifically, in complex moral reasoning tasks unique to Japanese culture, the model trained with eJCM showed a significant improvement in performance (increasing from 0.681 to 0.756) and achieved a performance close to that of GPT-4 Turbo (0.787). These results demonstrate the validity of the eJCM dataset and the importance of developing models and datasets that consider the cultural context.