Moral Reasoning Across Languages: The Critical Role of Low-Resource Languages in LLMs

📄 arXiv: 2504.19759v1 📥 PDF

作者: Huichi Zhou, Zehao Xu, Munan Zhao, Kaihong Li, Yiqiang Li, Hongtao Wang

分类: cs.CL

发布日期: 2025-04-28

备注: 5 pages, 2 figures


💡 一句话要点

提出多语言道德推理基准MMRB,揭示低资源语言在LLM中的关键作用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言道德推理 低资源语言 大型语言模型 基准测试 道德对齐

📋 核心要点

  1. 现有LLM在多语言环境下的道德推理能力评估不足,尤其缺乏对低资源语言的关注。
  2. 论文构建MMRB基准,并探索低资源语言数据对LLM道德推理能力的影响,包括对齐和投毒。
  3. 实验表明,低资源语言对LLM的多语言道德推理能力影响显著,甚至超过高资源语言。

📝 摘要(中文)

本文提出了多语言道德推理基准(MMRB),用于评估大型语言模型(LLM)在五种类型学上不同的语言中,以及在句子、段落和文档三个上下文复杂程度上的道德推理能力。结果表明,道德推理性能随着上下文复杂性的增加而降低,特别是对于越南语等低资源语言。此外,我们使用精心策划的单语数据对开源LLaMA-3-8B模型进行了微调,用于对齐和投毒。令人惊讶的是,低资源语言对多语言推理的影响比高资源语言更大,突显了它们在多语言NLP中的关键作用。

🔬 方法详解

问题定义:现有的大型语言模型在多语言环境下的道德推理能力评估不足,尤其缺乏对低资源语言的关注。现有的方法难以准确评估LLM在不同语言和不同上下文复杂程度下的道德推理能力,并且缺乏对低资源语言在多语言道德推理中作用的深入理解。

核心思路:论文的核心思路是通过构建一个多语言道德推理基准(MMRB),并利用该基准评估LLM在不同语言和上下文复杂程度下的道德推理能力。同时,通过对LLM进行微调,研究低资源语言数据对LLM道德推理能力的影响,包括对齐和投毒。

技术框架:该研究的技术框架主要包括以下几个部分:1) 构建多语言道德推理基准MMRB,包含五种语言和三个上下文复杂程度;2) 使用MMRB评估现有LLM的道德推理能力;3) 使用单语数据对LLaMA-3-8B模型进行微调,包括对齐和投毒;4) 分析实验结果,研究低资源语言对多语言推理的影响。

关键创新:该论文的关键创新在于:1) 提出了多语言道德推理基准MMRB,为多语言道德推理研究提供了新的评估工具;2) 揭示了低资源语言在多语言道德推理中的关键作用,颠覆了以往认为高资源语言更重要的观点;3) 通过对LLM进行微调,研究了低资源语言数据对LLM道德推理能力的影响,为提高LLM的多语言道德推理能力提供了新的思路。

关键设计:MMRB基准包含五种类型学上不同的语言,并设计了三种上下文复杂程度(句子、段落和文档)。在模型微调方面,使用了精心策划的单语数据进行对齐和投毒,并针对低资源语言进行了特殊处理。具体的参数设置和损失函数等技术细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,现有LLM在MMRB基准上的道德推理性能随着上下文复杂性的增加而降低,特别是对于越南语等低资源语言。令人惊讶的是,低资源语言对多语言推理的影响比高资源语言更大。通过对LLaMA-3-8B模型进行微调,可以有效提升其在低资源语言上的道德推理能力(具体提升幅度未知)。

🎯 应用场景

该研究成果可应用于开发更安全、更可靠的多语言LLM,尤其是在涉及道德判断和决策的场景中,例如跨文化交流、国际法律咨询、以及面向不同语言用户的智能助手。通过提升LLM在低资源语言上的道德推理能力,可以减少偏见和歧视,促进公平和包容。

📄 摘要(原文)

In this paper, we introduce the Multilingual Moral Reasoning Benchmark (MMRB) to evaluate the moral reasoning abilities of large language models (LLMs) across five typologically diverse languages and three levels of contextual complexity: sentence, paragraph, and document. Our results show moral reasoning performance degrades with increasing context complexity, particularly for low-resource languages such as Vietnamese. We further fine-tune the open-source LLaMA-3-8B model using curated monolingual data for alignment and poisoning. Surprisingly, low-resource languages have a stronger impact on multilingual reasoning than high-resource ones, highlighting their critical role in multilingual NLP.