A Comparative Study of Translation Bias and Accuracy in Multilingual Large Language Models for Cross-Language Claim Verification

📄 arXiv: 2410.10303v1 📥 PDF

作者: Aryan Singhal, Veronica Shao, Gary Sun, Ryan Ding, Jonathan Lu, Kevin Zhu

分类: cs.CL

发布日期: 2024-10-14

备注: Accepted to ATTRIB @ NeurIPS 2024


💡 一句话要点

研究多语言LLM在跨语言声明验证中的翻译偏差与准确性,揭示低资源语言的性能瓶颈。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨语言声明验证 多语言LLM 翻译偏差 低资源语言 自翻译 预翻译 事实核查

📋 核心要点

  1. 现有跨语言事实核查方法在低资源语言上表现不佳,主要原因是训练数据不足和翻译偏差。
  2. 该研究对比预翻译和自翻译两种方法,评估多语言LLM在不同语系语言上的声明验证准确性。
  3. 实验表明,更大的模型在自翻译中表现更好,能有效提高翻译准确性并减少偏差,尤其是在低资源语言上。

📝 摘要(中文)

数字虚假信息的兴起增加了人们对使用多语言大型语言模型(LLM)进行事实核查的兴趣。本研究系统地评估了LLM在跨语言声明验证中的翻译偏差和有效性,涵盖来自五个语系(罗曼语族、斯拉夫语族、突厥语族、印度-雅利安语族和卡特维尔语族)的15种语言。我们使用XFACT数据集来评估翻译偏差对准确性的影响,并研究了两种不同的翻译方法:预翻译和自翻译。我们使用mBERT在英语数据集上的性能作为基线,以比较特定语言的准确性。我们的研究结果表明,由于训练数据中的代表性不足,低资源语言在直接推理中表现出明显较低的准确性。此外,更大的模型在自翻译中表现出更优越的性能,提高了翻译准确性并减少了偏差。这些结果强调了平衡多语言训练的必要性,尤其是在低资源语言中,以促进公平地获取可靠的事实核查工具,并最大限度地降低在不同语言环境中传播虚假信息的风险。

🔬 方法详解

问题定义:该论文旨在解决多语言环境下,特别是低资源语言中,利用大型语言模型进行跨语言声明验证时存在的准确性问题和翻译偏差。现有方法在处理低资源语言时,由于训练数据不足,模型性能显著下降,导致事实核查的可靠性降低。此外,不同的翻译策略(如预翻译)可能会引入额外的偏差,进一步影响验证结果的准确性。

核心思路:论文的核心思路是通过系统性地评估不同翻译方法(预翻译和自翻译)对跨语言声明验证准确性和偏差的影响,来揭示大型语言模型在处理不同语言时的性能差异。重点关注低资源语言,并分析模型大小对自翻译性能的影响。通过对比实验,寻找更有效的跨语言事实核查策略,并为未来模型训练和优化提供指导。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据集准备:使用XFACT数据集,涵盖15种来自不同语系的语言。2) 模型选择:选择mBERT等大型语言模型作为基础模型。3) 翻译策略:实施预翻译和自翻译两种策略。预翻译是指先将待验证的声明翻译成英文,再进行验证;自翻译是指模型自身进行翻译和验证。4) 性能评估:使用准确率等指标评估模型在不同语言和翻译策略下的性能。5) 偏差分析:分析不同语言和翻译策略下模型产生的偏差。

关键创新:该研究的关键创新在于系统性地对比了预翻译和自翻译两种策略在跨语言声明验证中的效果,并深入分析了模型大小对自翻译性能的影响。特别关注低资源语言,揭示了其在直接推理中准确率较低的原因,并验证了更大的模型在自翻译中能够提高翻译准确性和减少偏差。

关键设计:研究中关键的设计包括:1) 语言选择:选取来自五个不同语系的15种语言,以保证研究结果的泛化性。2) 翻译方法:对比预翻译和自翻译两种方法,分析其对模型性能的影响。3) 评估指标:使用准确率等指标评估模型在不同语言和翻译策略下的性能。4) 基线选择:使用mBERT在英语数据集上的性能作为基线,以比较不同语言的准确性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,低资源语言在直接推理中准确率显著低于高资源语言,验证了训练数据不足的影响。同时,更大的模型在自翻译中表现出更优越的性能,能够有效提高翻译准确性并减少偏差。例如,在某些低资源语言上,使用更大的模型进行自翻译后,准确率提升了超过10%。

🎯 应用场景

该研究成果可应用于多语言信息监控、跨文化交流、国际新闻报道等领域。通过提升低资源语言的事实核查能力,可以有效减少虚假信息传播,维护社会稳定。未来,该研究可进一步扩展到更多语言和领域,为构建更加公平、可信的多语言信息环境提供技术支持。

📄 摘要(原文)

The rise of digital misinformation has heightened interest in using multilingual Large Language Models (LLMs) for fact-checking. This study systematically evaluates translation bias and the effectiveness of LLMs for cross-lingual claim verification across 15 languages from five language families: Romance, Slavic, Turkic, Indo-Aryan, and Kartvelian. Using the XFACT dataset to assess their impact on accuracy and bias, we investigate two distinct translation methods: pre-translation and self-translation. We use mBERT's performance on the English dataset as a baseline to compare language-specific accuracies. Our findings reveal that low-resource languages exhibit significantly lower accuracy in direct inference due to underrepresentation in the training data. Furthermore, larger models demonstrate superior performance in self-translation, improving translation accuracy and reducing bias. These results highlight the need for balanced multilingual training, especially in low-resource languages, to promote equitable access to reliable fact-checking tools and minimize the risk of spreading misinformation in different linguistic contexts.