Investigating Language and Retrieval Bias in Multilingual Previously Fact-Checked Claim Detection
作者: Ivan Vykopal, Antonia Karamolegkou, Jaroslav Kopčan, Qiwei Peng, Tomáš Javůrek, Michal Gregor, Marián Šimko
分类: cs.CL
发布日期: 2025-09-29
💡 一句话要点
研究多语言预训练模型在事实核查中的语言和检索偏差
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言模型 事实核查 语言偏差 检索偏差 跨语言学习 自然语言处理 信息检索
📋 核心要点
- 现有跨语言事实核查方法在低资源语言上表现不佳,存在显著的语言偏差。
- 通过多语言提示策略和检索频率分析,揭示语言模型和检索系统中的偏差。
- 实验结果表明,模型性能受语言和检索偏差影响,并提出了改进建议。
📝 摘要(中文)
多语言大型语言模型(LLMs)为跨语言事实核查提供了强大的能力。然而,这些模型通常表现出语言偏差,即在高资源语言(如英语)上的表现明显优于低资源语言。本文还提出并考察了一个新概念——检索偏差,即信息检索系统倾向于偏袒某些信息,导致检索过程出现偏差。本文研究了先前事实核查声明检测(PFCD)中的语言和检索偏差。我们使用完全多语言的提示策略,利用AMC-16K数据集,评估了20种语言的六个开源多语言LLM。通过将任务提示翻译成每种语言,我们揭示了单语和跨语性能的差异,并根据模型系列、大小和提示策略确定了关键趋势。我们的研究结果突出了LLM行为中持续存在的偏差,并为提高多语言事实核查的公平性提供了建议。为了研究检索偏差,我们采用了多语言嵌入模型,并研究了检索到的声明的频率。我们的分析表明,某些声明在不同的帖子中被不成比例地检索,导致热门声明的检索性能虚高,而不太常见的声明则被低估。
🔬 方法详解
问题定义:本文旨在解决多语言环境下,先前经过事实核查的声明检测(PFCD)任务中存在的语言偏差和检索偏差问题。现有方法在处理低资源语言时性能显著下降,并且信息检索系统可能存在偏袒某些信息的倾向,导致检索结果不均衡。
核心思路:本文的核心思路是通过多语言提示策略来评估不同语言模型在多种语言上的性能,从而揭示语言偏差。同时,通过分析检索到的声明的频率,来量化检索偏差。通过这种方式,可以更全面地了解多语言事实核查系统中的潜在问题。
技术框架:本文的技术框架主要包含两个部分:一是语言偏差分析,二是检索偏差分析。在语言偏差分析中,首先将任务提示翻译成20种语言,然后使用这些提示来评估六个开源多语言LLM在AMC-16K数据集上的性能。在检索偏差分析中,使用多语言嵌入模型来检索与声明相关的帖子,并分析检索到的声明的频率。
关键创新:本文的关键创新在于提出了“检索偏差”这一概念,并设计了相应的分析方法来量化这种偏差。此外,本文还通过多语言提示策略,系统地评估了多种语言模型在多语言事实核查任务中的性能,揭示了不同模型在不同语言上的表现差异。
关键设计:在语言偏差分析中,使用了完全多语言的提示策略,确保所有语言都使用相同的提示格式。在检索偏差分析中,使用了多语言嵌入模型来提高检索的准确性。此外,还分析了不同模型家族、大小和提示策略对性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,多语言LLM在不同语言上的性能存在显著差异,高资源语言的性能明显优于低资源语言。检索偏差分析显示,某些声明在不同帖子中被不成比例地检索,导致热门声明的检索性能虚高。这些发现强调了在多语言事实核查中考虑语言和检索偏差的重要性。
🎯 应用场景
该研究成果可应用于多语言新闻传播、舆情监控、虚假信息检测等领域。通过消除语言和检索偏差,可以提高多语言环境下事实核查的准确性和公平性,从而减少虚假信息传播,维护社会稳定。未来的研究可以进一步探索如何利用这些发现来改进多语言LLM和信息检索系统的设计。
📄 摘要(原文)
Multilingual Large Language Models (LLMs) offer powerful capabilities for cross-lingual fact-checking. However, these models often exhibit language bias, performing disproportionately better on high-resource languages such as English than on low-resource counterparts. We also present and inspect a novel concept - retrieval bias, when information retrieval systems tend to favor certain information over others, leaving the retrieval process skewed. In this paper, we study language and retrieval bias in the context of Previously Fact-Checked Claim Detection (PFCD). We evaluate six open-source multilingual LLMs across 20 languages using a fully multilingual prompting strategy, leveraging the AMC-16K dataset. By translating task prompts into each language, we uncover disparities in monolingual and cross-lingual performance and identify key trends based on model family, size, and prompting strategy. Our findings highlight persistent bias in LLM behavior and offer recommendations for improving equity in multilingual fact-checking. To investigate retrieval bias, we employed multilingual embedding models and look into the frequency of retrieved claims. Our analysis reveals that certain claims are retrieved disproportionately across different posts, leading to inflated retrieval performance for popular claims while under-representing less common ones.