CEA-LIST at CheckThat! 2025: Evaluating LLMs as Detectors of Bias and Opinion in Text
作者: Akram Elbouanani, Evan Dufraisse, Aboubacar Tuo, Adrian Popescu
分类: cs.CL, cs.AI
发布日期: 2025-07-10
备注: Notebook for the CheckThat! Lab at CLEF 2025
💡 一句话要点
利用LLM和少量样本提示,CEA-LIST在CheckThat! 2025中实现多语言主观性检测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 少量样本学习 主观性检测 多语言处理 提示工程
📋 核心要点
- 现有方法在处理低质量或标注不一致的多语言数据时表现不佳,限制了主观性检测的准确性。
- 论文提出利用LLM的强大能力,通过少量样本提示学习,无需大量标注数据即可实现有效的主观性检测。
- 实验结果表明,该方法在多种语言上取得了优异的成绩,尤其在阿拉伯语数据集上表现出很强的鲁棒性。
📝 摘要(中文)
本文介绍了一种有竞争力的多语言主观性检测方法,该方法利用大型语言模型(LLM)和少量样本提示。我们参与了CheckThat! 2025评测活动的任务1:主观性检测。结果表明,通过精心设计的提示,LLM可以与微调的小型语言模型(SLM)相媲美,甚至在嘈杂或低质量的数据环境中表现更好。尽管我们尝试了高级提示工程技术,例如辩论LLM和各种示例选择策略,但发现除了精心设计的标准少量样本提示之外,收益有限。我们的系统在CheckThat! 2025主观性检测任务中获得了多个语言的最高排名,包括阿拉伯语和波兰语的第一名,以及意大利语、英语、德语和多语言赛道的排名前四。值得注意的是,我们的方法在阿拉伯语数据集上表现出特别的鲁棒性,这可能是由于其对标注不一致的抵抗能力。这些发现突出了基于LLM的少量样本学习在多语言情感任务中的有效性和适应性,为传统的微调提供了一个强大的替代方案,尤其是在标记数据稀缺或不一致时。
🔬 方法详解
问题定义:论文旨在解决多语言文本中主观性检测的问题。现有方法,特别是依赖于微调小型语言模型(SLM)的方法,在数据质量不高或标注不一致的情况下表现不佳,需要大量的标注数据。
核心思路:核心思路是利用大型语言模型(LLM)的强大泛化能力和少量样本学习能力,通过精心设计的提示(prompt)来引导LLM进行主观性判断,从而避免对每个语言都进行大规模的微调。
技术框架:整体框架包括以下几个阶段:1) 数据准备:收集少量带标注的样本作为提示的示例。2) 提示工程:设计有效的提示,包括选择合适的示例、构建清晰的指令等。3) LLM推理:将提示输入LLM,获取LLM对文本主观性的判断结果。4) 结果评估:使用CheckThat! 2025提供的数据集评估模型性能。
关键创新:关键创新在于利用LLM的zero-shot或few-shot能力,避免了传统方法中对每个语言都进行大规模微调的需求。此外,论文还探索了多种提示工程技术,例如辩论LLM和不同的示例选择策略,但发现精心设计的标准少量样本提示效果最佳。
关键设计:论文的关键设计在于提示的设计。虽然尝试了复杂的提示工程技术,但最终发现精心设计的少量样本提示效果最好。具体的参数设置和网络结构取决于所使用的LLM,论文中没有详细说明。损失函数也没有提及,因为该方法主要依赖于LLM的zero-shot或few-shot能力,而不是通过损失函数进行训练。
🖼️ 关键图片
📊 实验亮点
该方法在CheckThat! 2025主观性检测任务中取得了显著成果,在阿拉伯语和波兰语中排名第一,在意大利语、英语、德语和多语言赛道中排名前四。尤其在阿拉伯语数据集上表现出很强的鲁棒性,表明该方法对标注不一致的数据具有较强的适应能力。实验结果证明了LLM在少量样本学习上的有效性。
🎯 应用场景
该研究成果可应用于舆情监控、新闻评论分析、社交媒体内容审核等领域。通过准确识别文本中的主观性,可以帮助人们更好地理解信息、过滤偏见内容,并为决策提供更客观的依据。该方法尤其适用于资源匮乏的语言或领域,降低了情感分析模型的开发成本。
📄 摘要(原文)
This paper presents a competitive approach to multilingual subjectivity detection using large language models (LLMs) with few-shot prompting. We participated in Task 1: Subjectivity of the CheckThat! 2025 evaluation campaign. We show that LLMs, when paired with carefully designed prompts, can match or outperform fine-tuned smaller language models (SLMs), particularly in noisy or low-quality data settings. Despite experimenting with advanced prompt engineering techniques, such as debating LLMs and various example selection strategies, we found limited benefit beyond well-crafted standard few-shot prompts. Our system achieved top rankings across multiple languages in the CheckThat! 2025 subjectivity detection task, including first place in Arabic and Polish, and top-four finishes in Italian, English, German, and multilingual tracks. Notably, our method proved especially robust on the Arabic dataset, likely due to its resilience to annotation inconsistencies. These findings highlight the effectiveness and adaptability of LLM-based few-shot learning for multilingual sentiment tasks, offering a strong alternative to traditional fine-tuning, particularly when labeled data is scarce or inconsistent.