AKCIT-FN at CheckThat! 2025: Switching Fine-Tuned SLMs and LLM Prompting for Multilingual Claim Normalization
作者: Fabrycio Leite Nakano Almada, Kauan Divino Pouso Mariano, Maykon Adriell Dutra, Victor Emanuel da Silva Monteiro, Juliana Resplande Sant'Anna Gomes, Arlindo Rodrigues Galvão Filho, Anderson da Silva Soares
分类: cs.CL
发布日期: 2025-09-15
备注: 15 pages, 2 figures
🔗 代码/项目: GITHUB
💡 一句话要点
针对多语言声明规范化,提出微调SLM与LLM提示切换方案,CheckThat! 2025比赛中表现优异。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 声明规范化 多语言处理 小型语言模型 大型语言模型 零样本学习 事实核查 自然语言处理
📋 核心要点
- 现有声明规范化方法在多语言环境,特别是零样本场景下,面临数据稀缺和泛化能力不足的挑战。
- 论文提出一种结合微调小型语言模型(SLM)和大型语言模型(LLM)提示的混合策略,针对不同资源场景优化性能。
- 实验结果表明,该方法在CheckThat! 2025任务的多种语言中取得领先地位,尤其在零样本语言中表现出色。
📝 摘要(中文)
声明规范化是将非正式社交媒体帖子转换为简洁、独立的陈述的过程,是自动化事实核查流程中的关键步骤。本文详细介绍了我们提交给CLEF-2025 CheckThat! Task~2的方案,该任务旨在对二十种语言执行声明规范化,分为十三个监督式(高资源)和七个零样本(无训练数据)赛道。我们的方法利用微调的小型语言模型(SLM)处理监督式语言,并利用大型语言模型(LLM)提示处理零样本场景,在二十种语言中的十五种语言中取得了前三名的成绩。值得注意的是,这包括在八种语言中排名第二,其中五种是指定的零样本语言,突显了我们基于LLM的零样本策略的有效性。对于我们的初始开发语言葡萄牙语,我们的系统获得了0.5290的平均METEOR分数,排名第三。所有实现工件,包括推理、训练、评估脚本和提示配置,均可在https://github.com/ju-resplande/checkthat2025_normalization上公开获得。
🔬 方法详解
问题定义:论文旨在解决多语言环境下的声明规范化问题,即如何将非正式的社交媒体帖子转化为简洁、独立的陈述。现有方法在处理低资源或零资源语言时,由于缺乏训练数据,性能显著下降,难以满足实际应用需求。
核心思路:论文的核心思路是根据语言资源的丰富程度,采用不同的模型策略。对于有充足训练数据的语言,使用微调的SLM以获得更高的效率和精度;对于零样本语言,则利用LLM的强大泛化能力,通过精心设计的提示来引导模型生成规范化的声明。
技术框架:整体框架包含两个主要分支:监督式学习分支和零样本学习分支。在监督式学习分支中,首先对SLM进行微调,然后使用微调后的模型进行推理。在零样本学习分支中,设计合适的提示模板,输入LLM,并根据LLM的输出来生成规范化的声明。最终结果根据不同语言选择对应的分支输出。
关键创新:该方法最重要的创新点在于结合了SLM的效率和LLM的泛化能力,并根据不同语言的资源情况动态切换模型策略。这种混合策略能够有效应对多语言声明规范化任务中的数据稀缺问题,提高模型的鲁棒性和泛化能力。
关键设计:在监督式学习分支中,选择合适的SLM架构和微调策略是关键。在零样本学习分支中,提示的设计至关重要,需要仔细考虑如何引导LLM生成符合要求的规范化声明。此外,如何评估和选择最佳的提示模板也是一个重要的技术细节。具体的参数设置、损失函数和网络结构等细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
该方法在CLEF-2025 CheckThat! Task~2中表现出色,在20种语言中的15种语言中取得了前三名的成绩,其中在8种语言中排名第二,并且在5种零样本语言中也取得了第二名的好成绩。在葡萄牙语上,该系统获得了0.5290的平均METEOR分数,排名第三。这些结果表明,该方法在多语言声明规范化任务中具有很强的竞争力。
🎯 应用场景
该研究成果可应用于自动化事实核查系统、舆情监控、社交媒体内容分析等领域。通过自动将非正式的社交媒体帖子转化为规范化的声明,可以提高信息处理的效率和准确性,为后续分析和决策提供支持。未来,该方法有望扩展到更多语言和领域,促进跨语言信息处理的发展。
📄 摘要(原文)
Claim normalization, the transformation of informal social media posts into concise, self-contained statements, is a crucial step in automated fact-checking pipelines. This paper details our submission to the CLEF-2025 CheckThat! Task~2, which challenges systems to perform claim normalization across twenty languages, divided into thirteen supervised (high-resource) and seven zero-shot (no training data) tracks. Our approach, leveraging fine-tuned Small Language Models (SLMs) for supervised languages and Large Language Model (LLM) prompting for zero-shot scenarios, achieved podium positions (top three) in fifteen of the twenty languages. Notably, this included second-place rankings in eight languages, five of which were among the seven designated zero-shot languages, underscoring the effectiveness of our LLM-based zero-shot strategy. For Portuguese, our initial development language, our system achieved an average METEOR score of 0.5290, ranking third. All implementation artifacts, including inference, training, evaluation scripts, and prompt configurations, are publicly available at https://github.com/ju-resplande/checkthat2025_normalization.