ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims
作者: Anirban Saha Anik, Md Fahimul Kabir Chowdhury, Andrew Wyckoff, Sagnik Ray Choudhury
分类: cs.CL, cs.AI
发布日期: 2025-09-15
备注: Notebook for the CheckThat! Lab at CLEF 2025
💡 一句话要点
CheckThat! 2025 ClaimIQ:对比提示学习与微调语言模型用于数值声明验证
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数值声明验证 事实核查 大型语言模型 零样本提示 LoRA微调
📋 核心要点
- 现有数值事实验证方法在证据选择和模型泛化能力上存在挑战,难以保证验证的准确性和可靠性。
- 本文探索了零样本提示和LoRA微调两种方法,并结合不同的证据选择策略,以提升数值声明验证的性能。
- 实验结果表明,LoRA微调的LLaMA模型在验证集上表现良好,但在测试集上存在泛化问题,提示需要进一步研究。
📝 摘要(中文)
本文介绍了我们在CLEF 2025 CheckThat! Lab任务3中的系统,该任务专注于使用检索到的证据验证数值和时间声明。我们探索了两种互补的方法:使用指令调整的大型语言模型(LLM)进行零样本提示,以及使用参数高效的LoRA进行监督微调。为了提高证据质量,我们研究了几种选择策略,包括全文输入和使用BM25和MiniLM进行top-k句子过滤。我们使用LoRA微调的性能最佳的LLaMA模型在英语验证集上取得了良好的性能。然而,测试集上的显著下降突出了泛化挑战。这些发现强调了证据粒度和模型适应对于稳健的数值事实验证的重要性。
🔬 方法详解
问题定义:论文旨在解决数值和时间声明的自动验证问题。现有方法在处理复杂数值推理和从海量信息中提取相关证据方面存在困难,导致验证结果的准确性和可靠性不足。此外,模型在不同数据集上的泛化能力也是一个挑战。
核心思路:论文的核心思路是结合零样本提示和监督微调两种方法,并探索不同的证据选择策略,以提高数值声明验证的性能和泛化能力。通过零样本提示,利用大型语言模型的先验知识进行推理;通过LoRA微调,使模型更好地适应特定任务和数据集。
技术框架:整体框架包括以下几个主要阶段:1) 声明输入:接收需要验证的数值或时间声明。2) 证据检索:使用BM25或MiniLM等方法从外部知识库中检索相关证据。3) 证据选择:采用全文输入或top-k句子过滤等策略,选择最相关的证据。4) 模型推理:使用零样本提示或LoRA微调的LLM进行数值推理和验证。5) 结果输出:输出验证结果,例如“真”或“假”。
关键创新:论文的关键创新在于对比研究了零样本提示和LoRA微调在数值声明验证任务中的性能,并探索了不同的证据选择策略对验证结果的影响。此外,论文还关注了模型在不同数据集上的泛化能力,并提出了相应的改进方向。
关键设计:在LoRA微调中,采用了参数高效的LoRA技术,以减少微调所需的计算资源。在证据选择中,对比了全文输入和top-k句子过滤两种策略,并使用BM25和MiniLM等方法进行句子排序。损失函数采用交叉熵损失函数,优化器采用AdamW优化器。具体参数设置未知。
📊 实验亮点
实验结果表明,使用LoRA微调的LLaMA模型在英语验证集上取得了较好的性能,但测试集上的性能显著下降,表明模型泛化能力不足。对比了不同的证据选择策略,发现证据粒度对验证结果有重要影响。具体性能数据未知。
🎯 应用场景
该研究成果可应用于新闻事实核查、金融风险评估、科学数据验证等领域。通过自动验证数值声明的真伪,可以减少虚假信息的传播,提高决策的准确性和效率,并为未来的自然语言处理研究提供参考。
📄 摘要(原文)
This paper presents our system for Task 3 of the CLEF 2025 CheckThat! Lab, which focuses on verifying numerical and temporal claims using retrieved evidence. We explore two complementary approaches: zero-shot prompting with instruction-tuned large language models (LLMs) and supervised fine-tuning using parameter-efficient LoRA. To enhance evidence quality, we investigate several selection strategies, including full-document input and top-k sentence filtering using BM25 and MiniLM. Our best-performing model LLaMA fine-tuned with LoRA achieves strong performance on the English validation set. However, a notable drop in the test set highlights a generalization challenge. These findings underscore the importance of evidence granularity and model adaptation for robust numerical fact verification.