One LLM to Train Them All: Multi-Task Learning Framework for Fact-Checking

作者: Malin Astrid Larsson, Harald Fosen Grunnaleite, Vinay Setty

分类: cs.CL

发布日期: 2026-01-16

备注: Accepted version in ECIR 2026

💡 一句话要点

提出基于多任务学习的自动事实核查框架，提升小模型性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多任务学习 自动事实核查 大型语言模型 指令调优 证据排序

📋 核心要点

现有自动事实核查方法依赖多个独立模型，成本高且效率低，难以充分利用数据。
论文提出多任务学习框架，使用单个小型语言模型同时执行声明检测、证据排序和立场检测。
实验结果表明，该方法在多个任务上显著优于零/少样本设置，并提供了实践指导。

📝 摘要（中文）

大型语言模型（LLMs）通过实现统一的端到端验证流程，正在重塑自动事实核查（AFC），取代了孤立的组件。虽然大型专有模型表现出色，但其封闭的权重、复杂性和高成本限制了可持续性。为单个AFC任务微调较小的开源权重模型有所帮助，但需要多个专用模型，从而导致高成本。我们提出多任务学习（MTL）作为一种更有效的替代方案，该方案微调单个模型以联合执行声明检测、证据排序和立场检测。使用小型解码器LLM（例如，Qwen3-4b），我们探索了三种MTL策略：分类头、因果语言建模头和指令调优，并在模型大小、任务顺序和标准非LLM基线上评估它们。虽然多任务模型并非普遍超越单任务基线，但它们产生了显著的改进，在零/少样本设置下，声明检测、证据重新排序和立场检测分别实现了高达44％、54％和31％的相对收益。最后，我们还提供了实用的、基于经验的指南，以帮助从业者将MTL与LLM应用于自动事实核查。

🔬 方法详解

问题定义：自动事实核查（AFC）通常需要多个独立的任务，例如声明检测、证据检索和立场检测。现有方法通常为每个任务训练一个单独的模型，这导致了高昂的计算成本和维护成本。此外，这些独立训练的模型无法共享知识，从而限制了整体性能。

核心思路：论文的核心思路是利用多任务学习（MTL）框架，训练一个单一的语言模型来同时执行多个AFC任务。通过共享模型参数，MTL可以提高模型的泛化能力，并减少训练所需的资源。论文探索了不同的MTL策略，例如分类头、因果语言建模头和指令调优，以找到最适合AFC任务的组合。

技术框架：该框架使用一个预训练的小型解码器LLM（例如，Qwen3-4b）作为基础模型。然后，根据不同的MTL策略，在基础模型之上添加不同的任务特定头。例如，对于分类任务（如声明检测和立场检测），可以使用分类头；对于序列生成任务（如证据排序），可以使用因果语言建模头。指令调优则通过在训练数据中加入指令，引导模型学习执行不同的任务。

关键创新：该论文的关键创新在于将多任务学习应用于自动事实核查领域，并探索了不同的MTL策略在小型LLM上的有效性。与以往的单任务模型相比，该方法能够显著提高模型的效率和性能。此外，论文还提供了实用的指导，帮助从业者将MTL应用于实际的AFC任务。

关键设计：论文探索了三种MTL策略：1) 分类头：为每个分类任务添加一个独立的分类层；2) 因果语言建模头：使用语言模型生成文本，例如证据排序；3) 指令调优：在训练数据中加入指令，指导模型执行不同的任务。论文还研究了不同的任务顺序对模型性能的影响，并评估了不同模型大小的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，多任务学习框架在声明检测、证据重新排序和立场检测任务上分别实现了高达44％、54％和31％的相对收益，显著优于零/少样本设置。该研究还发现，不同的MTL策略和任务顺序对模型性能有显著影响，并提供了实践指导。

🎯 应用场景

该研究成果可应用于自动化新闻事实核查系统、虚假信息检测平台等领域，有助于提高信息的可信度和透明度。通过降低模型训练和部署的成本，该方法使得自动事实核查技术能够更广泛地应用于资源有限的场景，例如低成本新闻媒体和社区平台。

📄 摘要（原文）

Large language models (LLMs) are reshaping automated fact-checking (AFC) by enabling unified, end-to-end verification pipelines rather than isolated components. While large proprietary models achieve strong performance, their closed weights, complexity, and high costs limit sustainability. Fine-tuning smaller open weight models for individual AFC tasks can help but requires multiple specialized models resulting in high costs. We propose \textbf{multi-task learning (MTL)} as a more efficient alternative that fine-tunes a single model to perform claim detection, evidence ranking, and stance detection jointly. Using small decoder-only LLMs (e.g., Qwen3-4b), we explore three MTL strategies: classification heads, causal language modeling heads, and instruction-tuning, and evaluate them across model sizes, task orders, and standard non-LLM baselines. While multitask models do not universally surpass single-task baselines, they yield substantial improvements, achieving up to \textbf{44\%}, \textbf{54\%}, and \textbf{31\%} relative gains for claim detection, evidence re-ranking, and stance detection, respectively, over zero-/few-shot settings. Finally, we also provide practical, empirically grounded guidelines to help practitioners apply MTL with LLMs for automated fact-checking.

One LLM to Train Them All: Multi-Task Learning Framework for Fact-Checking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理