Agent-based Automated Claim Matching with Instruction-following LLMs

📄 arXiv: 2510.23924v1 📥 PDF

作者: Dina Pisarevskaya, Arkaitz Zubiaga

分类: cs.CL, cs.AI

发布日期: 2025-10-27

备注: Accepted for the International Joint Conference on Natural Language Processing & Asia-Pacific Chapter of the Association for Computational Linguistics (2025) Findings


💡 一句话要点

提出基于Agent的自动化声明匹配方法,利用指令跟随LLM提升匹配性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 声明匹配 大型语言模型 自动化提示生成 Agent 二元分类

📋 核心要点

  1. 现有声明匹配方法依赖人工设计的提示,成本高且效果受限,难以充分利用LLM的潜力。
  2. 提出基于Agent的自动化流程,利用LLM自动生成提示,并进行声明匹配的二元分类。
  3. 实验证明LLM生成提示优于人工提示,小模型生成提示效果与大模型相当,且不同LLM可用于不同步骤。

📝 摘要(中文)

本文提出了一种新颖的基于Agent的自动化声明匹配方法,该方法利用指令跟随的大语言模型(LLM)。我们提出了一个两步流程,首先使用LLM生成提示(prompts),然后将声明匹配作为二元分类任务,也由LLM完成。实验表明,LLM生成的提示可以优于使用人工生成的提示的SOTA方法,并且较小的LLM在生成提示的过程中可以与较大的LLM表现相当,从而节省计算资源。我们还证明了在流程的每个步骤中使用不同的LLM的有效性,即使用一个LLM进行提示生成,另一个LLM进行声明匹配。对提示生成过程的深入研究也揭示了LLM对声明匹配的理解。

🔬 方法详解

问题定义:论文旨在解决自动化声明匹配问题。现有方法依赖于人工设计的提示,这既耗时又需要专业知识,并且可能无法充分利用大型语言模型(LLM)的潜力。因此,需要一种能够自动生成有效提示并执行声明匹配的方法。

核心思路:论文的核心思路是利用LLM作为智能Agent,自动生成用于声明匹配的提示,并将声明匹配任务转化为一个二元分类问题,也由LLM来解决。通过这种方式,可以减少对人工干预的依赖,并充分利用LLM的强大能力。

技术框架:该方法采用两步流程:第一步是提示生成阶段,使用LLM生成用于声明匹配的提示。第二步是声明匹配阶段,将声明匹配任务视为一个二元分类问题,并使用LLM对声明进行分类。可以为每个步骤选择不同的LLM。

关键创新:该方法的主要创新在于利用LLM自动生成提示,而不是依赖人工设计的提示。这使得该方法更加灵活和可扩展,并且可以更好地利用LLM的潜力。此外,该方法还探索了在流程的不同步骤中使用不同LLM的可能性。

关键设计:论文中没有明确给出关键参数设置、损失函数或网络结构的细节。提示生成过程依赖于LLM的指令跟随能力,通过精心设计的指令来引导LLM生成有效的提示。声明匹配阶段则将声明对输入LLM,并要求LLM输出二元分类结果(匹配或不匹配)。具体使用的LLM模型和指令设计是影响性能的关键因素。

📊 实验亮点

实验结果表明,LLM生成的提示在声明匹配任务中优于人工生成的提示,证明了自动化提示生成的有效性。此外,较小的LLM在提示生成阶段可以与较大的LLM表现相当,降低了计算成本。研究还发现,在提示生成和声明匹配阶段使用不同的LLM可以进一步提升性能。

🎯 应用场景

该研究成果可应用于新闻真实性验证、虚假信息检测、舆情分析等领域。通过自动化声明匹配,可以快速识别和标记不实信息,提高信息传播的可靠性,并为决策者提供更准确的信息支持。未来,该方法有望扩展到其他自然语言处理任务中。

📄 摘要(原文)

We present a novel agent-based approach for the automated claim matching task with instruction-following LLMs. We propose a two-step pipeline that first generates prompts with LLMs, to then perform claim matching as a binary classification task with LLMs. We demonstrate that LLM-generated prompts can outperform SOTA with human-generated prompts, and that smaller LLMs can do as well as larger ones in the generation process, allowing to save computational resources. We also demonstrate the effectiveness of using different LLMs for each step of the pipeline, i.e. using an LLM for prompt generation, and another for claim matching. Our investigation into the prompt generation process in turn reveals insights into the LLMs' understanding of claim matching.