FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models
作者: Hongzhan Lin, Yang Deng, Yuxuan Gu, Wenxuan Zhang, Jing Ma, See-Kiong Ng, Tat-Seng Chua
分类: cs.CL
发布日期: 2025-02-25 (更新: 2025-03-02)
💡 一句话要点
提出FACT-AUDIT,用于动态评估大型语言模型的事实核查能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 事实核查 动态评估 多智能体系统 重要性抽样
📋 核心要点
- 现有事实核查评估方法依赖静态数据集和分类指标,无法充分评估LLM的论证生成能力和细微局限性。
- FACT-AUDIT利用多智能体协作和重要性抽样,自适应生成数据集并迭代评估LLM,从而动态评估其事实核查能力。
- 实验表明,FACT-AUDIT能有效区分不同LLM,揭示模型在事实核查方面的优势和不足,提供有价值的分析。
📝 摘要(中文)
大型语言模型(LLMs)显著推动了事实核查研究的进展。然而,现有的自动化事实核查评估方法依赖于静态数据集和分类指标,无法自动评估论证生成过程,也无法揭示LLMs在事实核查方面的细微局限性。本文提出了FACT-AUDIT,一个由智能体驱动的框架,用于自适应和动态地评估LLMs的事实核查能力。FACT-AUDIT利用重要性抽样原则和多智能体协作,生成自适应和可扩展的数据集,执行迭代的、以模型为中心的评估,并根据模型特定的响应更新评估结果。通过结合论证生成和结论预测,该框架对LLMs的事实推理能力进行了全面和不断演进的审计,从而研究其可信度。大量实验表明,FACT-AUDIT有效地区分了最先进的LLMs,为以模型为中心的事实核查分析提供了关于模型优势和局限性的宝贵见解。
🔬 方法详解
问题定义:现有的大型语言模型事实核查评估方法主要依赖于静态数据集和简单的分类指标,这无法充分评估模型生成论证的能力,也难以发现模型在复杂场景下的局限性。因此,需要一种能够动态生成测试用例并进行迭代评估的框架,以更全面地了解LLM的事实核查能力。
核心思路:FACT-AUDIT的核心思路是构建一个多智能体系统,该系统能够根据当前被评估模型(LLM)的弱点,自适应地生成更具挑战性的测试用例。通过迭代评估和更新测试集,FACT-AUDIT能够更有效地揭示LLM在事实核查方面的不足。这种以模型为中心的动态评估方法能够提供更细粒度的模型性能分析。
技术框架:FACT-AUDIT框架包含以下几个主要模块:1) 数据生成器:利用多智能体协作和重要性抽样,生成多样化和具有挑战性的事实核查案例。2) 模型评估器:使用生成的数据集评估LLM的事实核查能力,包括结论预测和论证生成。3) 评估更新器:根据模型评估结果,更新数据集的分布,使后续生成的数据更集中于模型容易出错的区域。整个过程迭代进行,直到达到预定的评估标准。
关键创新:FACT-AUDIT的关键创新在于其动态和自适应的评估方法。与传统的静态数据集评估不同,FACT-AUDIT能够根据被评估模型的表现,动态调整测试用例的难度和分布,从而更有效地发现模型的弱点。此外,FACT-AUDIT同时评估结论预测和论证生成,提供了更全面的模型性能分析。
关键设计:在数据生成器中,使用了重要性抽样来提高生成具有挑战性案例的效率。具体来说,根据模型在先前迭代中的表现,调整不同类型事实核查案例的生成概率。在模型评估器中,使用了多种指标来评估模型的结论预测准确性和论证生成质量。评估更新器则根据这些指标,调整数据生成器的参数,以生成更具挑战性的案例。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FACT-AUDIT能够有效区分不同的LLM,并揭示它们在事实核查方面的优势和不足。例如,在特定类型的事实核查案例中,某些模型表现出较高的准确率,但在其他类型案例中则表现较差。FACT-AUDIT能够量化这些差异,并提供关于模型性能的细粒度分析,为模型改进提供指导。
🎯 应用场景
FACT-AUDIT可应用于评估和提升大型语言模型在信息检索、新闻审核、科学研究等领域的可靠性。通过动态识别模型的弱点,可以指导模型训练和优化,提高其在实际应用中的可信度和准确性,减少虚假信息的传播,并促进负责任的人工智能发展。
📄 摘要(原文)
Large Language Models (LLMs) have significantly advanced the fact-checking studies. However, existing automated fact-checking evaluation methods rely on static datasets and classification metrics, which fail to automatically evaluate the justification production and uncover the nuanced limitations of LLMs in fact-checking. In this work, we introduce FACT-AUDIT, an agent-driven framework that adaptively and dynamically assesses LLMs' fact-checking capabilities. Leveraging importance sampling principles and multi-agent collaboration, FACT-AUDIT generates adaptive and scalable datasets, performs iterative model-centric evaluations, and updates assessments based on model-specific responses. By incorporating justification production alongside verdict prediction, this framework provides a comprehensive and evolving audit of LLMs' factual reasoning capabilities, to investigate their trustworthiness. Extensive experiments demonstrate that FACT-AUDIT effectively differentiates among state-of-the-art LLMs, providing valuable insights into model strengths and limitations in model-centric fact-checking analysis.