OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs
作者: Hasan Iqbal, Yuxia Wang, Minghan Wang, Georgi Georgiev, Jiahui Geng, Iryna Gurevych, Preslav Nakov
分类: cs.CL, cs.AI
发布日期: 2024-08-06 (更新: 2025-10-28)
备注: 11 pages, 4 Figures, 3 Tables, Published In Proceedings of The 2024 Conference on Empirical Methods in Natural Language Processing
期刊: In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 219-229, Miami, Florida, USA. Association for Computational Linguistics
DOI: 10.18653/v1/2024.emnlp-demo.23
🔗 代码/项目: GITHUB
💡 一句话要点
OpenFactCheck:用于大语言模型事实性评估的统一框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 事实性评估 自动事实检查 自然语言处理 开源框架
📋 核心要点
- 大语言模型容易产生幻觉,现有评估方法缺乏统一标准,难以比较不同模型的事实性。
- OpenFactCheck框架通过模块化设计,提供定制化的事实检查流程,评估LLM和事实检查系统的性能。
- OpenFactCheck以开源Python库和Web服务的形式发布,方便研究人员和开发者使用和扩展。
📝 摘要(中文)
随着大语言模型(LLMs)在各种实际应用中的日益普及,对它们输出的事实准确性进行自动检查的需求也日益增长,因为LLMs经常产生幻觉。这是一项具有挑战性的任务,因为它需要评估自由形式的开放领域响应的事实性。虽然关于这个主题的研究很多,但不同的论文使用不同的评估基准和指标,这使得它们难以比较,并阻碍了未来的进展。为了缓解这些问题,我们开发了OpenFactCheck,一个统一的框架,包含三个模块:(i)RESPONSEEVAL,允许用户轻松定制自动事实检查系统,并使用该系统评估输入文档中所有声明的事实性,(ii)LLMEVAL,评估LLM的整体事实性,以及(iii)CHECKEREVAL,一个用于评估自动事实检查系统的模块。OpenFactCheck是开源的,并公开发布为Python库和Web服务。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLMs)生成内容的事实性评估问题。现有方法使用不同的评估基准和指标,导致难以比较不同LLM的事实性,阻碍了该领域的发展。此外,缺乏统一的框架来评估自动事实检查系统本身。
核心思路:论文的核心思路是构建一个统一的、模块化的框架,允许用户自定义事实检查流程,并提供评估LLM和事实检查系统的工具。通过提供标准化的评估流程和指标,促进该领域的研究进展。
技术框架:OpenFactCheck框架包含三个主要模块:RESPONSEEVAL、LLMEVAL和CHECKEREVAL。RESPONSEEVAL允许用户自定义事实检查系统,并评估输入文档中所有声明的事实性。LLMEVAL评估LLM的整体事实性。CHECKEREVAL用于评估自动事实检查系统。
关键创新:OpenFactCheck的关键创新在于其统一性和模块化设计。它提供了一个通用的框架,可以集成不同的事实检查方法和评估指标,从而方便研究人员进行比较和改进。此外,它还提供了一个专门的模块来评估事实检查系统本身,这在以前的研究中很少见。
关键设计:论文没有详细描述具体的参数设置、损失函数或网络结构等技术细节。该框架的主要贡献在于其整体架构和模块化设计,而不是特定的算法或模型。
🖼️ 关键图片
📊 实验亮点
OpenFactCheck作为一个统一的框架,集成了RESPONSEEVAL、LLMEVAL和CHECKEREVAL三个模块,方便用户定制事实检查系统并评估LLM和事实检查系统的性能。该框架已开源并发布为Python库和Web服务,降低了使用门槛,促进了相关研究的开展。
🎯 应用场景
OpenFactCheck可应用于各种需要评估LLM生成内容真实性的场景,例如新闻生成、问答系统、对话机器人等。它可以帮助开发者选择和优化LLM,提高生成内容的质量和可靠性,减少虚假信息的传播。该框架还有助于研究人员开发更有效的事实检查方法。
📄 摘要(原文)
The increased use of large language models (LLMs) across a variety of real-world applications calls for automatic tools to check the factual accuracy of their outputs, as LLMs often hallucinate. This is difficult as it requires assessing the factuality of free-form open-domain responses. While there has been a lot of research on this topic, different papers use different evaluation benchmarks and measures, which makes them hard to compare and hampers future progress. To mitigate these issues, we developed OpenFactCheck, a unified framework, with three modules: (i) RESPONSEEVAL, which allows users to easily customize an automatic fact-checking system and to assess the factuality of all claims in an input document using that system, (ii) LLMEVAL, which assesses the overall factuality of an LLM, and (iii) CHECKEREVAL, a module to evaluate automatic fact-checking systems. OpenFactCheck is open-sourced (https://github.com/mbzuai-nlp/openfactcheck) and publicly released as a Python library (https://pypi.org/project/openfactcheck/) and also as a web service (http://app.openfactcheck.com). A video describing the system is available at https://youtu.be/-i9VKL0HleI.