OpenFActScore: Open-Source Atomic Evaluation of Factuality in Text Generation
作者: Lucas Fonseca Lage, Simon Ostermann
分类: cs.CL, cs.AI
发布日期: 2025-07-08
备注: Submitted to EMNLP 2025 System Demonstrations track
🔗 代码/项目: GITHUB
💡 一句话要点
提出OpenFActScore,用于开源评估文本生成的事实性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事实性评估 文本生成 大型语言模型 开源工具 原子事实生成 原子事实验证 Hugging Face 可信度
📋 核心要点
- 现有事实性评估方法依赖闭源模型,成本高且缺乏透明度,限制了研究和应用的广泛开展。
- OpenFActScore通过开源实现原子事实生成和验证,支持Hugging Face模型,降低了评估成本和门槛。
- 实验表明,开源模型在事实性评估上可媲美闭源模型,Gemma表现最佳,且与原FActScore高度相关。
📝 摘要(中文)
本文介绍了OpenFActScore,一个用于评估大型语言模型(LLM)生成文本事实性的FActScore框架的开源实现。FActScore通过原子事实生成(AFG)提取单个事实性声明,并通过原子事实验证(AFV)对照可信知识源验证每个声明,从而评估长文本的事实准确性。原始FActScore依赖于闭源和商业模型,如InstructGPT和ChatGPT,而OpenFActScore允许使用任何Hugging Face兼容模型进行AFG和AFV。本文提供了实现的详细技术概述,重点介绍了为支持开放模型而进行的设计选择和修改。使用原始FActScore基准评估了多个开源LLM在AFG和AFV上的表现,报告了AFG的BERTScore-F1和AFV的相对于人工标注的错误率。结果表明,开放模型可以接近闭源系统的性能,其中Gemma取得了最佳的总体性能,并且最终设置与原始FActScore实验获得了0.99的Pearson相关性。OpenFActScore提高了透明度、可重复性和成本效益,项目地址为:https://github.com/lflage/OpenFActScore。
🔬 方法详解
问题定义:论文旨在解决大型语言模型生成文本的事实性评估问题。现有方法,如原始FActScore,依赖于闭源的商业模型(如InstructGPT和ChatGPT),这使得评估成本高昂,并且缺乏透明度和可复现性,阻碍了该领域的研究进展。
核心思路:论文的核心思路是将FActScore框架开源化,使其能够利用Hugging Face Hub上大量的开源语言模型进行原子事实生成(AFG)和原子事实验证(AFV)。通过这种方式,降低了事实性评估的成本,提高了透明度和可复现性,并促进了社区的参与。
技术框架:OpenFActScore的整体框架与原始FActScore类似,包含两个主要模块:原子事实生成(AFG)和原子事实验证(AFV)。首先,AFG模块从生成的文本中提取出独立的、可验证的事实性声明。然后,AFV模块使用可信的知识来源(例如维基百科)来验证每个事实性声明的准确性。OpenFActScore的关键在于将这两个模块中的闭源模型替换为开源的Hugging Face模型。
关键创新:最重要的技术创新在于将整个事实性评估流程开源化,使得研究人员和开发者可以使用各种开源语言模型进行AFG和AFV。这与原始FActScore依赖于闭源模型形成了鲜明对比,极大地提高了透明度、可复现性和可访问性。
关键设计:OpenFActScore的关键设计在于其灵活性,允许用户选择任何Hugging Face兼容的模型进行AFG和AFV。论文中评估了多个开源LLM在AFG和AFV上的表现,使用了BERTScore-F1作为AFG的评估指标,以及相对于人工标注的错误率作为AFV的评估指标。最终的设置实现了与原始FActScore实验0.99的Pearson相关性,表明其有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,开源模型在原子事实生成和验证任务上可以达到与闭源模型相近的性能。Gemma模型在整体表现上最佳,并且OpenFActScore的最终设置与原始FActScore实验结果的相关性高达0.99,验证了其有效性和可靠性。这些结果突出了开源模型在事实性评估领域的潜力。
🎯 应用场景
OpenFActScore可广泛应用于评估各种文本生成任务中生成内容的事实性,例如:新闻生成、摘要生成、对话系统等。它有助于提高生成内容的质量和可信度,减少虚假信息的传播。此外,开源的特性也使得研究人员可以更方便地进行算法改进和模型优化。
📄 摘要(原文)
We introduce OpenFActScore, an open-source implementation of the FActScore framework for evaluating the factuality of text generated by large language models (LLMs). FActScore evaluates the factual accuracy of long-form text by using Atomic Fact Generation (AFG) to extract individual factual claims and Atomic Fact Validation (AFV) to verify each claim against a trusted knowledge source. While the original FActScore relies on closed-source and commercial models such as InstructGPT and ChatGPT, OpenFActScore enables the use of any Hugging Face-compatible model for both AFG and AFV. We provide a detailed technical overview of our implementation, highlighting design choices and modifications made to support open models. We evaluate multiple open-source LLMs on both AFG and AFV using the original FActScore benchmark, reporting BERTScore-F1 for AFG and Error Rate relative to human annotations for AFV. Our results show that open models can approximate the performance of closed-source systems, with Gemma achieving the best overall performance, and our final setup obtains a 0.99 Pearson correlation with the original FActScore experiments. OpenFActScore promotes transparency, reproducibility, and cost-effective evaluation, and is available at: https://github.com/lflage/OpenFActScore.