factgenie: A Framework for Span-based Evaluation of Generated Texts

作者: Zdeněk Kasner, Ondřej Plátek, Patrícia Schmidtová, Simone Balloccu, Ondřej Dušek

分类: cs.CL

发布日期: 2024-07-25

备注: Accepted to INLG 2024 (System Demonstrations)

💡 一句话要点

FactGenie：一个用于生成文本中基于Span评估的框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本生成评估 Span标注 数据可视化 Web界面 大型语言模型 语义准确性 无关文本

📋 核心要点

现有文本生成模型的评估方法难以细粒度地定位生成文本中的错误，例如语义不准确或无关信息。
FactGenie框架通过允许用户标注生成文本中的Span，从而能够捕捉到更细粒度的错误信息，例如语义不准确或无关文本。
FactGenie提供了一个Web界面，方便用户进行数据可视化和文本标注，并且其代码库易于扩展，支持从人类和大型语言模型收集标注。

📝 摘要（中文）

本文介绍FactGenie，一个用于注释和可视化文本模型输出中词语Span的框架。注释可以捕捉各种基于Span的现象，例如语义不准确或不相关的文本。借助FactGenie，可以从人类众包工作者和大型语言模型收集注释。我们的框架包含一个用于数据可视化和收集文本注释的Web界面，并由一个易于扩展的代码库提供支持。

🔬 方法详解

问题定义：现有文本生成模型的评估方法通常是基于整体的指标，例如BLEU或ROUGE，这些指标无法提供细粒度的错误信息。例如，当模型生成了包含语义错误或无关信息的文本时，这些指标可能无法准确地反映出来。因此，需要一种能够对生成文本进行细粒度评估的方法，以便更好地理解模型的优缺点。

核心思路：FactGenie的核心思路是允许用户标注生成文本中的Span，并根据标注结果来评估模型的性能。通过标注Span，可以捕捉到更细粒度的错误信息，例如语义不准确或无关文本。这种方法可以帮助研究人员更好地理解模型的行为，并为改进模型提供指导。

技术框架：FactGenie框架包含一个Web界面和一个代码库。Web界面用于数据可视化和文本标注，用户可以在Web界面上查看生成文本，并标注其中的Span。代码库提供了API，用于收集和处理标注数据。整个流程包括：1. 模型生成文本；2. 用户通过Web界面标注文本中的Span；3. 代码库收集和处理标注数据；4. 根据标注数据评估模型性能。

关键创新：FactGenie的关键创新在于它提供了一个易于使用的框架，用于收集和处理基于Span的文本标注数据。与传统的评估方法相比，FactGenie能够提供更细粒度的错误信息，从而帮助研究人员更好地理解模型的行为。此外，FactGenie还支持从人类和大型语言模型收集标注，这使得研究人员可以利用不同的数据源来评估模型。

关键设计：FactGenie的Web界面采用了直观的设计，方便用户进行文本标注。用户可以使用鼠标选择文本中的Span，并为每个Span添加标签。代码库提供了API，用于存储和检索标注数据。此外，FactGenie还支持自定义标签集，以便用户可以根据自己的需求来标注文本。

🖼️ 关键图片

📊 实验亮点

FactGenie框架提供了一个用户友好的Web界面，方便用户进行数据可视化和文本标注。该框架还支持从人类和大型语言模型收集标注，从而可以利用不同的数据源来评估模型。具体实验结果未知，但该框架的易用性和灵活性使其成为评估文本生成模型的有力工具。

🎯 应用场景

FactGenie可应用于各种文本生成任务的评估，例如机器翻译、文本摘要和对话生成。它可以帮助研究人员更好地理解模型的优缺点，并为改进模型提供指导。此外，FactGenie还可以用于评估不同模型的性能，从而选择最佳的模型。

📄 摘要（原文）

We present factgenie: a framework for annotating and visualizing word spans in textual model outputs. Annotations can capture various span-based phenomena such as semantic inaccuracies or irrelevant text. With factgenie, the annotations can be collected both from human crowdworkers and large language models. Our framework consists of a web interface for data visualization and gathering text annotations, powered by an easily extensible codebase.

factgenie: A Framework for Span-based Evaluation of Generated Texts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理