FECT: Factuality Evaluation of Interpretive AI-Generated Claims in Contact Center Conversation Transcripts

作者: Hagyeong Shin, Binoy Robin Dalal, Iwona Bialynicka-Birula, Navjot Matharu, Ryan Muir, Xingwei Yang, Samuel W. K. Wong

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-26

备注: Accepted for an oral presentation at Agentic & GenAI Evaluation KDD 2025: KDD workshop on Evaluation and Trustworthiness of Agentic and Generative AI Models

💡 一句话要点

提出FECT基准数据集，用于评估AI在联络中心对话转录中生成解释性声明的真实性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 真实性评估 大型语言模型 联络中心对话 解释性声明 基准数据集

📋 核心要点

现有方法缺乏对联络中心对话中AI生成解释性声明真实性的有效评估手段，缺乏标注数据。
论文提出3D范式指导人工标注，分解、解耦和分离评估标准，确保真实性标签与语言学信息对齐。
构建了FECT基准数据集，用于评估AI在联络中心对话转录中生成解释性声明的真实性，并进行了实验。

📝 摘要（中文）

大型语言模型(LLMs)容易产生幻觉，生成的内容并非基于输入、参考资料或真实世界知识。在企业应用中，这种幻觉可能对业务决策产生不利影响。分析和总结联络中心对话的LLM在真实性评估方面面临独特的挑战，因为对于对话中情感和业务问题根本原因的分析解释通常不存在ground-truth标签。为了解决这个问题，我们首先在人工标注指南和LLM-judges的提示中引入了一个 extbf{3D} -- extbf{分解(Decompose), 解耦(Decouple), 分离(Detach)} -- 范式，以语言学信息驱动的评估标准为基础来标注真实性。然后，我们引入了 extbf{FECT}，这是一个新的基准数据集，用于 extbf{F}actuality extbf{E}valuation of extbf{C}laims in Contact Center Conversation extbf{T}ranscripts（联络中心对话转录中AI生成解释性声明的真实性评估），该数据集根据我们的3D范式进行标注。最后，我们报告了LLM-judges在3D范式上对齐的发现。总的来说，我们的发现为自动评估AI系统分析联络中心对话所生成输出的真实性提供了一种新方法。

🔬 方法详解

问题定义：论文旨在解决如何评估AI系统在分析联络中心对话转录时，所生成的解释性声明的真实性问题。现有方法缺乏针对此类任务的有效评估标准和标注数据，导致难以准确衡量AI模型的性能。特别是在情感分析和根本原因分析等任务中，缺乏明确的ground-truth标签，使得真实性评估更具挑战性。

核心思路：论文的核心思路是引入一个3D范式（Decompose, Decouple, Detach），用于指导人工标注过程和LLM-judges的提示。通过将复杂的解释性声明分解为更小的、可验证的单元，解耦不同评估标准之间的依赖关系，并分离主观判断和客观事实，从而更准确地标注真实性。这种方法旨在将真实性标签与语言学信息对齐，提高评估的可靠性。

技术框架：论文的技术框架主要包括以下几个阶段：1) 定义3D范式，包括分解、解耦和分离三个步骤；2) 基于3D范式设计人工标注指南，并训练标注人员；3) 构建FECT基准数据集，包含联络中心对话转录和AI生成的解释性声明，以及基于3D范式标注的真实性标签；4) 使用LLM-judges对FECT数据集进行评估，并分析LLM-judges在3D范式上的对齐情况。

关键创新：论文的关键创新点在于提出了3D范式，用于指导人工标注和LLM-judges的提示，从而更准确地评估AI系统在分析联络中心对话转录时所生成的解释性声明的真实性。与现有方法相比，3D范式能够更好地处理缺乏明确ground-truth标签的情况，提高评估的可靠性和可解释性。

关键设计：3D范式的具体设计包括：Decompose（分解）：将复杂的解释性声明分解为更小的、可验证的单元，例如情感、原因、结果等；Decouple（解耦）：解耦不同评估标准之间的依赖关系，例如情感极性和情感强度；Detach（分离）：分离主观判断和客观事实，例如区分对话中明确表达的情感和推断的情感。此外，论文还设计了详细的人工标注指南，并对LLM-judges进行了提示工程，以确保评估结果的一致性和准确性。

🖼️ 关键图片

📊 实验亮点

论文构建了FECT基准数据集，并使用LLM-judges进行了评估。实验结果表明，3D范式能够有效提高LLM-judges在真实性评估任务上的对齐程度，并为自动评估AI系统生成解释性声明的真实性提供了一种新的方法。具体的性能数据和对比基线在论文中进行了详细报告（未知具体数值）。

🎯 应用场景

该研究成果可应用于各种需要分析和总结联络中心对话的场景，例如客户服务质量评估、业务问题根本原因分析、产品改进建议等。通过自动评估AI生成解释性声明的真实性，可以提高决策的可靠性，降低因幻觉导致的风险，并最终提升客户满意度和业务效率。未来，该方法可以扩展到其他类型的文本分析任务中。

📄 摘要（原文）

Large language models (LLMs) are known to hallucinate, producing natural language outputs that are not grounded in the input, reference materials, or real-world knowledge. In enterprise applications where AI features support business decisions, such hallucinations can be particularly detrimental. LLMs that analyze and summarize contact center conversations introduce a unique set of challenges for factuality evaluation, because ground-truth labels often do not exist for analytical interpretations about sentiments captured in the conversation and root causes of the business problems. To remedy this, we first introduce a \textbf{3D} -- \textbf{Decompose, Decouple, Detach} -- paradigm in the human annotation guideline and the LLM-judges' prompt to ground the factuality labels in linguistically-informed evaluation criteria. We then introduce \textbf{FECT}, a novel benchmark dataset for \textbf{F}actuality \textbf{E}valuation of Interpretive AI-Generated \textbf{C}laims in Contact Center Conversation \textbf{T}ranscripts, labeled under our 3D paradigm. Lastly, we report our findings from aligning LLM-judges on the 3D paradigm. Overall, our findings contribute a new approach for automatically evaluating the factuality of outputs generated by an AI system for analyzing contact center conversations.

FECT: Factuality Evaluation of Interpretive AI-Generated Claims in Contact Center Conversation Transcripts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理