FECT: Factuality Evaluation of Interpretive AI-Generated Claims in Contact Center Conversation Transcripts

📄 arXiv: 2508.00889v1 📥 PDF

作者: Hagyeong Shin, Binoy Robin Dalal, Iwona Bialynicka-Birula, Navjot Matharu, Ryan Muir, Xingwei Yang, Samuel W. K. Wong

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-26

备注: Accepted for an oral presentation at Agentic & GenAI Evaluation KDD 2025: KDD workshop on Evaluation and Trustworthiness of Agentic and Generative AI Models


💡 一句话要点

提出FECT基准数据集,用于评估AI在联络中心对话转录中生成解释性声明的真实性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 真实性评估 大型语言模型 联络中心对话 解释性声明 基准数据集

📋 核心要点

  1. 现有方法缺乏对联络中心对话中AI生成解释性声明真实性的有效评估手段,缺乏标注数据。
  2. 论文提出3D范式指导人工标注,分解、解耦和分离评估标准,确保真实性标签与语言学信息对齐。
  3. 构建了FECT基准数据集,用于评估AI在联络中心对话转录中生成解释性声明的真实性,并进行了实验。

📝 摘要(中文)

大型语言模型(LLMs)容易产生幻觉,生成的内容并非基于输入、参考资料或真实世界知识。在企业应用中,这种幻觉可能对业务决策产生不利影响。分析和总结联络中心对话的LLM在真实性评估方面面临独特的挑战,因为对于对话中情感和业务问题根本原因的分析解释通常不存在ground-truth标签。为了解决这个问题,我们首先在人工标注指南和LLM-judges的提示中引入了一个 extbf{3D} -- extbf{分解(Decompose), 解耦(Decouple), 分离(Detach)} -- 范式,以语言学信息驱动的评估标准为基础来标注真实性。然后,我们引入了 extbf{FECT},这是一个新的基准数据集,用于 extbf{F}actuality extbf{E}valuation of extbf{C}laims in Contact Center Conversation extbf{T}ranscripts(联络中心对话转录中AI生成解释性声明的真实性评估),该数据集根据我们的3D范式进行标注。最后,我们报告了LLM-judges在3D范式上对齐的发现。总的来说,我们的发现为自动评估AI系统分析联络中心对话所生成输出的真实性提供了一种新方法。

🔬 方法详解

问题定义:论文旨在解决如何评估AI系统在分析联络中心对话转录时,所生成的解释性声明的真实性问题。现有方法缺乏针对此类任务的有效评估标准和标注数据,导致难以准确衡量AI模型的性能。特别是在情感分析和根本原因分析等任务中,缺乏明确的ground-truth标签,使得真实性评估更具挑战性。

核心思路:论文的核心思路是引入一个3D范式(Decompose, Decouple, Detach),用于指导人工标注过程和LLM-judges的提示。通过将复杂的解释性声明分解为更小的、可验证的单元,解耦不同评估标准之间的依赖关系,并分离主观判断和客观事实,从而更准确地标注真实性。这种方法旨在将真实性标签与语言学信息对齐,提高评估的可靠性。

技术框架:论文的技术框架主要包括以下几个阶段:1) 定义3D范式,包括分解、解耦和分离三个步骤;2) 基于3D范式设计人工标注指南,并训练标注人员;3) 构建FECT基准数据集,包含联络中心对话转录和AI生成的解释性声明,以及基于3D范式标注的真实性标签;4) 使用LLM-judges对FECT数据集进行评估,并分析LLM-judges在3D范式上的对齐情况。

关键创新:论文的关键创新点在于提出了3D范式,用于指导人工标注和LLM-judges的提示,从而更准确地评估AI系统在分析联络中心对话转录时所生成的解释性声明的真实性。与现有方法相比,3D范式能够更好地处理缺乏明确ground-truth标签的情况,提高评估的可靠性和可解释性。

关键设计:3D范式的具体设计包括:Decompose(分解):将复杂的解释性声明分解为更小的、可验证的单元,例如情感、原因、结果等;Decouple(解耦):解耦不同评估标准之间的依赖关系,例如情感极性和情感强度;Detach(分离):分离主观判断和客观事实,例如区分对话中明确表达的情感和推断的情感。此外,论文还设计了详细的人工标注指南,并对LLM-judges进行了提示工程,以确保评估结果的一致性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了FECT基准数据集,并使用LLM-judges进行了评估。实验结果表明,3D范式能够有效提高LLM-judges在真实性评估任务上的对齐程度,并为自动评估AI系统生成解释性声明的真实性提供了一种新的方法。具体的性能数据和对比基线在论文中进行了详细报告(未知具体数值)。

🎯 应用场景

该研究成果可应用于各种需要分析和总结联络中心对话的场景,例如客户服务质量评估、业务问题根本原因分析、产品改进建议等。通过自动评估AI生成解释性声明的真实性,可以提高决策的可靠性,降低因幻觉导致的风险,并最终提升客户满意度和业务效率。未来,该方法可以扩展到其他类型的文本分析任务中。

📄 摘要(原文)

Large language models (LLMs) are known to hallucinate, producing natural language outputs that are not grounded in the input, reference materials, or real-world knowledge. In enterprise applications where AI features support business decisions, such hallucinations can be particularly detrimental. LLMs that analyze and summarize contact center conversations introduce a unique set of challenges for factuality evaluation, because ground-truth labels often do not exist for analytical interpretations about sentiments captured in the conversation and root causes of the business problems. To remedy this, we first introduce a \textbf{3D} -- \textbf{Decompose, Decouple, Detach} -- paradigm in the human annotation guideline and the LLM-judges' prompt to ground the factuality labels in linguistically-informed evaluation criteria. We then introduce \textbf{FECT}, a novel benchmark dataset for \textbf{F}actuality \textbf{E}valuation of Interpretive AI-Generated \textbf{C}laims in Contact Center Conversation \textbf{T}ranscripts, labeled under our 3D paradigm. Lastly, we report our findings from aligning LLM-judges on the 3D paradigm. Overall, our findings contribute a new approach for automatically evaluating the factuality of outputs generated by an AI system for analyzing contact center conversations.