TREC iKAT 2023: A Test Collection for Evaluating Conversational and Interactive Knowledge Assistants

📄 arXiv: 2405.02637v1 📥 PDF

作者: Mohammad Aliannejadi, Zahra Abbasiantaeb, Shubham Chatterjee, Jeffery Dalton, Leif Azzopardi

分类: cs.IR, cs.AI, cs.CL

发布日期: 2024-05-04

备注: To appear in SIGIR 2024. arXiv admin note: substantial text overlap with arXiv:2401.01330

DOI: 10.1145/3626772.3657860


💡 一句话要点

TREC iKAT 2023:用于评估对话式和交互式知识助手的测试数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话式搜索 交互式知识助手 个性化知识库 TREC iKAT 对话系统评估

📋 核心要点

  1. 现有对话式搜索代理在处理个性化知识和复杂决策搜索任务时面临挑战,缺乏统一的评估基准。
  2. TREC iKAT 2023 引入包含个性化知识库和决策搜索任务的数据集,旨在提供更真实的对话场景。
  3. 该数据集包含丰富的标注信息,包括相关性、完整性、有根据性和自然性,为全面评估对话式搜索代理提供支持。

📝 摘要(中文)

随着大型语言模型(LLM)的发展,对话式信息检索近年来发展迅速,为以自然的方式解释和响应用户请求奠定了基础。扩展的TREC交互式知识助手评测(iKAT)数据集旨在使研究人员能够测试和评估他们的对话式搜索代理(CSA)。该数据集包含一组36个个性化对话,涵盖20个不同的主题,每个主题都配有一个个人文本知识库(PTKB),用于定义定制的用户角色。总共提供了344个对话轮次,约26,000个段落作为相关性评估,以及对生成响应在四个关键维度上的额外评估:相关性、完整性、有根据性和自然性。该数据集挑战CSA有效地导航不同的个人背景,引出相关的角色信息,并利用上下文进行相关的对话。PTKB的集成和对决策搜索任务的强调使该测试数据集具有独特性,使其成为推进对话式和交互式知识助手研究的重要基准。

🔬 方法详解

问题定义:现有对话式搜索代理(CSA)在处理个性化信息检索和决策支持任务时面临挑战。传统的评估方法往往缺乏对用户个性化知识背景的考虑,难以衡量CSA在复杂决策场景下的表现。因此,需要一个能够模拟真实用户交互场景,并包含个性化知识库的测试数据集,以促进CSA的进一步发展。

核心思路:TREC iKAT 2023 的核心思路是构建一个包含个性化文本知识库(PTKB)的对话数据集,模拟用户在特定主题下的个性化知识背景。通过提供一系列对话场景和相应的评估指标,该数据集旨在挑战CSA有效地利用PTKB,进行相关性检索和生成自然流畅的对话。

技术框架:TREC iKAT 2023 数据集主要包含以下几个部分:1) 36个个性化对话,涵盖20个不同的主题;2) 每个对话都配有一个PTKB,用于定义用户的个性化知识背景;3) 344个对话轮次,包含约26,000个段落,作为相关性评估的依据;4) 对生成响应在相关性、完整性、有根据性和自然性四个维度上的评估。研究人员可以使用该数据集训练和评估CSA,并根据评估结果进行改进。

关键创新:TREC iKAT 2023 的关键创新在于集成了PTKB,并强调了决策搜索任务。与传统的对话数据集相比,该数据集更注重模拟真实用户的个性化知识背景,并挑战CSA在复杂决策场景下的表现。此外,该数据集还提供了全面的评估指标,为CSA的全面评估提供了支持。

关键设计:PTKB的设计是该数据集的关键组成部分。每个PTKB都包含一系列文本段落,用于描述用户的个性化知识背景。这些段落可以来自不同的来源,例如用户的个人笔记、社交媒体帖子或网页浏览历史。数据集的设计者精心挑选了这些段落,以确保它们与对话主题相关,并能够反映用户的个性化知识背景。此外,数据集还提供了详细的标注信息,包括每个段落的相关性得分和生成响应的质量评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TREC iKAT 2023 提供了一个包含36个个性化对话和20个主题的数据集,包含344个对话轮次和约26,000个段落。该数据集对生成响应在相关性、完整性、有根据性和自然性四个维度上进行了评估,为对话式搜索代理的全面评估提供了基准。

🎯 应用场景

该研究成果可广泛应用于智能客服、个性化推荐、智能助手等领域。通过利用个性化知识库和对话历史,可以构建更智能、更贴近用户需求的对话系统,提升用户体验。未来,该数据集可以促进对话式人工智能在医疗、金融、教育等领域的应用。

📄 摘要(原文)

Conversational information seeking has evolved rapidly in the last few years with the development of Large Language Models (LLMs), providing the basis for interpreting and responding in a naturalistic manner to user requests. The extended TREC Interactive Knowledge Assistance Track (iKAT) collection aims to enable researchers to test and evaluate their Conversational Search Agents (CSA). The collection contains a set of 36 personalized dialogues over 20 different topics each coupled with a Personal Text Knowledge Base (PTKB) that defines the bespoke user personas. A total of 344 turns with approximately 26,000 passages are provided as assessments on relevance, as well as additional assessments on generated responses over four key dimensions: relevance, completeness, groundedness, and naturalness. The collection challenges CSA to efficiently navigate diverse personal contexts, elicit pertinent persona information, and employ context for relevant conversations. The integration of a PTKB and the emphasis on decisional search tasks contribute to the uniqueness of this test collection, making it an essential benchmark for advancing research in conversational and interactive knowledge assistants.