CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models
作者: Tong Zhang, Peixin Qin, Yang Deng, Chen Huang, Wenqiang Lei, Junhong Liu, Dingnan Jin, Hongru Liang, Tat-Seng Chua
分类: cs.CL
发布日期: 2024-05-20 (更新: 2024-06-01)
备注: Accepted to ACL 2024. Camera Ready. Our dataset is available at https://github.com/zt991211/CLAMBER
🔗 代码/项目: GITHUB
💡 一句话要点
CLAMBER:构建评估大语言模型识别和澄清歧义信息需求的基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 歧义识别 信息需求 基准测试 自然语言处理
📋 核心要点
- 现有大语言模型在处理包含歧义的用户查询时表现不足,可能导致用户不信任和不满意。
- CLAMBER基准通过精心设计的分类体系和高质量数据集,系统性地评估LLM识别和澄清歧义的能力。
- 实验表明,即使使用CoT和少样本提示,现有LLM在识别歧义和生成高质量澄清问题方面仍存在局限。
📝 摘要(中文)
大语言模型(LLMs)越来越多地被用于满足用户的信息需求,但它们在处理包含各种歧义类型的用户查询方面的有效性仍然未知,这最终会危及用户的信任和满意度。为此,我们引入了CLAMBER,这是一个使用组织良好的分类法来评估LLMs的基准。基于该分类法,我们构建了约12K高质量数据,以评估各种现成LLMs的优势、劣势和潜在风险。我们的研究结果表明,当前LLMs在识别和澄清歧义用户查询方面的实际效用有限,即使通过思维链(CoT)和少样本提示增强也是如此。这些技术可能会导致LLMs过度自信,并且仅在识别歧义方面产生边际改进。此外,由于缺乏冲突解决和不准确地利用固有知识,当前LLMs在生成高质量的澄清问题方面存在不足。在本文中,CLAMBER提出了指导,并促进了对主动和可信LLMs的进一步研究。我们的数据集可在https://github.com/zt991211/CLAMBER上获得。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLMs)在处理用户提出的包含歧义的信息需求时表现不佳的问题。现有方法,如直接回答或简单的提示工程,无法有效识别和澄清这些歧义,导致LLM给出不准确或不相关的答案,最终影响用户体验和信任度。
核心思路:论文的核心思路是构建一个专门用于评估LLM处理歧义信息需求的基准数据集和评估框架。通过系统性的测试,揭示LLM在不同类型的歧义面前的优势和劣势,并为未来的研究提供指导。
技术框架:CLAMBER基准的构建主要包含以下几个阶段:1) 定义歧义类型分类体系;2) 基于分类体系构建包含约12K个高质量数据样本的数据集,每个样本包含一个带有歧义的查询,以及对应的澄清问题和理想答案;3) 使用该数据集评估各种现成的LLM,并分析其在不同歧义类型上的表现。
关键创新:CLAMBER的关键创新在于其对歧义类型的系统性分类和高质量数据集的构建。该分类体系涵盖了多种常见的歧义类型,例如词汇歧义、指代歧义、范围歧义等。数据集中的每个样本都经过人工标注和验证,确保了数据的质量和可靠性。
关键设计:数据集构建的关键设计包括:1) 确保每个样本都包含明确的歧义点;2) 提供多个可能的澄清问题,以覆盖不同的用户意图;3) 提供针对每个澄清问题对应的理想答案。评估指标的设计侧重于评估LLM识别歧义的能力(例如,是否能够识别查询中的歧义词汇)和生成高质量澄清问题的能力(例如,澄清问题是否清晰、准确、相关)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使使用思维链(CoT)和少样本提示等技术,现有LLM在识别和澄清歧义用户查询方面的能力仍然有限。这些技术仅在识别歧义方面产生了边际改进,并且LLM在生成高质量澄清问题方面存在不足。这表明当前LLM在处理复杂信息需求方面仍有很大的提升空间。
🎯 应用场景
该研究成果可应用于提升搜索引擎、智能助手等信息检索系统的用户体验。通过识别和澄清用户查询中的歧义,系统可以更准确地理解用户意图,提供更相关的结果。未来,该研究可以促进开发更主动、更值得信赖的大语言模型,从而更好地满足用户的信息需求。
📄 摘要(原文)
Large language models (LLMs) are increasingly used to meet user information needs, but their effectiveness in dealing with user queries that contain various types of ambiguity remains unknown, ultimately risking user trust and satisfaction. To this end, we introduce CLAMBER, a benchmark for evaluating LLMs using a well-organized taxonomy. Building upon the taxonomy, we construct ~12K high-quality data to assess the strengths, weaknesses, and potential risks of various off-the-shelf LLMs. Our findings indicate the limited practical utility of current LLMs in identifying and clarifying ambiguous user queries, even enhanced by chain-of-thought (CoT) and few-shot prompting. These techniques may result in overconfidence in LLMs and yield only marginal enhancements in identifying ambiguity. Furthermore, current LLMs fall short in generating high-quality clarifying questions due to a lack of conflict resolution and inaccurate utilization of inherent knowledge. In this paper, CLAMBER presents a guidance and promotes further research on proactive and trustworthy LLMs. Our dataset is available at https://github.com/zt991211/CLAMBER