Evaluating Large Language Models for Health-related Queries with Presuppositions
作者: Navreet Kaur, Monojit Choudhury, Danish Pruthi
分类: cs.CL, cs.AI, cs.HC, cs.LG
发布日期: 2023-12-14 (更新: 2024-08-31)
备注: Findings of ACL 2024
💡 一句话要点
UPHILL数据集揭示大型语言模型在处理带预设的健康查询时的事实性缺陷
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 健康查询 预设 事实准确性 一致性 数据集 评估
📋 核心要点
- 现有大型语言模型在处理带有预设的健康相关查询时,容易受到预设的影响,导致输出不准确甚至错误的健康信息。
- 论文提出UPHILL数据集,包含不同程度预设的健康相关查询,用于评估LLM的事实准确性和一致性。
- 实验结果表明,InstructGPT和ChatGPT容易受到预设的影响,而BingChat由于依赖检索网页,受影响较小。
📝 摘要(中文)
随着公司竞相将大型语言模型(LLM)集成到其搜索产品中,确保它们提供事实准确的信息,并且能够应对用户可能表达的任何预设至关重要。本文介绍了UPHILL,一个包含具有不同程度预设的健康相关查询的数据集。利用UPHILL,我们评估了InstructGPT、ChatGPT和BingChat模型的事实准确性和一致性。我们发现,虽然模型响应很少与真实健康声明(以问题的形式提出)相矛盾,但它们常常未能挑战虚假声明:InstructGPT的响应与32%的虚假声明一致,ChatGPT为26%,BingChat为23%。随着输入查询中预设程度的增加,InstructGPT和ChatGPT的响应与声明一致的频率明显增加,无论其真实性如何。BingChat的响应依赖于检索到的网页,因此不易受到影响。鉴于适度的事实准确性,以及模型无法始终如一地纠正错误假设,我们的工作呼吁对当前LLM在高风险场景中的使用进行仔细评估。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在处理带有预设的健康相关查询时,容易产生不准确或错误回答的问题。现有方法缺乏对LLM在处理此类查询时的事实准确性和一致性的系统评估,并且LLM容易受到输入查询中预设信息的影响,从而导致误导性或有害的健康建议。
核心思路:论文的核心思路是构建一个包含不同程度预设的健康相关查询的数据集(UPHILL),并利用该数据集来评估InstructGPT、ChatGPT和BingChat等LLM的事实准确性和一致性。通过分析模型对带有不同预设的查询的响应,可以揭示模型在处理此类查询时的弱点和潜在风险。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建UPHILL数据集,该数据集包含一系列健康相关的查询,这些查询具有不同程度的预设。2) 使用UPHILL数据集评估InstructGPT、ChatGPT和BingChat等LLM。3) 分析模型对带有不同预设的查询的响应,并评估其事实准确性和一致性。4) 比较不同模型在处理带有预设的查询时的表现,并识别其优缺点。
关键创新:该论文的关键创新在于提出了UPHILL数据集,这是一个专门用于评估LLM在处理带有预设的健康相关查询时的事实准确性和一致性的数据集。该数据集的构建考虑了不同程度的预设,可以更全面地评估LLM在处理此类查询时的表现。此外,该研究还对InstructGPT、ChatGPT和BingChat等LLM进行了系统的评估,并揭示了它们在处理带有预设的查询时的弱点。
关键设计:UPHILL数据集的关键设计在于其包含不同程度的预设。预设的程度通过控制查询中包含的错误信息的数量和强度来调整。例如,一个查询可能包含一个轻微的错误信息,而另一个查询可能包含一个严重的错误信息。此外,该数据集还包含一些没有预设的查询,作为基线进行比较。模型的评估指标包括事实准确性(模型响应是否与真实健康声明一致)和一致性(模型对相同查询的不同表达方式的响应是否一致)。
📊 实验亮点
实验结果显示,InstructGPT、ChatGPT和BingChat在处理带有预设的健康相关查询时,都存在一定程度的事实性缺陷。InstructGPT与32%的虚假声明一致,ChatGPT为26%,BingChat为23%。随着预设程度的增加,InstructGPT和ChatGPT更容易受到影响,而BingChat由于依赖检索网页,受影响较小。这些结果表明,当前LLM在处理高风险场景时需要谨慎评估。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型在医疗健康领域的应用,例如智能问诊、健康咨询等。通过识别LLM在处理带有预设的查询时的弱点,可以开发更可靠、更安全的健康信息服务,避免误导用户或提供有害建议。未来的研究可以进一步探索如何提高LLM在处理此类查询时的鲁棒性和准确性。
📄 摘要(原文)
As corporations rush to integrate large language models (LLMs) to their search offerings, it is critical that they provide factually accurate information that is robust to any presuppositions that a user may express. In this work, we introduce UPHILL, a dataset consisting of health-related queries with varying degrees of presuppositions. Using UPHILL, we evaluate the factual accuracy and consistency of InstructGPT, ChatGPT, and BingChat models. We find that while model responses rarely disagree with true health claims (posed as questions), they often fail to challenge false claims: responses from InstructGPT agree with 32% of the false claims, ChatGPT 26% and BingChat 23%. As we increase the extent of presupposition in input queries, the responses from InstructGPT and ChatGPT agree with the claim considerably more often, regardless of its veracity. Responses from BingChat, which rely on retrieved webpages, are not as susceptible. Given the moderate factual accuracy, and the inability of models to consistently correct false assumptions, our work calls for a careful assessment of current LLMs for use in high-stakes scenarios.