Accuracy and Consistency of LLMs in the Registered Dietitian Exam: The Impact of Prompt Engineering and Knowledge Retrieval

📄 arXiv: 2408.02964v2 📥 PDF

作者: Iman Azimi, Mohan Qi, Li Wang, Amir M. Rahmani, Youlin Li

分类: cs.CL

发布日期: 2024-08-06 (更新: 2024-08-07)


💡 一句话要点

评估大型语言模型在注册营养师考试中的准确性和一致性,并分析提示工程和知识检索的影响。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 注册营养师考试 提示工程 准确性 一致性 营养咨询 医学教育

📋 核心要点

  1. 现有大型语言模型在营养和饮食领域的评估不足,缺乏标准化的评估方法来衡量其性能。
  2. 利用注册营养师考试题,结合零样本、思维链等提示工程方法,全面评估LLM在营养领域的准确性和一致性。
  3. 实验结果表明,不同LLM和提示策略在不同难度和领域的题目上表现各异,提示工程对性能有显著影响。

📝 摘要(中文)

本文旨在评估大型语言模型(LLMs)在营养和饮食应用中的性能,采用注册营养师(RD)考试作为标准和全面的评估方法,考察GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro在营养查询中的准确性和一致性。评估使用了包含多个营养主题和熟练程度的1050道RD考试题。此外,首次研究了零样本(ZS)、思维链(CoT)、自洽性思维链(CoT-SC)和检索增强提示(RAP)对响应准确性和一致性的影响。研究结果表明,虽然这些LLM获得了可接受的总体性能,但其结果随不同的提示和问题领域而变化很大。GPT-4o与CoT-SC提示表现优于其他方法,而Gemini 1.5 Pro与ZS记录了最高的一致性。对于GPT-4o和Claude 3.5,CoT提高了准确性,而CoT-SC提高了准确性和一致性。RAP对于GPT-4o回答专家级问题特别有效。因此,选择适当的LLM和提示技术,根据熟练程度和特定领域量身定制,可以减轻饮食和营养聊天机器人中的错误和潜在风险。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在营养和饮食领域应用中的可靠性问题。现有方法缺乏对LLM在该领域知识掌握程度的系统评估,并且没有充分探索提示工程对LLM性能的影响。这导致LLM在营养咨询等应用中可能产生误导性或不准确的建议。

核心思路:论文的核心思路是利用注册营养师(RD)考试作为标准化的评估基准,全面考察LLM在营养知识方面的掌握程度。通过对比不同LLM在不同提示策略下的表现,分析提示工程对LLM准确性和一致性的影响,从而为选择合适的LLM和提示方法提供指导。

技术框架:整体框架包括以下几个阶段:1) 数据收集:收集1050道注册营养师考试题,涵盖多个营养主题和熟练程度。2) 模型选择:选择GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等先进的LLM。3) 提示工程:采用零样本(ZS)、思维链(CoT)、自洽性思维链(CoT-SC)和检索增强提示(RAP)等提示策略。4) 评估指标:使用准确率和一致性作为评估指标。5) 结果分析:分析不同LLM和提示策略在不同难度和领域的题目上的表现。

关键创新:论文的主要创新点在于:1) 首次将注册营养师考试作为评估LLM在营养领域知识掌握程度的标准基准。2) 系统地研究了多种提示工程方法对LLM准确性和一致性的影响。3) 揭示了不同LLM和提示策略在不同难度和领域的题目上表现的差异性,为实际应用中选择合适的LLM和提示方法提供了指导。

关键设计:论文的关键设计包括:1) 注册营养师考试题的选择,确保题目的覆盖面和难度能够全面评估LLM的营养知识。2) 提示策略的设计,包括零样本、思维链、自洽性思维链和检索增强提示,以探索不同提示方法对LLM性能的影响。3) 评估指标的选择,使用准确率和一致性来衡量LLM的性能。4) 实验设置,确保实验的公平性和可重复性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GPT-4o在CoT-SC提示下表现最佳,而Gemini 1.5 Pro在零样本提示下表现出最高的一致性。对于GPT-4o和Claude 3.5,CoT提高了准确性,CoT-SC同时提高了准确性和一致性。检索增强提示(RAP)对于GPT-4o回答专家级问题特别有效。这些结果强调了提示工程在提升LLM在特定领域应用中的重要性。

🎯 应用场景

该研究成果可应用于开发更可靠的营养咨询聊天机器人,辅助临床营养决策,并提升医学教育质量。通过选择合适的LLM和提示策略,可以降低营养咨询中的错误风险,为用户提供更准确、一致的营养建议。此外,该研究方法可推广至其他专业领域,用于评估LLM的专业知识水平。

📄 摘要(原文)

Large language models (LLMs) are fundamentally transforming human-facing applications in the health and well-being domains: boosting patient engagement, accelerating clinical decision-making, and facilitating medical education. Although state-of-the-art LLMs have shown superior performance in several conversational applications, evaluations within nutrition and diet applications are still insufficient. In this paper, we propose to employ the Registered Dietitian (RD) exam to conduct a standard and comprehensive evaluation of state-of-the-art LLMs, GPT-4o, Claude 3.5 Sonnet, and Gemini 1.5 Pro, assessing both accuracy and consistency in nutrition queries. Our evaluation includes 1050 RD exam questions encompassing several nutrition topics and proficiency levels. In addition, for the first time, we examine the impact of Zero-Shot (ZS), Chain of Thought (CoT), Chain of Thought with Self Consistency (CoT-SC), and Retrieval Augmented Prompting (RAP) on both accuracy and consistency of the responses. Our findings revealed that while these LLMs obtained acceptable overall performance, their results varied considerably with different prompts and question domains. GPT-4o with CoT-SC prompting outperformed the other approaches, whereas Gemini 1.5 Pro with ZS recorded the highest consistency. For GPT-4o and Claude 3.5, CoT improved the accuracy, and CoT-SC improved both accuracy and consistency. RAP was particularly effective for GPT-4o to answer Expert level questions. Consequently, choosing the appropriate LLM and prompting technique, tailored to the proficiency level and specific domain, can mitigate errors and potential risks in diet and nutrition chatbots.