Are Frontier Large Language Models Suitable for Q&A in Science Centres?

📄 arXiv: 2412.05200v1 📥 PDF

作者: Jacob Watson, Fabrício Góes, Marco Volpe, Talles Medeiros

分类: cs.AI

发布日期: 2024-12-06

备注: 19 pages, 2 figures, 10 tables


💡 一句话要点

评估前沿大语言模型在科技馆问答互动中的适用性,探索趣味性与准确性的平衡。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 科技馆 问答系统 提示工程 教育应用

📋 核心要点

  1. 现有科技馆互动问答系统缺乏趣味性,难以有效吸引年轻访客,而直接使用LLM可能导致事实性错误。
  2. 论文探索利用提示工程,平衡LLM生成答案的趣味性与准确性,使其更适合科技馆的教育场景。
  3. 实验表明,Claude 3.5 Sonnet在清晰度和吸引儿童方面表现更佳,但新颖性与事实可靠性之间存在权衡。

📝 摘要(中文)

本文旨在研究前沿大语言模型(LLMs)在科技馆问答互动中的适用性,以期在保持事实准确性的前提下,提升游客的参与度。我们使用从莱斯特国家航天中心(英国)收集的问题数据集,评估了三个领先模型生成的回答:OpenAI的GPT-4、Claude 3.5 Sonnet和Google Gemini 1.5。针对8岁儿童,每个模型都被提示生成标准和创造性的回答。空间科学专家根据准确性、参与度、清晰度、新颖性和与预期答案的偏差对这些回答进行了评估。结果表明,创造性和准确性之间存在权衡。Claude在保持清晰度和吸引年轻观众方面优于GPT和Gemini,即使在被要求生成更具创造性的回答时也是如此。然而,专家观察到,所有模型中,较高的新颖性通常与较低的事实可靠性相关。这项研究强调了LLM在教育环境中的潜力,并强调需要仔细进行提示工程,以平衡参与度和科学严谨性。

🔬 方法详解

问题定义:论文旨在解决科技馆等教育场所中,如何利用大型语言模型(LLM)提供既有趣又能保证科学准确性的问答服务的问题。现有方法要么缺乏趣味性,难以吸引访客,特别是儿童;要么直接使用LLM,虽然具有一定的创造性,但容易产生事实性错误,不符合教育场景的要求。

核心思路:论文的核心思路是通过精心设计的提示工程(Prompt Engineering),引导LLM在生成答案时,既能保持一定的创造性和趣味性,又能最大限度地保证科学事实的准确性。通过调整提示语,控制LLM的输出风格,使其更适合特定年龄段的受众,并降低产生错误信息的风险。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据收集:从英国国家航天中心收集真实访客提出的问题,构建测试数据集。2) 模型选择:选择三个前沿LLM模型,包括GPT-4、Claude 3.5 Sonnet和Google Gemini 1.5。3) 提示工程:设计标准提示和创造性提示,针对8岁儿童的理解能力进行优化。4) 模型推理:使用不同的提示,让LLM生成针对同一问题的多个答案。5) 人工评估:邀请空间科学领域的专家,从准确性、参与度、清晰度、新颖性和与预期答案的偏差等多个维度对LLM生成的答案进行评估。

关键创新:论文的关键创新在于:1) 针对科技馆问答场景,系统性地评估了多个前沿LLM的性能。2) 提出了通过提示工程平衡LLM生成答案的趣味性和准确性的方法。3) 通过人工评估,量化了不同LLM在不同提示下的表现,揭示了创造性和准确性之间的权衡关系。

关键设计:论文的关键设计包括:1) 针对8岁儿童的提示语设计,例如使用更简单的语言和更生动的描述。2) 多维度的评估指标,包括准确性、参与度、清晰度、新颖性和偏差,全面衡量LLM生成答案的质量。3) 对比标准提示和创造性提示,分析不同提示对LLM性能的影响。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Claude 3.5 Sonnet在保持清晰度和吸引年轻观众方面优于GPT-4和Gemini 1.5,即使在被要求生成更具创造性的回答时也是如此。然而,所有模型都存在创造性和准确性之间的权衡,即较高的新颖性通常与较低的事实可靠性相关。这强调了在教育场景中使用LLM时,需要仔细进行提示工程,以平衡参与度和科学严谨性。

🎯 应用场景

该研究成果可应用于科技馆、博物馆等教育场所的智能问答系统,提升访客的互动体验和学习效果。通过优化提示工程,可以定制更符合特定年龄段和知识背景的LLM应用,例如儿童教育机器人、智能辅导系统等。此外,该研究也为其他需要平衡创造性和准确性的LLM应用场景提供了参考,例如新闻写作、内容创作等。

📄 摘要(原文)

This paper investigates the suitability of frontier Large Language Models (LLMs) for Q&A interactions in science centres, with the aim of boosting visitor engagement while maintaining factual accuracy. Using a dataset of questions collected from the National Space Centre in Leicester (UK), we evaluated responses generated by three leading models: OpenAI's GPT-4, Claude 3.5 Sonnet, and Google Gemini 1.5. Each model was prompted for both standard and creative responses tailored to an 8-year-old audience, and these responses were assessed by space science experts based on accuracy, engagement, clarity, novelty, and deviation from expected answers. The results revealed a trade-off between creativity and accuracy, with Claude outperforming GPT and Gemini in both maintaining clarity and engaging young audiences, even when asked to generate more creative responses. Nonetheless, experts observed that higher novelty was generally associated with reduced factual reliability across all models. This study highlights the potential of LLMs in educational settings, emphasizing the need for careful prompt engineering to balance engagement with scientific rigor.