CHBench: A Chinese Dataset for Evaluating Health in Large Language Models

作者: Chenlu Guo, Nuo Xu, Yi Chang, Yuan Wu

分类: cs.CL

发布日期: 2024-09-24 (更新: 2025-02-21)

备注: 11 pages

🔗 代码/项目: GITHUB

💡 一句话要点

提出CHBench：首个面向中文大语言模型健康安全评估的综合基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 健康评估 中文数据集 安全基准 心理健康 身体健康 自然语言处理

📋 核心要点

现有大语言模型在健康领域的应用面临安全性和准确性的挑战，错误信息可能导致严重后果。
CHBench旨在提供一个全面的中文健康基准，用于评估LLM在身心健康问题上的理解和安全处理能力。
实验评估了四个主流中文LLM，揭示了它们在提供安全准确健康信息方面的不足，亟需改进。

📝 摘要（中文）

随着大型语言模型（LLMs）的快速发展，评估其在健康相关查询方面的性能变得越来越重要。在实际应用中使用这些模型时，错误信息可能对寻求医疗建议和支持的个人造成严重后果，因此必须严格关注安全性和可信度。本文介绍了CHBench，这是第一个全面的、面向安全的中文健康相关基准，旨在评估LLM在理解和解决各种场景下的身心健康问题方面的能力，并从安全角度出发。CHBench包含6,493个关于心理健康的条目和2,999个关于身体健康的条目，涵盖了广泛的主题。我们对四个流行的中文LLM进行了广泛的评估，结果表明它们在提供安全和准确的健康信息方面的能力存在显著差距，突显了在这个关键领域进一步发展的迫切需要。代码可在https://github.com/TracyGuo2001/CHBench获取。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在中文健康领域应用中，缺乏安全性和准确性评估标准的问题。现有方法难以全面评估LLM在处理涉及身体和心理健康问题时的风险，例如提供不准确、误导性或有害的建议。这使得LLM在实际医疗场景中的应用面临潜在风险。

核心思路：论文的核心思路是构建一个全面的、面向安全的中文健康基准数据集CHBench。该数据集覆盖了广泛的身心健康主题，并从安全角度设计了评估指标。通过CHBench，可以系统地评估LLM在理解和解决健康问题时的能力，并识别其潜在的安全风险。

技术框架：CHBench的构建流程主要包括以下几个阶段：1) 确定健康主题范围，涵盖常见的身体和心理健康问题；2) 收集和整理相关数据，包括问题、答案和安全评估标签；3) 设计评估指标，用于衡量LLM在准确性、安全性和可靠性方面的表现；4) 使用CHBench对多个LLM进行评估，并分析其优缺点。

关键创新：CHBench的关键创新在于其专注于中文健康领域，并强调安全性评估。与现有的通用型基准数据集不同，CHBench专门针对健康相关问题设计，并考虑了中文语言的特点。此外，CHBench还引入了安全评估指标，用于衡量LLM在提供健康建议时的潜在风险。

关键设计：CHBench包含6,493个心理健康条目和2,999个身体健康条目，覆盖了广泛的主题。数据集中的每个条目都包含问题、参考答案和安全评估标签。安全评估标签用于指示答案是否包含不准确、误导性或有害的信息。评估指标包括准确率、召回率、F1值等，以及专门设计的安全指标，例如有害信息检出率。

🖼️ 关键图片

📊 实验亮点

对四个主流中文LLM的评估结果表明，它们在提供安全和准确的健康信息方面存在显著差距。具体而言，某些模型在处理特定健康问题时，容易产生不准确或误导性的答案，甚至可能提供有害的建议。这些结果突显了在健康领域应用LLM时，进行严格安全评估的必要性。

🎯 应用场景

CHBench可用于评估和改进大型语言模型在健康领域的应用，例如智能问诊、健康咨询和心理辅导。通过使用CHBench进行评估，可以提高LLM在提供健康信息时的安全性和准确性，从而降低潜在的医疗风险。该基准还有助于推动中文健康语言处理领域的研究。

📄 摘要（原文）

With the rapid development of large language models (LLMs), assessing their performance on health-related inquiries has become increasingly essential. The use of these models in real-world contexts-where misinformation can lead to serious consequences for individuals seeking medical advice and support-necessitates a rigorous focus on safety and trustworthiness. In this work, we introduce CHBench, the first comprehensive safety-oriented Chinese health-related benchmark designed to evaluate LLMs' capabilities in understanding and addressing physical and mental health issues with a safety perspective across diverse scenarios. CHBench comprises 6,493 entries on mental health and 2,999 entries on physical health, spanning a wide range of topics. Our extensive evaluations of four popular Chinese LLMs highlight significant gaps in their capacity to deliver safe and accurate health information, underscoring the urgent need for further advancements in this critical domain. The code is available at https://github.com/TracyGuo2001/CHBench.

CHBench: A Chinese Dataset for Evaluating Health in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理