Do LLMs Provide Consistent Answers to Health-Related Questions across Languages?

📄 arXiv: 2501.14719v1 📥 PDF

作者: Ipek Baris Schlicht, Zhixue Zhao, Burcu Sayin, Lucie Flek, Paolo Rosso

分类: cs.CL, cs.AI, cs.HC, cs.IR

发布日期: 2025-01-24

备注: 9 pages. Short paper appeared at 47th European Conference on Information Retrieval (ECIR 2025)


💡 一句话要点

评估大型语言模型在多种语言下对健康问题回答的一致性,揭示潜在的医疗信息不一致风险。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多语言 健康信息 一致性评估 跨语言对齐

📋 核心要点

  1. 现有在线健康资源质量因语言而异,导致LLM在不同语言下提供一致的健康信息面临挑战。
  2. 该研究通过构建多语言健康问题数据集和设计基于提示的评估流程,来评估LLM在不同语言下回答的一致性。
  3. 实验结果揭示了LLM在不同语言下回答健康问题时存在显著不一致性,可能导致医疗信息误导。

📝 摘要(中文)

可靠的健康信息对于公共卫生至关重要,但在线健康资源的质量因语言而异,这引发了人们对大型语言模型(LLM)在医疗保健领域一致性的担忧。本研究考察了LLM在英语、德语、土耳其语和中文四种语言中对健康相关问题回答的一致性。我们大幅扩展了HealthFC数据集,按疾病类型对健康相关问题进行分类,并通过土耳其语和中文翻译扩大了其多语言范围。我们揭示了回答中存在的显著不一致性,这可能会传播错误的医疗信息。我们的主要贡献是:1)一个包含疾病类别元信息的多语言健康相关问题数据集;2)一种新颖的基于提示的评估工作流程,可以通过解析实现两种语言之间的子维度比较。我们的研究结果突出了在多语言环境中部署基于LLM的工具所面临的关键挑战,并强调需要改进跨语言对齐,以确保准确和公平的医疗保健信息。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在不同语言环境下,对健康相关问题回答一致性不足的问题。现有方法缺乏对LLM跨语言健康信息一致性的系统评估,可能导致不同语言使用者获取的健康信息质量参差不齐,甚至传播错误信息。

核心思路:论文的核心思路是通过构建一个多语言的健康相关问题数据集,并设计一种基于提示的评估工作流程,来量化LLM在不同语言下的回答一致性。通过比较LLM在不同语言下对同一问题的回答,识别潜在的不一致性,从而评估LLM在多语言健康信息服务中的可靠性。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据集构建:扩展现有的HealthFC数据集,增加土耳其语和中文翻译,并按疾病类型对问题进行分类。2) 提示工程:设计一系列提示,用于引导LLM回答健康相关问题。3) 回答生成:使用LLM生成不同语言下对同一问题的回答。4) 一致性评估:通过解析LLM的回答,进行子维度比较,量化不同语言回答之间的一致性。

关键创新:该研究的关键创新在于:1) 构建了一个包含疾病类别元信息的多语言健康相关问题数据集,为跨语言健康信息一致性评估提供了数据基础。2) 提出了一种新颖的基于提示的评估工作流程,可以通过解析LLM的回答,实现两种语言之间的子维度比较,从而更细粒度地评估回答的一致性。

关键设计:论文的关键设计包括:1) 数据集的疾病分类体系,确保问题覆盖不同类型的健康问题。2) 提示的设计,旨在引导LLM提供清晰、准确的回答。3) 一致性评估指标的选择,需要能够量化不同语言回答之间的语义相似性和信息一致性。具体参数设置、损失函数和网络结构等细节未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究结果表明,LLM在不同语言下对健康问题的回答存在显著不一致性,这表明在多语言环境中部署LLM存在潜在风险。通过对不同疾病类别问题的分析,揭示了LLM在某些特定健康领域的一致性问题更为突出。具体的性能数据和提升幅度未在摘要中明确给出,属于未知信息。

🎯 应用场景

该研究成果可应用于开发多语言健康信息服务,帮助用户获取更可靠、一致的健康信息。通过评估和改进LLM在不同语言下的健康信息服务能力,可以减少因语言差异导致的健康信息不平等,促进全球健康公平。未来,该研究可以扩展到更多语言和健康领域,为构建更可靠的多语言健康信息生态系统提供支持。

📄 摘要(原文)

Equitable access to reliable health information is vital for public health, but the quality of online health resources varies by language, raising concerns about inconsistencies in Large Language Models (LLMs) for healthcare. In this study, we examine the consistency of responses provided by LLMs to health-related questions across English, German, Turkish, and Chinese. We largely expand the HealthFC dataset by categorizing health-related questions by disease type and broadening its multilingual scope with Turkish and Chinese translations. We reveal significant inconsistencies in responses that could spread healthcare misinformation. Our main contributions are 1) a multilingual health-related inquiry dataset with meta-information on disease categories, and 2) a novel prompt-based evaluation workflow that enables sub-dimensional comparisons between two languages through parsing. Our findings highlight key challenges in deploying LLM-based tools in multilingual contexts and emphasize the need for improved cross-lingual alignment to ensure accurate and equitable healthcare information.