Artificial Intelligence health advice accuracy varies across languages and contexts

作者: Prashant Garg, Thiemo Fetzer

分类: econ.GN, cs.AI, cs.CY, cs.HC, cs.LG

发布日期: 2025-04-25

备注: 10 pages, 2 figures. All data, code and materials used is freely available in the Zenodo (DOI: 10.5281/zenodo.15281282)

💡 一句话要点

评估AI健康建议在多语言和多情境下的准确性，揭示其在非英语环境中的性能差异。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言评估 大型语言模型 健康信息 AI准确性 跨语言应用

📋 核心要点

现有AI健康建议在不同语言和情境下的准确性存在差异，尤其是在非英语环境中。
本研究通过多语言基准测试，评估大型语言模型在不同主题和来源下的健康建议准确性。
实验结果表明，模型在非欧洲语言和特定主题上的性能下降，强调了多语言验证的重要性。

📝 摘要（中文）

本研究使用英国和欧盟注册机构授权的基本健康声明，以及来自同行评审期刊、政府建议、社交媒体和新闻等涵盖堕胎、COVID-19和政治等主题的9100条经记者审查的公共卫生主张，对六个领先的大型语言模型在21种语言中的性能进行了基准测试。结果表明，尽管这些模型在以英语为中心的教科书式声明中表现出较高的准确性，但在多种非欧洲语言中的性能有所下降，并且因主题和来源而异。这突显了在全球健康传播中部署AI之前进行全面的多语言、领域感知验证的紧迫性。

🔬 方法详解

问题定义：该论文旨在解决大型语言模型（LLMs）在提供多语言健康建议时准确性不足的问题。现有方法主要集中在英语数据集上进行训练和评估，忽略了不同语言和文化背景下健康信息的差异，导致模型在非英语环境下的性能下降。此外，现有方法缺乏对健康信息来源可靠性的考量，可能导致模型输出不准确甚至有害的建议。

核心思路：该论文的核心思路是通过构建一个多语言、多来源的健康信息基准数据集，对LLMs在不同语言和情境下的健康建议准确性进行全面评估。通过分析模型在不同语言、主题和来源上的性能差异，揭示模型在多语言健康信息处理方面的局限性，并为未来的模型改进提供指导。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 构建多语言健康信息基准数据集，涵盖多种语言、主题和来源；2) 选择六个领先的LLMs进行评估；3) 使用基准数据集对LLMs进行测试，评估其在不同语言、主题和来源上的健康建议准确性；4) 分析实验结果，揭示模型在多语言健康信息处理方面的局限性。

关键创新：该论文的关键创新在于构建了一个多语言、多来源的健康信息基准数据集，并使用该数据集对LLMs在不同语言和情境下的健康建议准确性进行了全面评估。该研究揭示了LLMs在非英语环境下的性能下降问题，并强调了多语言验证的重要性。

关键设计：该研究的关键设计包括：1) 数据集的构建，确保涵盖多种语言、主题和来源，并经过人工审核以保证信息的准确性；2) 评估指标的选择，采用准确率等指标来衡量模型在不同语言和情境下的健康建议准确性；3) 模型选择，选择六个领先的LLMs进行评估，以保证研究结果的代表性。

📊 实验亮点

实验结果表明，尽管LLMs在英语健康信息上表现出较高的准确性，但在多种非欧洲语言中的性能显著下降。例如，在某些语言中，模型的准确率下降了超过20%。此外，模型的性能还受到信息来源的影响，来自社交媒体等非权威来源的信息更容易导致模型产生错误的建议。

🎯 应用场景

该研究成果可应用于开发更可靠、更准确的多语言健康信息服务，帮助用户获取高质量的健康建议。通过改进AI模型在非英语环境下的性能，可以促进全球健康公平，使更多人受益于AI技术。此外，该研究也为AI在其他领域的跨语言应用提供了借鉴。

📄 摘要（原文）

Using basic health statements authorized by UK and EU registers and 9,100 journalist-vetted public-health assertions on topics such as abortion, COVID-19 and politics from sources ranging from peer-reviewed journals and government advisories to social media and news across the political spectrum, we benchmark six leading large language models from in 21 languages, finding that, despite high accuracy on English-centric textbook claims, performance falls in multiple non-European languages and fluctuates by topic and source, highlighting the urgency of comprehensive multilingual, domain-aware validation before deploying AI in global health communication.

Artificial Intelligence health advice accuracy varies across languages and contexts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理