When Cow Urine Cures Constipation on YouTube: Limits of LLMs in Detecting Culture-specific Health Misinformation

📄 arXiv: 2604.22002v1 📥 PDF

作者: Anamta Khan, Ratna Kandala, Deepti, Sheza Munir, Joyojeet Pal

分类: cs.CL

发布日期: 2026-04-23

备注: To appear in the proceedings of the 2nd Workshop on Misinformation Detection in the Era of LLMs (MisD), The 20th International AAAI Conference on Web and Social Media (ICWSM) 2026


💡 一句话要点

揭示LLM在检测文化特定健康虚假信息方面的局限性:以YouTube上的印度牛尿疗法为例

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 健康虚假信息 文化特定性 话语分析 全球南方

📋 核心要点

  1. 社交媒体已成为全球南方健康信息的主要渠道,但其中充斥着文化相关的健康虚假信息,现有方法难以有效识别。
  2. 该研究通过分析YouTube上关于牛尿的讨论,揭示了LLM在处理此类文化嵌入式虚假信息时的不足。
  3. 实验表明,即使调整提示语,LLM也难以准确识别和分析此类信息,文化背景是关键影响因素。

📝 摘要(中文)

本研究以印度YouTube上关于牛尿(gomutra)的讨论为例,探讨了大型语言模型(LLM)在检测文化特定健康虚假信息方面的局限性。通过对30个多语种文本的后验LLM辅助话语分析,我们发现推广内容将神圣的传统语言与伪科学主张相结合,而复杂的辟谣内容本身也模仿了这种修辞手法,从而形成了一种LLM难以分析的修辞语域,因为LLM主要在西方语料库上进行训练。通过在三个LLM(GPT-4o、Gemini 2.5 Pro、DeepSeek-V3.1)中改变提示语的语气,我们发现,文化嵌入的健康虚假信息与普通的虚假信息不同,这种文化混淆延伸到性别化的修辞和提示语设计,从而加剧了分析的不可靠性。我们的研究结果表明,仅通过提示工程无法追溯地提高LLM辅助话语分析中的文化能力。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在检测健康领域的虚假信息时,主要依赖于西方语料库训练的数据,对于全球南方文化背景下,尤其是与传统医学、宗教信仰交织的健康虚假信息,缺乏足够的识别能力。这些信息往往采用一种特殊的修辞方式,将传统语言与伪科学主张混合,使得LLM难以有效区分真伪。现有方法难以应对这种文化嵌入式的虚假信息,导致分析结果不可靠。

核心思路:该研究的核心思路是,通过对真实案例(YouTube上关于牛尿的讨论)进行分析,揭示LLM在处理文化特定健康虚假信息时的局限性。研究人员认为,文化背景是影响LLM性能的关键因素,仅仅依靠提示工程无法弥补LLM在文化理解方面的不足。

技术框架:该研究采用后验LLM辅助话语分析的方法。首先,收集YouTube上关于牛尿讨论的多语种文本。然后,使用不同的LLM(GPT-4o、Gemini 2.5 Pro、DeepSeek-V3.1)对这些文本进行分析,并改变提示语的语气,观察LLM的分析结果。最后,对LLM的分析结果进行人工评估,分析LLM在识别文化特定健康虚假信息方面的表现。

关键创新:该研究的关键创新在于,它揭示了LLM在处理文化特定健康虚假信息方面的局限性,并指出文化背景是影响LLM性能的关键因素。与以往的研究不同,该研究关注的是文化嵌入式的虚假信息,而不是普通的虚假信息。

关键设计:研究中,关键的设计包括:1)选择YouTube上关于牛尿的讨论作为案例,因为牛尿在印度文化中具有特殊的地位,相关的讨论往往涉及传统医学和宗教信仰;2)使用不同的LLM和不同的提示语语气,以评估LLM的鲁棒性;3)对LLM的分析结果进行人工评估,以确保评估的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使调整提示语,LLM在识别文化嵌入的健康虚假信息时仍然表现不佳。例如,LLM难以区分将牛尿描述为“神圣药物”和“未经证实的疗法”之间的细微差别,这凸显了文化背景对LLM性能的显著影响。

🎯 应用场景

该研究成果可应用于改进LLM在处理多文化背景下健康信息的能力,尤其是在全球南方地区。有助于开发更有效的虚假信息检测系统,提升公众健康素养,并为社交媒体平台的内容审核提供参考。

📄 摘要(原文)

Social media platforms have become primary channels for health information in the Global South. Using gomutra (cow urine) discourse on YouTube in India as a case study, we present a post-facto Large Language Model (LLM)-assisted discourse analysis of 30 multilingual transcripts showing that promotional content blends sacred traditional language with pseudo-scientific claims in ways that sophisticated debunking content itself mirrors, creating a rhetorical register that LLMs, trained predominantly on Western corpora, are systematically ill-equipped to analyse. Varying prompt tone across three LLMs (GPT-4o, Gemini 2.5 Pro, DeepSeek-V3.1), we find that culturally embedded health misinformation does not look like ordinary misinformation, and this cultural obfuscation extends to gendered rhetoric and prompt design, compounding analytical unreliability. Our findings argue that cultural competency in LLM-assisted discourse analysis cannot be retrofitted through prompt engineering alone.