Utilizing LLMs to Investigate the Disputed Role of Evidence in Electronic Cigarette Health Policy Formation in Australia and the UK

📄 arXiv: 2505.06782v1 📥 PDF

作者: Damian Curran, Brian Chapman, Mike Conway

分类: cs.CL, cs.SI

发布日期: 2025-05-10


💡 一句话要点

利用大型语言模型分析电子烟政策文件中证据的角色差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 电子烟政策 政策文本分析 GPT-4 健康政策 文本分类 证据评估

📋 核心要点

  1. 现有方法难以有效分析大规模政策文件,揭示不同地区对同一证据的不同解读。
  2. 利用GPT-4构建句子分类器,自动识别政策文件中关于电子烟利弊的陈述。
  3. 实验表明,澳大利亚政策文件更强调电子烟的危害,而英国则更强调其益处,F-score达到0.9。

📝 摘要(中文)

澳大利亚和英国对电子烟的监管采取了截然不同的方法,澳大利亚相对保守,而英国则更为宽松。值得注意的是,这些不同的政策是基于大致相同的证据基础制定的。为了研究这两个司法管辖区在管理和呈现证据方面的差异,本文开发并评估了一个基于大型语言模型的句子分类器,用于自动分析来自澳大利亚和英国官方立法程序的电子烟相关政策文件(共109份)。具体来说,我们利用GPT-4自动对句子进行分类,判断其是否包含电子烟对公共健康有益或有害的主张。我们的基于LLM的分类器达到了0.9的F-score。此外,当将分类器应用于我们的整个句子级语料库时,我们发现澳大利亚的立法文件显示出更高比例的有害陈述,以及更低比例的有益陈述,与预期值相比存在显著差异,而英国的情况则相反。总之,这项工作利用基于LLM的方法,为以下观点提供了证据支持:在相同的证据基础上,澳大利亚与电子烟相关的政策文件强调了与电子烟产品相关的危害,而英国的政策文件则强调了其益处。此外,我们的方法为使用基于LLM的方法来研究证据与健康政策制定之间复杂关系提供了一个起点。

🔬 方法详解

问题定义:本研究旨在解决澳大利亚和英国在电子烟政策制定中,如何基于相同证据基础却得出不同结论的问题。现有方法难以高效分析大量政策文件,无法量化不同政策立场对证据的侧重程度。因此,需要一种自动化的方法来分析政策文件中关于电子烟利弊的陈述,从而揭示不同地区对证据的不同解读。

核心思路:核心思路是利用大型语言模型(LLM)的强大文本理解和分类能力,构建一个句子分类器,自动识别政策文件中关于电子烟利弊的陈述。通过量化不同类型的陈述在不同地区的政策文件中出现的频率,可以推断出不同地区在政策制定中对证据的侧重程度。

技术框架:整体框架包括以下几个步骤:1) 收集澳大利亚和英国的电子烟相关政策文件;2) 将政策文件分割成句子;3) 使用GPT-4对每个句子进行分类,判断其是否包含电子烟对公共健康有益或有害的主张;4) 统计不同类型的陈述在不同地区的政策文件中出现的频率;5) 分析统计结果,推断不同地区在政策制定中对证据的侧重程度。

关键创新:关键创新在于将大型语言模型应用于政策文本分析领域,实现对政策文件中隐含信息的自动化提取和量化。与传统的人工分析方法相比,该方法具有更高的效率和可扩展性。此外,该研究还提出了一种基于LLM的句子分类方法,可以有效地识别政策文件中关于电子烟利弊的陈述。

关键设计:该研究使用了GPT-4作为句子分类器的基础模型。在训练过程中,研究人员构建了一个包含电子烟相关政策文件的标注数据集,用于微调GPT-4模型。分类任务被定义为一个二元分类问题,即判断句子是否包含电子烟对公共健康有益或有害的主张。研究人员使用了F-score作为评估指标,以衡量分类器的性能。

📊 实验亮点

实验结果表明,基于GPT-4的句子分类器能够有效地识别政策文件中关于电子烟利弊的陈述,F-score达到0.9。通过对澳大利亚和英国政策文件的分析,发现澳大利亚政策文件更强调电子烟的危害,而英国则更强调其益处,这与两国的政策立场相符。该研究为量化分析政策文本提供了一种有效的方法。

🎯 应用场景

该研究的方法可以应用于其他健康政策领域,例如疫苗接种、食品安全等。通过分析政策文件,可以了解不同地区或组织在政策制定中对不同证据的侧重程度,从而促进更科学、更透明的政策制定过程。此外,该方法还可以用于监测政策执行情况,评估政策效果。

📄 摘要(原文)

Australia and the UK have developed contrasting approaches to the regulation of electronic cigarettes, with - broadly speaking - Australia adopting a relatively restrictive approach and the UK adopting a more permissive approach. Notably, these divergent policies were developed from the same broad evidence base. In this paper, to investigate differences in how the two jurisdictions manage and present evidence, we developed and evaluated a Large Language Model-based sentence classifier to perform automated analyses of electronic cigarette-related policy documents drawn from official Australian and UK legislative processes (109 documents in total). Specifically, we utilized GPT-4 to automatically classify sentences based on whether they contained claims that e-cigarettes were broadly helpful or harmful for public health. Our LLM-based classifier achieved an F-score of 0.9. Further, when applying the classifier to our entire sentence-level corpus, we found that Australian legislative documents show a much higher proportion of harmful statements, and a lower proportion of helpful statements compared to the expected values, with the opposite holding for the UK. In conclusion, this work utilized an LLM-based approach to provide evidence to support the contention that - drawing on the same evidence base - Australian ENDS-related policy documents emphasize the harms associated with ENDS products and UK policy documents emphasize the benefits. Further, our approach provides a starting point for using LLM-based methods to investigate the complex relationship between evidence and health policy formation.