Assessing Historical Structural Oppression Worldwide via Rule-Guided Prompting of Large Language Models
作者: Sreejato Chatterjee, Linh Tran, Quoc Duy Nguyen, Roni Kirson, Drue Hamlin, Harvest Aquino, Hanjia Lyu, Jiebo Luo, Timothy Dye
分类: cs.CL, cs.CY
发布日期: 2025-09-18 (更新: 2025-11-23)
备注: To appear in the 2025 IEEE International Conference on Big Data (IEEE BigData 2025)
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种基于规则引导的大语言模型框架,用于评估全球历史结构性压迫。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 历史结构性压迫 规则引导 跨文化评估 身份认同
📋 核心要点
- 现有压迫测量方法缺乏跨国有效性,且过度依赖物质资源指标,忽略了基于身份的排斥。
- 利用大语言模型,通过规则引导的提示策略,生成上下文敏感的、可解释的压迫估计分数。
- 实验结果表明,在规则引导下,大语言模型能够捕捉到国家内部基于身份的历史压迫的细微形式。
📝 摘要(中文)
传统上衡量历史结构性压迫的方法在跨国有效性方面面临挑战,因为每个国家都存在独特的、局部特定的排斥、殖民和社会地位历史。这些方法通常依赖于结构化指标,这些指标优先考虑物质资源,而忽略了基于身份的生活体验排斥。我们引入了一种新颖的压迫测量框架,该框架利用大型语言模型(LLM)来生成跨不同地缘政治背景的生活历史劣势的上下文敏感分数。通过使用来自多语言COVID-19全球研究的非结构化自我认同的种族话语,我们设计了规则引导的提示策略,鼓励模型产生可解释的、理论上合理的压迫估计。我们系统地评估了跨多个最先进的LLM的这些策略。我们的结果表明,LLM在明确规则的指导下,可以捕捉到国家内部基于身份的历史压迫的细微形式。这种方法提供了一种补充测量工具,突出了系统性排斥的维度,为理解压迫如何在数据驱动的研究和公共卫生背景下表现提供了一个可扩展的、跨文化的视角。为了支持可重复的评估,我们发布了一个开源基准数据集,用于评估LLM对压迫的测量(https://github.com/chattergpt/HSO-Bench)。
🔬 方法详解
问题定义:论文旨在解决传统方法在跨国评估历史结构性压迫时遇到的有效性问题。现有方法往往依赖于结构化指标,侧重于物质资源,而忽略了基于身份认同的排斥,并且难以适应不同国家和地区的具体历史背景。
核心思路:论文的核心思路是利用大语言模型(LLM)的强大语言理解和生成能力,通过规则引导的提示策略,使模型能够理解和评估不同国家和地区基于身份认同的历史压迫程度。这种方法旨在捕捉到传统指标难以量化的细微差别。
技术框架:该框架主要包含以下几个阶段:1) 数据收集:从多语言COVID-19全球研究中收集自我认同的种族话语数据。2) 规则设计:设计规则引导的提示策略,明确模型在评估压迫时应考虑的因素和原则。3) 模型提示:使用设计的提示策略,引导LLM生成压迫程度的估计分数。4) 结果评估:系统评估不同LLM在捕捉基于身份的历史压迫方面的表现。
关键创新:该论文的关键创新在于将大语言模型应用于历史结构性压迫的评估,并提出了一种规则引导的提示策略。这种方法能够捕捉到传统指标难以量化的、基于身份认同的压迫,并具有跨文化的可扩展性。
关键设计:规则引导的提示策略是关键设计。具体规则的设计需要基于对相关历史背景和理论的深入理解,以确保模型能够产生可解释且理论上合理的压迫估计。论文中可能涉及对不同LLM的参数调优,以获得最佳性能。具体的损失函数和网络结构细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在规则引导下,大语言模型能够捕捉到国家内部基于身份的历史压迫的细微形式。该方法提供了一种补充测量工具,突出了系统性排斥的维度,为理解压迫如何在数据驱动的研究和公共卫生背景下表现提供了一个可扩展的、跨文化的视角。
🎯 应用场景
该研究成果可应用于公共卫生、社会科学、政策制定等领域,帮助研究人员和决策者更好地理解和解决由历史结构性压迫造成的社会不平等问题。该方法具有可扩展性和跨文化适用性,有助于在全球范围内进行压迫评估和干预。
📄 摘要(原文)
Traditional efforts to measure historical structural oppression struggle with cross-national validity due to the unique, locally specified histories of exclusion, colonization, and social status in each country, and often have relied on structured indices that privilege material resources while overlooking lived, identity-based exclusion. We introduce a novel framework for oppression measurement that leverages Large Language Models (LLMs) to generate context-sensitive scores of lived historical disadvantage across diverse geopolitical settings. Using unstructured self-identified ethnicity utterances from a multilingual COVID-19 global study, we design rule-guided prompting strategies that encourage models to produce interpretable, theoretically grounded estimations of oppression. We systematically evaluate these strategies across multiple state-of-the-art LLMs. Our results demonstrate that LLMs, when guided by explicit rules, can capture nuanced forms of identity-based historical oppression within nations. This approach provides a complementary measurement tool that highlights dimensions of systemic exclusion, offering a scalable, cross-cultural lens for understanding how oppression manifests in data-driven research and public health contexts. To support reproducible evaluation, we release an open-sourced benchmark dataset for assessing LLMs on oppression measurement (https://github.com/chattergpt/HSO-Bench).