Assessing Historical Structural Oppression Worldwide via Rule-Guided Prompting of Large Language Models

📄 arXiv: 2509.15216v2 📥 PDF

作者: Sreejato Chatterjee, Linh Tran, Quoc Duy Nguyen, Roni Kirson, Drue Hamlin, Harvest Aquino, Hanjia Lyu, Jiebo Luo, Timothy Dye

分类: cs.CL, cs.CY

发布日期: 2025-09-18 (更新: 2025-11-23)

备注: To appear in the 2025 IEEE International Conference on Big Data (IEEE BigData 2025)

🔗 代码/项目: GITHUB


💡 一句话要点

利用规则引导的大语言模型评估全球历史结构性压迫

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 历史结构性压迫 规则引导 社会公平 跨文化研究

📋 核心要点

  1. 现有方法在衡量跨国历史结构性压迫时,缺乏对各国独特历史背景的考虑,且过度依赖物质资源指标。
  2. 该研究提出利用规则引导的大语言模型,从非结构化文本中提取上下文相关的压迫信息,生成可解释的压迫评估分数。
  3. 实验结果表明,通过规则引导,大语言模型能够有效捕捉到国家内部基于身份的历史压迫,提供了一种可扩展的跨文化视角。

📝 摘要(中文)

传统上衡量历史结构性压迫的方法,由于各国独特的排斥、殖民和社会地位历史,在跨国有效性方面面临挑战,并且通常依赖于优先考虑物质资源的结构化指标,而忽略了基于身份的生活体验式排斥。本文提出了一种新颖的压迫测量框架,该框架利用大型语言模型(LLM)生成跨不同地缘政治背景下生活体验式历史劣势的上下文敏感分数。通过使用来自多语言COVID-19全球研究的非结构化自我认同的种族语料,我们设计了规则引导的提示策略,鼓励模型生成可解释的、理论上合理的压迫估计。我们系统地评估了多个最先进的LLM上的这些策略。结果表明,在明确规则的指导下,LLM可以捕捉到国家内部基于身份的历史压迫的细微形式。这种方法提供了一种补充测量工具,突出了系统性排斥的维度,为理解压迫如何在数据驱动的研究和公共卫生背景下表现提供了一个可扩展的跨文化视角。为了支持可重复的评估,我们发布了一个开源基准数据集,用于评估LLM在压迫测量方面的能力(https://github.com/chattergpt/HSO-Bench)。

🔬 方法详解

问题定义:论文旨在解决传统方法在跨国评估历史结构性压迫时存在的局限性。现有方法往往依赖于结构化的指标,这些指标可能无法捕捉到各国独特的历史背景和社会文化差异,并且容易忽略基于身份认同的生活体验式排斥。因此,需要一种能够更灵活、更具上下文感知能力的方法来衡量历史结构性压迫。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语言理解和生成能力,通过规则引导的提示策略,使LLM能够从非结构化的文本数据中提取与压迫相关的信息,并生成可解释的压迫评估分数。这种方法的核心在于将LLM视为一种知识库和推理引擎,通过精心设计的提示,引导其输出符合理论基础的压迫评估。

技术框架:该框架主要包含以下几个阶段:1) 数据收集:从多语言COVID-19全球研究中收集包含自我认同的种族信息的非结构化文本数据。2) 规则设计:设计一系列规则,用于指导LLM进行压迫评估,这些规则基于历史和社会学理论,例如,某些种族群体在特定国家历史上遭受了系统性的歧视和压迫。3) 提示工程:根据设计的规则,构建针对LLM的提示,例如,“在[国家]中,[种族]群体在历史上是否遭受过压迫?请给出解释。”4) 模型评估:使用不同的LLM(例如,GPT-3, PaLM)对提示进行评估,并分析其输出结果的质量和一致性。5) 基准数据集构建:构建一个开源基准数据集,用于评估LLM在压迫测量方面的能力。

关键创新:该研究的关键创新在于将LLM应用于历史结构性压迫的评估,并提出了一种规则引导的提示策略。与传统方法相比,该方法具有以下优势:1) 能够处理非结构化的文本数据,从而可以利用更广泛的数据来源。2) 具有更强的上下文感知能力,能够考虑各国独特的历史背景和社会文化差异。3) 具有更好的可解释性,能够提供压迫评估的理由和依据。

关键设计:关键设计包括:1) 规则的设计:规则需要基于扎实的理论基础,并且能够清晰地指导LLM进行压迫评估。2) 提示的设计:提示需要简洁明了,能够有效地引导LLM输出所需的信息。3) 模型选择:选择具有较强语言理解和生成能力的LLM,例如,GPT-3, PaLM。4) 评估指标:使用多种评估指标来评估LLM的输出结果,例如,准确率、一致性和可解释性。

📊 实验亮点

该研究通过实验验证了规则引导的大语言模型在评估历史结构性压迫方面的有效性。实验结果表明,在适当的规则引导下,LLM能够捕捉到国家内部基于身份的历史压迫,并生成可解释的压迫评估分数。该研究还发布了一个开源基准数据集,为后续研究提供了便利。

🎯 应用场景

该研究成果可应用于公共卫生、社会科学、人权研究等领域。通过量化历史结构性压迫,可以更好地理解社会不平等现象的根源,为制定更有效的政策干预措施提供依据。此外,该方法还可以用于监测社会歧视和偏见,为促进社会公平和正义做出贡献。未来,该研究可以扩展到其他形式的压迫,例如性别歧视、宗教歧视等。

📄 摘要(原文)

Traditional efforts to measure historical structural oppression struggle with cross-national validity due to the unique, locally specified histories of exclusion, colonization, and social status in each country, and often have relied on structured indices that privilege material resources while overlooking lived, identity-based exclusion. We introduce a novel framework for oppression measurement that leverages Large Language Models (LLMs) to generate context-sensitive scores of lived historical disadvantage across diverse geopolitical settings. Using unstructured self-identified ethnicity utterances from a multilingual COVID-19 global study, we design rule-guided prompting strategies that encourage models to produce interpretable, theoretically grounded estimations of oppression. We systematically evaluate these strategies across multiple state-of-the-art LLMs. Our results demonstrate that LLMs, when guided by explicit rules, can capture nuanced forms of identity-based historical oppression within nations. This approach provides a complementary measurement tool that highlights dimensions of systemic exclusion, offering a scalable, cross-cultural lens for understanding how oppression manifests in data-driven research and public health contexts. To support reproducible evaluation, we release an open-sourced benchmark dataset for assessing LLMs on oppression measurement (https://github.com/chattergpt/HSO-Bench).