Measurement in the Age of LLMs: An Application to Ideological Scaling

作者: Sean O'Hagan, Aaron Schein

分类: cs.CL

发布日期: 2023-12-14 (更新: 2024-04-08)

备注: Under review a Harvard Data Science Review. Previously presented at the 4th International Conference of Social Computing in Beijing, China, September 2023, the New Directions in Analyzing Text as Data (TADA) meeting in Amherst, MA, USA, November 2023, and the NeurIPS workshop titled "I Can't Believe It's Not Better!'' Failure Modes in the Age of Foundation Models in New Orleans, LA, December 2023

💡 一句话要点

利用大型语言模型进行意识形态倾向性测量，解决社会科学中概念模糊问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 意识形态测量 社会科学 政治倾向性 文本分析

📋 核心要点

社会科学研究中，意识形态等概念定义模糊，现有方法难以准确衡量其在文本中的体现。
利用LLM的语言能力，直接指示其为文本和立法者生成意识形态倾向性数值评分。
实验表明，该方法生成的意识形态尺度与传统方法和人工判断高度一致，证明了LLM的有效性。

📝 摘要（中文）

社会科学的许多研究都围绕着“意识形态”或“权力”等术语展开，这些术语通常难以精确定义，并且其语境意义被困在周围的语言中。本文探讨了使用大型语言模型（LLM）来灵活地处理社会科学测量任务中固有的概念混乱。我们依靠LLM卓越的语言流畅性来引出立法者和文本的意识形态尺度，这与既定方法和我们自己的判断非常吻合。我们方法的一个关键方面是，我们直接引出这些分数，指示LLM自己提供数值分数。这种方法提供了很大的灵活性，我们通过各种不同的案例研究展示了这一点。我们的结果表明，LLM可用于表征文本中政治意识形态的高度微妙和分散的表现。

🔬 方法详解

问题定义：社会科学研究中，意识形态等概念的定义往往模糊不清，难以量化。现有方法在捕捉文本中细微的意识形态倾向性方面存在局限性，需要更灵活和精确的测量工具。

核心思路：利用大型语言模型（LLM）强大的语言理解和生成能力，直接从文本中提取意识形态倾向性。核心在于将LLM视为一个“评分者”，通过指令使其直接输出数值评分，避免了传统方法中复杂的特征工程和模型训练过程。

技术框架：该方法的核心流程是：1) 输入文本或立法者信息；2) 使用特定的prompt，指示LLM输出意识形态倾向性评分；3) 对LLM输出的评分进行分析和验证。整个框架简洁明了，易于实现和扩展。

关键创新：该方法最重要的创新点在于直接利用LLM进行数值评分，避免了传统方法中复杂的中间步骤。这种方法充分利用了LLM的语言理解能力，能够捕捉文本中细微的意识形态倾向性。与现有方法相比，该方法更加灵活、高效和易于使用。

关键设计：关键设计在于prompt的设计。Prompt需要清晰地指示LLM输出意识形态倾向性评分，并提供必要的上下文信息。例如，可以要求LLM根据自由主义-保守主义的尺度对文本进行评分。此外，还需要对LLM的输出进行后处理，例如将评分范围标准化到[0, 1]区间。

📊 实验亮点

实验结果表明，使用LLM生成的意识形态尺度与既定方法和人工判断高度吻合。通过案例研究，展示了LLM在表征文本中政治意识形态的高度微妙和分散的表现方面的能力。该方法在多个数据集上取得了良好的效果，证明了其有效性和泛化能力。

🎯 应用场景

该研究成果可广泛应用于政治学、社会学、传播学等领域。例如，可以用于分析新闻报道、社交媒体内容、政治演讲等文本的意识形态倾向性，评估立法者的政治立场，预测选举结果，以及研究社会思潮的演变。该方法具有很高的实际价值，有助于更深入地理解社会现象。

📄 摘要（原文）

Much of social science is centered around terms like ideology'' orpower'', which generally elude precise definition, and whose contextual meanings are trapped in surrounding language. This paper explores the use of large language models (LLMs) to flexibly navigate the conceptual clutter inherent to social scientific measurement tasks. We rely on LLMs' remarkable linguistic fluency to elicit ideological scales of both legislators and text, which accord closely to established methods and our own judgement. A key aspect of our approach is that we elicit such scores directly, instructing the LLM to furnish numeric scores itself. This approach affords a great deal of flexibility, which we showcase through a variety of different case studies. Our results suggest that LLMs can be used to characterize highly subtle and diffuse manifestations of political ideology in text.

Measurement in the Age of LLMs: An Application to Ideological Scaling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册