Linear Representations of Political Perspective Emerge in Large Language Models
作者: Junsol Kim, James Evans, Aaron Schein
分类: cs.CL, cs.AI, cs.CY, cs.HC, cs.LG
发布日期: 2025-03-03 (更新: 2025-04-02)
备注: Published as a conference paper at ICLR 2025 https://openreview.net/forum?id=rwqShzb9li
💡 一句话要点
大型语言模型中涌现政治立场的线性表征,可通过干预注意力头操控模型输出。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 政治立场 线性表征 注意力头 机械可解释性 意识形态 线性干预
📋 核心要点
- 大型语言模型能够反映不同政治立场,但其内部表征机制尚不明确,缺乏有效干预手段。
- 通过探测LLM的注意力头,发现政治立场的线性表征,并利用线性探针预测新闻媒体的政治倾向。
- 通过对特定注意力头进行线性干预,可以引导模型输出更自由或保守的文本,实现立场控制。
📝 摘要(中文)
大型语言模型(LLMs)展现了生成能够真实反映不同主观人类视角的文本的能力。本文研究了LLMs如何反映美国政治中更自由或更保守的观点以及其他政治立场。研究表明,LLMs在激活空间中具有政治立场的线性表征,其中更相似的立场在空间中更接近。为此,我们探测了三个基于Transformer的开源LLMs(Llama-2-7b-chat、Mistral-7b-instruct、Vicuna-7b)的各层注意力头。首先,我们提示模型从不同美国立法者的角度生成文本。然后,我们识别出激活可以线性预测这些立法者DW-NOMINATE分数的注意力头集合,DW-NOMINATE分数是一种广泛使用且经过验证的政治意识形态度量。我们发现,高预测性的注意力头主要位于中间层,通常被认为编码了高层概念和任务。仅使用训练用于预测立法者意识形态的探针,我们进一步表明,相同的探针可以从模型激活中预测新闻媒体的倾向性度量,而模型被提示模拟这些新闻媒体的文本。这些线性探针使我们能够可视化、解释和监控LLM在生成开放式响应时隐式采用的意识形态立场。最后,我们证明,通过对这些注意力头进行线性干预,我们可以将模型输出引导到更自由或更保守的立场。总的来说,我们的研究表明,LLMs具有美国政治意识形态的高层线性表征,并且通过利用机械可解释性的最新进展,我们可以识别、监控和引导生成文本背后的主观视角。
🔬 方法详解
问题定义:本文旨在研究大型语言模型(LLMs)如何表征和反映不同的政治立场,特别是美国政治中的自由主义和保守主义。现有方法缺乏对LLM内部政治立场表征的理解,难以有效监控和控制模型输出的政治倾向。
核心思路:本文的核心思路是利用机械可解释性方法,通过探测LLM的注意力头,寻找与政治立场相关的线性表征。具体而言,通过分析注意力头的激活值与政治意识形态指标(如DW-NOMINATE分数)之间的关系,识别出能够预测政治立场的注意力头。
技术框架:整体框架包括以下几个主要阶段:1) 提示LLM从不同美国立法者或新闻媒体的角度生成文本;2) 提取LLM各层注意力头的激活值;3) 训练线性探针,将注意力头的激活值映射到政治立场指标(如DW-NOMINATE分数或新闻媒体的倾向性);4) 分析高预测性注意力头的位置和功能;5) 通过对这些注意力头进行线性干预,控制模型输出的政治倾向。
关键创新:最重要的技术创新点在于发现了LLM中政治立场的线性表征,并证明可以通过对特定注意力头进行线性干预来控制模型输出的政治倾向。与现有方法相比,本文提供了一种更直接、更可控的方式来理解和操纵LLM的政治立场。
关键设计:关键设计包括:1) 使用DW-NOMINATE分数作为政治意识形态的度量标准;2) 选择Llama-2-7b-chat、Mistral-7b-instruct、Vicuna-7b等开源LLM进行实验;3) 使用线性回归模型作为探针,将注意力头的激活值映射到政治立场指标;4) 通过调整注意力头的激活值,实现对模型输出政治倾向的控制。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM的中间层注意力头能够有效预测立法者和新闻媒体的政治立场。通过对这些注意力头进行线性干预,可以显著改变模型输出的政治倾向。例如,通过增加或减少特定注意力头的激活值,可以将模型输出引导到更自由或更保守的立场。
🎯 应用场景
该研究成果可应用于监控和控制LLM在政治、社会等敏感领域的输出,避免模型产生偏见或不当言论。同时,该方法也可用于分析不同LLM的政治立场倾向,评估其潜在风险。未来,该技术有望应用于构建更安全、更可靠、更符合伦理规范的AI系统。
📄 摘要(原文)
Large language models (LLMs) have demonstrated the ability to generate text that realistically reflects a range of different subjective human perspectives. This paper studies how LLMs are seemingly able to reflect more liberal versus more conservative viewpoints among other political perspectives in American politics. We show that LLMs possess linear representations of political perspectives within activation space, wherein more similar perspectives are represented closer together. To do so, we probe the attention heads across the layers of three open transformer-based LLMs (Llama-2-7b-chat, Mistral-7b-instruct, Vicuna-7b). We first prompt models to generate text from the perspectives of different U.S. lawmakers. We then identify sets of attention heads whose activations linearly predict those lawmakers' DW-NOMINATE scores, a widely-used and validated measure of political ideology. We find that highly predictive heads are primarily located in the middle layers, often speculated to encode high-level concepts and tasks. Using probes only trained to predict lawmakers' ideology, we then show that the same probes can predict measures of news outlets' slant from the activations of models prompted to simulate text from those news outlets. These linear probes allow us to visualize, interpret, and monitor ideological stances implicitly adopted by an LLM as it generates open-ended responses. Finally, we demonstrate that by applying linear interventions to these attention heads, we can steer the model outputs toward a more liberal or conservative stance. Overall, our research suggests that LLMs possess a high-level linear representation of American political ideology and that by leveraging recent advances in mechanistic interpretability, we can identify, monitor, and steer the subjective perspective underlying generated text.