Alignment Revisited: Are Large Language Models Consistent in Stated and Revealed Preferences?
作者: Zhuojun Gu, Quan Wang, Shuchu Han
分类: cs.AI, cs.LG
发布日期: 2025-05-31
💡 一句话要点
揭示大语言模型偏好偏差:一致性评估与可信赖性分析
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 偏好偏差 一致性评估 可信赖性 伦理部署
📋 核心要点
- 现有大型语言模型在实际应用中,其行为与预设原则可能存在偏差,导致可信赖性问题。
- 论文提出一种方法,通过比较LLM在一般原则和情境化场景下的偏好差异,量化这种偏差。
- 实验表明,即使是微小的提示变化,也可能导致LLM偏好发生显著改变,揭示了决策过程的脆弱性。
📝 摘要(中文)
大型语言模型(LLM)的最新进展凸显了使其行为与人类价值观对齐的必要性。一个关键但未被充分研究的问题是,LLM的陈述偏好(其报告的与一般原则的一致性)与其揭示偏好(从情境化场景中的决策推断出的偏好)之间可能存在差异。这种偏差引发了对LLM的可解释性、可信赖性、推理透明度和伦理部署的根本担忧,尤其是在高风险应用中。本文正式定义并提出了一种衡量这种偏好偏差的方法。我们研究了LLM如何在特定情境中激活不同的指导原则,从而导致与先前陈述的一般原则不同的选择。我们的方法包括构建一个包含精心设计的提示的数据集,作为一系列强制二元选择,并将它们呈现给LLM。我们将LLM对一般原则提示的陈述偏好的响应与LLM对情境化提示的揭示偏好的响应进行比较,使用诸如KL散度之类的指标来量化偏差。我们在不同的偏好类别和四个主流LLM上重复分析,发现提示格式的微小变化通常可以改变首选选择,而与测试中的偏好类别和LLM无关。这种普遍现象突显了对LLM决策能力的理解和控制的不足。我们的研究对于将LLM集成到服务中至关重要,特别是那些直接与人类交互的服务,在这些服务中,道德、公平和社会责任是至关重要的维度。此外,识别或意识到这种偏差将至关重要,因为LLM越来越多地被设想用于自主代理任务,在这些任务中,不可能对LLM所有中间决策步骤进行持续的人工评估。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在陈述偏好(stated preferences)和揭示偏好(revealed preferences)之间可能存在的不一致性问题。现有方法缺乏有效手段来衡量和理解这种偏差,使得LLM在道德、公平等敏感领域的应用面临风险。这种偏差会损害LLM的可解释性、可信赖性和伦理部署。
核心思路:论文的核心思路是通过设计一系列精心构造的提示,分别考察LLM在一般原则下的陈述偏好和在具体情境下的揭示偏好,然后比较这两种偏好之间的差异。这种差异被定义为偏好偏差,并使用KL散度等指标进行量化。通过分析这种偏差,可以更好地理解LLM的决策过程,并提高其可控性和可信赖性。
技术框架:论文的技术框架主要包括以下几个步骤: 1. 数据集构建:构建包含一般原则提示和情境化提示的数据集,这些提示涉及不同的偏好类别(如道德、公平等)。 2. LLM响应收集:将这些提示输入到不同的LLM中,收集LLM的响应。 3. 偏好提取:从LLM的响应中提取陈述偏好和揭示偏好。 4. 偏差量化:使用KL散度等指标量化陈述偏好和揭示偏好之间的偏差。 5. 偏差分析:分析不同偏好类别和不同LLM之间的偏差差异。
关键创新:论文最重要的技术创新点在于提出了一个系统性的方法来衡量LLM的偏好偏差。与现有方法相比,该方法更加全面和细致,能够更准确地揭示LLM决策过程中的潜在问题。此外,论文还强调了情境对LLM偏好的影响,这对于提高LLM的可控性和可信赖性具有重要意义。
关键设计:论文的关键设计包括: 1. 提示设计:提示的设计需要保证能够清晰地表达一般原则和具体情境,并且能够引导LLM做出明确的选择。 2. 偏好提取方法:需要设计有效的方法从LLM的响应中提取陈述偏好和揭示偏好。 3. 偏差量化指标:选择合适的指标来量化陈述偏好和揭示偏好之间的偏差,例如KL散度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是主流LLM,其陈述偏好和揭示偏好之间也存在显著偏差。提示格式的微小变化就能导致LLM做出不同的选择,这表明LLM的决策过程对情境非常敏感。该研究强调了对LLM决策过程进行更深入理解和控制的必要性,为提高LLM的可信赖性提供了重要依据。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型在道德、公平和社会责任等方面的表现。通过识别和减少偏好偏差,可以提高LLM在医疗、法律、金融等高风险领域的应用安全性。此外,该研究对于开发更可信赖的自主代理系统具有重要意义,有助于确保AI系统在复杂环境中做出符合人类价值观的决策。
📄 摘要(原文)
Recent advances in Large Language Models (LLMs) highlight the need to align their behaviors with human values. A critical, yet understudied, issue is the potential divergence between an LLM's stated preferences (its reported alignment with general principles) and its revealed preferences (inferred from decisions in contextualized scenarios). Such deviations raise fundamental concerns for the interpretability, trustworthiness, reasoning transparency, and ethical deployment of LLMs, particularly in high-stakes applications. This work formally defines and proposes a method to measure this preference deviation. We investigate how LLMs may activate different guiding principles in specific contexts, leading to choices that diverge from previously stated general principles. Our approach involves crafting a rich dataset of well-designed prompts as a series of forced binary choices and presenting them to LLMs. We compare LLM responses to general principle prompts stated preference with LLM responses to contextualized prompts revealed preference, using metrics like KL divergence to quantify the deviation. We repeat the analysis across different categories of preferences and on four mainstream LLMs and find that a minor change in prompt format can often pivot the preferred choice regardless of the preference categories and LLMs in the test. This prevalent phenomenon highlights the lack of understanding and control of the LLM decision-making competence. Our study will be crucial for integrating LLMs into services, especially those that interact directly with humans, where morality, fairness, and social responsibilities are crucial dimensions. Furthermore, identifying or being aware of such deviation will be critically important as LLMs are increasingly envisioned for autonomous agentic tasks where continuous human evaluation of all LLMs' intermediary decision-making steps is impossible.