VAL-Bench: Belief Consistency as a measure for Value Alignment in Language Models

📄 arXiv: 2510.05465v3 📥 PDF

作者: Aman Gupta, Denny O'Shea, Fazl Barez

分类: cs.AI, cs.CL

发布日期: 2025-10-06 (更新: 2026-01-14)


💡 一句话要点

VAL-Bench:提出基于信念一致性的语言模型价值观对齐评测基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 价值观对齐 信念一致性 大型语言模型 评测基准 LLM评估

📋 核心要点

  1. 现有价值观对齐基准难以捕捉现实辩论的复杂性,无法有效评估LLM在真实场景下的价值观倾向。
  2. VAL-Bench通过构建包含11.5万对现实争议问题提示的基准,衡量LLM在不同提问方式下信念表达的一致性。
  3. 实验表明,现有LLM在信念一致性方面表现差异显著,表明价值观对齐仍面临挑战,需要进一步研究。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被用于影响人类决策的任务中,因此验证其输出是否始终如一地反映期望的人类价值观至关重要。由于个体或群体在价值观上存在分歧,评估价值观对齐变得困难。现有的基准通常使用假设或常识性的情境,无法捕捉现实辩论的复杂性和模糊性。本文提出了价值观对齐基准(VAL-Bench),用于衡量语言模型在响应现实中带有价值观倾向的提示时,信念表达的一致性。VAL-Bench包含11.5万对提示,这些提示旨在引出对有争议问题的对立立场,并从维基百科中提取。我们使用经过人工标注验证的LLM作为评判者,评估成对的回复是否一致地表达了对该问题的中立或特定立场。该基准应用于领先的开源和闭源模型,结果显示一致性率存在显著差异(约10%到80%),只有Claude模型达到了较高的一致性水平。这种一致性的缺失可能会使用户的信念依赖于问题的框架方式,而不是潜在的证据,从而造成认知上的危害,并损害LLM在信任关键型应用中的可靠性。因此,我们强调研究训练现代LLM的信念一致性的重要性。通过提供可扩展、可复现的基准,VAL-Bench能够系统地衡量价值观对齐的必要条件。

🔬 方法详解

问题定义:现有价值观对齐的评估方法主要依赖于假设或常识性场景,无法充分模拟现实世界中复杂且具有争议性的问题。这导致对LLM价值观倾向的评估不够准确,难以发现模型在不同情境下可能存在的价值观不一致问题。现有方法的痛点在于缺乏一个能够有效衡量LLM在真实场景下信念一致性的基准。

核心思路:VAL-Bench的核心思路是通过构建一个包含大量现实世界争议性问题的提示对,来评估LLM在面对不同提问方式时,其信念表达是否一致。这种方法旨在模拟真实辩论场景,从而更准确地衡量LLM的价值观倾向。通过评估信念一致性,可以发现LLM在价值观对齐方面存在的不足,并为改进模型提供指导。

技术框架:VAL-Bench的整体框架包括以下几个主要阶段:1) 数据收集:从维基百科等来源收集包含争议性问题的文本数据。2) 提示生成:针对每个争议性问题,生成一对旨在引出对立立场的提示。3) 模型评估:使用LLM对每个提示对进行回复,并使用LLM-as-a-judge评估回复的信念一致性。4) 人工验证:对LLM-as-a-judge的评估结果进行人工验证,以确保评估的准确性。

关键创新:VAL-Bench最重要的技术创新点在于其使用现实世界争议性问题作为评估LLM价值观对齐的基础。与现有方法相比,VAL-Bench能够更真实地模拟现实辩论场景,从而更准确地衡量LLM的价值观倾向。此外,使用LLM-as-a-judge进行自动评估,并结合人工验证,提高了评估的效率和准确性。

关键设计:在提示生成方面,VAL-Bench采用多种策略来确保提示的多样性和有效性,例如使用不同的提问方式、改变问题的侧重点等。在LLM-as-a-judge的训练方面,使用了大量人工标注数据进行微调,以提高其评估的准确性。此外,还设计了一套评估指标来衡量LLM的信念一致性,例如一致性率、中立率等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VAL-Bench在多个领先的开源和闭源模型上进行了评估,结果显示模型之间的一致性率存在显著差异,从约10%到80%不等。Claude模型表现出较高的一致性水平,但其他模型仍有很大的改进空间。这些结果表明,现有LLM在价值观对齐方面仍面临挑战,需要进一步的研究和改进。

🎯 应用场景

VAL-Bench可应用于评估和改进LLM在价值观敏感领域的应用,例如医疗建议、法律咨询和新闻报道等。通过提高LLM的信念一致性,可以增强其在这些领域的可靠性和可信度,避免因价值观偏差而产生误导或偏见。该研究还有助于推动负责任的人工智能发展,确保LLM的价值观与人类价值观对齐。

📄 摘要(原文)

Large language models (LLMs) are increasingly being used for tasks where outputs shape human decisions, so it is critical to verify that their responses consistently reflect desired human values. Humans, as individuals or groups, don't agree on a universal set of values, which makes evaluating value alignment difficult. Existing benchmarks often use hypothetical or commonsensical situations, which don't capture the complexity and ambiguity of real-life debates. We introduce the Value ALignment Benchmark (VAL-Bench), which measures the consistency in language model belief expressions in response to real-life value-laden prompts. VAL-Bench consists of 115K pairs of prompts designed to elicit opposing stances on a controversial issue, extracted from Wikipedia. We use an LLM-as-a-judge, validated against human annotations, to evaluate if the pair of responses consistently expresses either a neutral or a specific stance on the issue. Applied across leading open- and closed-source models, the benchmark shows considerable variation in consistency rates (ranging from ~10% to ~80%), with Claude models the only ones to achieve high levels of consistency. Lack of consistency in this manner risks epistemic harm by making user beliefs dependent on how questions are framed rather than on underlying evidence, and undermines LLM reliability in trust-critical applications. Therefore, we stress the importance of research towards training belief consistency in modern LLMs. By providing a scalable, reproducible benchmark, VAL-Bench enables systematic measurement of necessary conditions for value alignment.