Measuring Human and AI Values Based on Generative Psychometrics with Large Language Models
作者: Haoran Ye, Yuhang Xie, Yuanyi Ren, Hanjun Fang, Xin Zhang, Guojie Song
分类: cs.CL, cs.AI
发布日期: 2024-09-18 (更新: 2025-03-06)
备注: Accepted at AAAI 2025
💡 一句话要点
提出基于大语言模型生成心理测量的价值观评估方法GPV,用于衡量人类和AI的价值观。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 价值观测量 大语言模型 心理测量学 生成式AI 文本分析 AI安全 价值对齐 选择性感知
📋 核心要点
- 现有价值观测量方法难以有效捕捉人类和AI在复杂情境下的价值观,且存在响应偏差。
- GPV通过动态解析文本为感知,测量价值取向并聚合结果,实现对价值观的量化评估。
- 实验表明GPV在人类博客数据上表现出稳定性、有效性,并优于传统心理工具,同时揭示了LLM价值观与安全性的关联。
📝 摘要(中文)
本研究提出了一种基于大语言模型(LLM)的、数据驱动的价值观测量范式——价值观生成心理测量(GPV),其理论基础是文本揭示的选择性感知。核心思想是将非结构化文本动态解析为类似于传统心理测量中静态刺激的感知,测量其揭示的价值取向,并聚合结果。将GPV应用于人类撰写的博客,验证了其稳定性、有效性和优于现有心理工具的性能。进一步将GPV扩展到LLM价值观测量,在以下方面改进了现有技术:1) 一种基于LLM可扩展和自由形式输出的心理测量方法,实现特定情境下的测量;2) 一种测量范式比较分析,表明了先前方法的响应偏差;3) 尝试桥接LLM价值观及其安全性,揭示了不同价值体系的预测能力以及各种价值观对LLM安全性的影响。通过跨学科的努力,旨在利用AI进行下一代心理测量,并利用心理测量来实现价值对齐的AI。
🔬 方法详解
问题定义:论文旨在解决如何有效且可靠地测量人类和人工智能(特别是大型语言模型)的价值观这一问题。现有方法,如传统的心理测量问卷,依赖于预定义的静态刺激和固定格式的回答,难以捕捉复杂情境下的价值观,并且容易受到回答偏差的影响。对于LLM,直接评估其价值观面临可扩展性和情境依赖性的挑战。
核心思路:论文的核心思路是借鉴心理测量学的原理,将非结构化文本视为一种动态的刺激,通过分析文本中反映出的选择性感知来推断价值观。GPV的核心在于将文本解析为一系列感知,然后评估这些感知所反映的价值取向,最后将这些评估结果聚合起来,得到整体的价值观评估。这种方法允许在不同的情境下评估价值观,并且可以处理LLM的自由形式输出。
技术框架:GPV的技术框架主要包含以下几个阶段:1) 文本解析:将输入的文本(例如,博客文章或LLM的生成文本)解析为一系列感知。这一步可以使用自然语言处理技术,例如依存句法分析或语义角色标注,来识别文本中的关键实体、关系和事件。2) 价值评估:对于每个感知,使用一个预定义的价值词典或一个训练好的价值分类器来评估其所反映的价值取向。价值词典可以基于现有的价值观理论,例如Schwartz的价值观理论。3) 结果聚合:将所有感知的价值评估结果聚合起来,得到整体的价值观评估。可以使用简单的平均或加权平均,也可以使用更复杂的统计模型。
关键创新:GPV最重要的技术创新点在于其将非结构化文本视为动态刺激,并利用LLM进行感知解析和价值评估。这与传统的心理测量方法形成了鲜明对比,后者依赖于预定义的静态刺激。此外,GPV还提出了一种新的LLM价值观测量方法,该方法可以处理LLM的自由形式输出,并允许在不同的情境下评估价值观。
关键设计:在文本解析阶段,可以使用不同的NLP技术来提取感知。在价值评估阶段,可以使用不同的价值词典或价值分类器。在结果聚合阶段,可以使用不同的统计模型。论文中可能使用了特定的参数设置来优化这些模块的性能,例如,在训练价值分类器时,可能会使用特定的损失函数和优化算法。具体的网络结构取决于所使用的价值分类器的类型,例如,可以使用卷积神经网络或循环神经网络。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPV在人类博客数据上表现出良好的稳定性、有效性,并且优于传统的心理测量工具。此外,研究还发现不同的价值体系对LLM的安全性具有不同的预测能力,某些价值观(例如,普遍主义)与LLM的安全性呈正相关,而另一些价值观(例如,权力)则呈负相关。这些发现为开发价值对齐的AI系统提供了重要的指导。
🎯 应用场景
该研究成果可应用于多个领域,包括:评估AI系统的价值观对齐程度,确保AI行为符合人类伦理规范;个性化推荐系统,根据用户的价值观提供更符合其需求的推荐内容;以及心理学研究,更深入地理解人类价值观的形成和演变。未来,该方法有望促进人机协作,构建更加安全、可靠和符合人类价值观的AI系统。
📄 摘要(原文)
Human values and their measurement are long-standing interdisciplinary inquiry. Recent advances in AI have sparked renewed interest in this area, with large language models (LLMs) emerging as both tools and subjects of value measurement. This work introduces Generative Psychometrics for Values (GPV), an LLM-based, data-driven value measurement paradigm, theoretically grounded in text-revealed selective perceptions. The core idea is to dynamically parse unstructured texts into perceptions akin to static stimuli in traditional psychometrics, measure the value orientations they reveal, and aggregate the results. Applying GPV to human-authored blogs, we demonstrate its stability, validity, and superiority over prior psychological tools. Then, extending GPV to LLM value measurement, we advance the current art with 1) a psychometric methodology that measures LLM values based on their scalable and free-form outputs, enabling context-specific measurement; 2) a comparative analysis of measurement paradigms, indicating response biases of prior methods; and 3) an attempt to bridge LLM values and their safety, revealing the predictive power of different value systems and the impacts of various values on LLM safety. Through interdisciplinary efforts, we aim to leverage AI for next-generation psychometrics and psychometrics for value-aligned AI.