Value-Action Alignment in Large Language Models under Privacy-Prosocial Conflict

📄 arXiv: 2601.03546v1 📥 PDF

作者: Guanyu Chen, Chenxiao Yu, Xiyang Hu

分类: cs.CL, cs.AI, cs.HC, cs.LG

发布日期: 2026-01-07


💡 一句话要点

提出基于上下文的评估协议,分析LLM在隐私与亲社会冲突下的价值-行为一致性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 隐私保护 亲社会性 价值对齐 行为一致性

📋 核心要点

  1. 现有评估方法难以确定LLM的表达价值是否能预测其数据共享行为,缺乏对隐私与亲社会动机冲突下的全面考量。
  2. 论文提出一种基于上下文的评估协议,通过标准化问卷和多组结构方程建模,分析LLM在隐私和亲社会动机下的决策。
  3. 实验结果表明,不同LLM在隐私、亲社会性和数据共享接受度方面存在差异,且价值-行为一致性也存在显著异质性。

📝 摘要(中文)

大型语言模型(LLM)越来越多地用于模拟涉及个人数据共享的决策任务,其中隐私顾虑和亲社会动机可能导致选择方向相反。现有的评估通常孤立地衡量与隐私相关的态度或共享意愿,这使得难以确定模型的表达价值是否像真实人类行为一样,共同预测其下游数据共享行为。我们引入了一种基于上下文的评估协议,该协议在有界限的、携带历史信息的会话中,依次管理用于隐私态度、亲社会性和数据共享接受度的标准化问卷。为了评估竞争态度下的价值-行为一致性,我们使用多组结构方程建模(MGSEM)来识别从隐私顾虑和亲社会性到数据共享的关系。我们提出了价值-行为一致性率(VAAR),这是一种以人为参考的方向一致性度量,它聚合了预期符号的路径级别证据。在多个LLM中,我们观察到稳定但模型特定的Privacy-PSA-AoDS配置文件,以及价值-行为一致性的显着异质性。

🔬 方法详解

问题定义:现有方法在评估大型语言模型(LLM)在涉及个人数据共享的决策任务时,通常孤立地衡量隐私态度或共享意愿,忽略了隐私顾虑和亲社会动机之间的冲突。这导致无法准确评估LLM的表达价值是否能像人类一样预测其数据共享行为。现有方法缺乏对LLM在复杂情境下价值-行为一致性的全面评估。

核心思路:论文的核心思路是引入一个基于上下文的评估协议,模拟真实世界中人们在隐私和亲社会动机之间权衡的决策过程。通过在有界限的会话中依次管理标准化问卷,收集LLM在不同情境下的隐私态度、亲社会性和数据共享接受度数据。然后,使用多组结构方程建模(MGSEM)分析这些变量之间的关系,从而评估LLM的价值-行为一致性。

技术框架:该研究的技术框架主要包含以下几个阶段: 1. 上下文构建:设计一系列情境,模拟涉及个人数据共享的决策任务,其中隐私顾虑和亲社会动机可能产生冲突。 2. 问卷调查:在每个情境下,依次向LLM展示标准化问卷,收集其对隐私态度、亲社会性和数据共享接受度的回答。 3. 数据分析:使用多组结构方程建模(MGSEM)分析问卷数据,识别从隐私顾虑和亲社会性到数据共享的关系。 4. 一致性评估:提出价值-行为一致性率(VAAR)指标,评估LLM的表达价值与其数据共享行为之间的一致性程度。

关键创新:该论文的关键创新在于: 1. 基于上下文的评估协议:该协议模拟了真实世界的决策情境,考虑了隐私和亲社会动机之间的冲突,更全面地评估了LLM的价值-行为一致性。 2. 多组结构方程建模(MGSEM):该方法能够识别不同变量之间的复杂关系,从而更深入地理解LLM的决策过程。 3. 价值-行为一致性率(VAAR):该指标提供了一种量化LLM价值-行为一致性的方法,便于比较不同LLM的性能。

关键设计: 1. 标准化问卷:使用经过验证的标准化问卷来衡量隐私态度、亲社会性和数据共享接受度,确保数据的可靠性和可比性。 2. 多组结构方程建模(MGSEM):使用MGSEM来分析不同组(例如,不同LLM)之间的差异,从而更深入地理解LLM的决策过程。 3. 价值-行为一致性率(VAAR):VAAR的计算基于MGSEM的结果,通过聚合预期符号的路径级别证据来评估一致性。

📊 实验亮点

实验结果表明,不同LLM在Privacy-PSA-AoDS配置文件上存在稳定但模型特定的差异,并且在价值-行为一致性方面存在显著的异质性。论文提出的VAAR指标能够有效区分不同LLM的一致性水平,为评估LLM的伦理风险提供了一种新的方法。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型在涉及个人数据共享的决策任务中的表现。通过了解LLM在隐私和亲社会动机下的价值-行为一致性,可以开发更安全、更可靠的AI系统,从而更好地保护用户隐私并促进社会福祉。该研究还有助于开发更符合人类价值观的AI系统。

📄 摘要(原文)

Large language models (LLMs) are increasingly used to simulate decision-making tasks involving personal data sharing, where privacy concerns and prosocial motivations can push choices in opposite directions. Existing evaluations often measure privacy-related attitudes or sharing intentions in isolation, which makes it difficult to determine whether a model's expressed values jointly predict its downstream data-sharing actions as in real human behaviors. We introduce a context-based assessment protocol that sequentially administers standardized questionnaires for privacy attitudes, prosocialness, and acceptance of data sharing within a bounded, history-carrying session. To evaluate value-action alignments under competing attitudes, we use multi-group structural equation modeling (MGSEM) to identify relations from privacy concerns and prosocialness to data sharing. We propose Value-Action Alignment Rate (VAAR), a human-referenced directional agreement metric that aggregates path-level evidence for expected signs. Across multiple LLMs, we observe stable but model-specific Privacy-PSA-AoDS profiles, and substantial heterogeneity in value-action alignment.