Implicit Values Embedded in How Humans and LLMs Complete Subjective Everyday Tasks

📄 arXiv: 2510.03384v1 📥 PDF

作者: Arjun Arunasalam, Madison Pickering, Z. Berkay Celik, Blase Ur

分类: cs.CL, cs.AI

发布日期: 2025-10-03


💡 一句话要点

评估LLM在日常任务中体现的隐含价值观,揭示其与人类价值观的差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 价值观对齐 AI助手 伦理风险 日常任务

📋 核心要点

  1. AI助手在日常任务中展现的价值观是重要的,但现有研究对其关注不足。
  2. 该研究通过审计LLM完成日常任务的方式,揭示其隐含的价值观。
  3. 实验表明,LLM在价值观方面与人类及其他LLM存在显著差异。

📝 摘要(中文)

大型语言模型(LLM)可以作为AI助手,通过提供建议或执行基本计算来帮助用户完成日常任务。尽管AI助手前景广阔,但对于它们在完成主观日常任务时所展现的隐含价值观知之甚少。人类可能会考虑环保主义、慈善和多样性等价值观。LLM在完成日常任务时,在多大程度上表现出这些价值观?它们与人类相比如何?我们通过审计六个流行的LLM如何完成30个日常任务来回答这些问题,并将LLM彼此之间以及与来自美国的100名人类众包工作者进行比较。我们发现,LLM在所表现出的隐含价值观方面,通常与人类不一致,也与其他LLM不一致。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在完成主观日常任务时所体现的隐含价值观。现有方法缺乏对AI助手价值观的系统性评估,使得我们不清楚这些模型是否符合人类的价值观,以及不同模型之间是否存在价值观差异。这可能导致AI助手在实际应用中产生与用户期望不符的行为,甚至引发伦理问题。

核心思路:论文的核心思路是通过设计一系列主观日常任务,并观察LLM在完成这些任务时的行为,从而推断出它们所隐含的价值观。通过将LLM的行为与人类的行为进行对比,可以评估LLM的价值观与人类价值观的对齐程度。同时,比较不同LLM的行为,可以揭示它们之间价值观的差异。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选取六个流行的LLM作为研究对象;2) 设计30个主观日常任务,涵盖推荐、计算等多种类型;3) 让LLM和人类众包工作者完成这些任务;4) 分析LLM和人类的行为,提取出它们所隐含的价值观;5) 对比LLM之间以及LLM与人类之间的价值观差异。

关键创新:该研究的关键创新在于:1) 首次系统性地评估了LLM在完成日常任务时所体现的隐含价值观;2) 设计了一套可用于评估AI助手价值观的方法;3) 揭示了LLM在价值观方面与人类及其他LLM存在的显著差异。

关键设计:任务设计是关键。30个日常任务需要具有主观性,即存在多种合理的完成方式,并且不同的完成方式可能体现不同的价值观。例如,推荐餐厅的任务可以体现对环保、健康、价格等不同因素的考虑。此外,研究人员需要设计合理的指标来量化LLM和人类的行为,并提取出它们所隐含的价值观。具体的参数设置、损失函数、网络结构等技术细节未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,LLM在完成日常任务时所体现的隐含价值观与人类存在显著差异,并且不同LLM之间也存在价值观差异。具体的性能数据和提升幅度未在摘要中提及,属于未知信息。该研究强调了在AI助手开发过程中考虑价值观对齐的重要性。

🎯 应用场景

该研究成果可应用于AI助手的价值观对齐和伦理风险评估。通过了解LLM的价值观倾向,可以设计更符合人类价值观的AI助手,避免其在实际应用中产生不符合伦理的行为。此外,该研究的方法也可以用于评估其他AI系统的价值观,从而促进AI技术的健康发展。

📄 摘要(原文)

Large language models (LLMs) can underpin AI assistants that help users with everyday tasks, such as by making recommendations or performing basic computation. Despite AI assistants' promise, little is known about the implicit values these assistants display while completing subjective everyday tasks. Humans may consider values like environmentalism, charity, and diversity. To what extent do LLMs exhibit these values in completing everyday tasks? How do they compare with humans? We answer these questions by auditing how six popular LLMs complete 30 everyday tasks, comparing LLMs to each other and to 100 human crowdworkers from the US. We find LLMs often do not align with humans, nor with other LLMs, in the implicit values exhibited.