SocialGaze: Improving the Integration of Human Social Norms in Large Language Models

📄 arXiv: 2410.08698v1 📥 PDF

作者: Anvesh Rao Vijjini, Rakesh R. Menon, Jiayi Fu, Shashank Srivastava, Snigdha Chaturvedi

分类: cs.CL, cs.CY

发布日期: 2024-10-11


💡 一句话要点

提出SocialGaze框架,提升大语言模型对人类社会规范的理解与对齐

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 社会规范 社会接受度 多视角分析 提示学习

📋 核心要点

  1. 现有大语言模型在社会价值观和规范的对齐方面存在不足,难以准确判断社会情境中行为的合理性。
  2. SocialGaze框架通过多角度描述社会情境,使模型在判断前更全面地理解问题,从而提升判断的准确性。
  3. 实验表明,SocialGaze框架能显著提升模型与人类判断的一致性,在GPT-3.5模型上F1值提升高达11个点。

📝 摘要(中文)

近年来,大量研究致力于提升大语言模型(LLM)的推理能力,但对这些模型与社会价值观和规范的对齐程度的理解存在差距。本文提出了判断社会接受度的任务,要求模型判断人们在社会情境中行为的可接受性并给出理由。研究发现,LLM对社会接受度的理解常常与人类共识不一致。为了解决这个问题,本文提出了SocialGaze,一个多步骤的提示框架,其中语言模型在做出判断之前,从多个角度描述一个社会情境。实验表明,SocialGaze方法将GPT-3.5模型与人类判断的对齐程度提高了高达11个F1点。此外,还发现LLM在归咎责任时存在偏差和相关性,这些偏差与性别(男性更有可能被不公平地评判)和年龄等特征有关(LLM对于年长的叙述者与人类的对齐程度更高)。

🔬 方法详解

问题定义:论文旨在解决大语言模型在理解和应用人类社会规范方面存在的不足。现有方法难以准确判断社会情境中行为的合理性,导致模型输出与人类共识存在偏差。这种偏差可能导致模型在实际应用中产生不符合社会期望或伦理道德的行为。

核心思路:论文的核心思路是让模型在做出判断之前,从多个角度审视社会情境。通过模拟不同角色的视角,模型可以更全面地理解情境的复杂性,从而做出更符合人类社会规范的判断。这种多角度审视有助于减少模型对特定人群或行为的偏见。

技术框架:SocialGaze框架是一个多步骤的提示框架,主要包含以下几个阶段:1) 情境描述:模型首先详细描述给定的社会情境。2) 多视角分析:模型从不同角色的角度分析情境,例如,事件参与者、旁观者等。3) 判断与理由:模型基于多视角分析,判断行为的社会接受度,并给出理由。4) 整合与输出:模型整合所有信息,输出最终的判断结果。

关键创新:SocialGaze框架的关键创新在于其多步骤、多视角的提示方式。与传统的单步提示相比,SocialGaze框架能够引导模型更深入地理解社会情境,从而做出更准确的判断。这种方法模拟了人类在社会交往中的思考方式,有助于提升模型与人类价值观的对齐程度。

关键设计:SocialGaze框架的关键设计在于如何选择合适的角色视角以及如何引导模型进行多视角分析。论文中使用了预定义的角色列表,并设计了相应的提示语,引导模型从不同角色的角度思考问题。此外,论文还探索了不同的提示策略,例如,逐步提示、对比提示等,以进一步提升模型的性能。具体的参数设置和网络结构取决于所使用的大语言模型,SocialGaze框架可以灵活地应用于不同的模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SocialGaze框架能够显著提升大语言模型与人类判断的一致性。在GPT-3.5模型上,SocialGaze框架将F1值提升了高达11个点。此外,研究还发现,LLM在归咎责任时存在性别和年龄偏差,SocialGaze框架在一定程度上缓解了这些偏差。

🎯 应用场景

该研究成果可应用于各种需要理解和应用人类社会规范的场景,例如:社交机器人、智能客服、内容审核、伦理风险评估等。通过提升模型对社会规范的理解,可以减少模型输出中不当或冒犯性内容,提高用户体验,并降低潜在的伦理风险。未来,该研究还可以扩展到更复杂的社会情境和文化背景。

📄 摘要(原文)

While much research has explored enhancing the reasoning capabilities of large language models (LLMs) in the last few years, there is a gap in understanding the alignment of these models with social values and norms. We introduce the task of judging social acceptance. Social acceptance requires models to judge and rationalize the acceptability of people's actions in social situations. For example, is it socially acceptable for a neighbor to ask others in the community to keep their pets indoors at night? We find that LLMs' understanding of social acceptance is often misaligned with human consensus. To alleviate this, we introduce SocialGaze, a multi-step prompting framework, in which a language model verbalizes a social situation from multiple perspectives before forming a judgment. Our experiments demonstrate that the SocialGaze approach improves the alignment with human judgments by up to 11 F1 points with the GPT-3.5 model. We also identify biases and correlations in LLMs in assigning blame that is related to features such as the gender (males are significantly more likely to be judged unfairly) and age (LLMs are more aligned with humans for older narrators).