Analyzing Cultural Representations of Emotions in LLMs through Mixed Emotion Survey

作者: Shiran Dudy, Ibrahim Said Ahmad, Ryoko Kitajima, Agata Lapedriza

分类: cs.CL, cs.AI

发布日期: 2024-08-04

备注: Was accepted to ACII 2024

💡 一句话要点

通过混合情绪调查分析LLM中情感的文化表征

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 情感分析 文化表征 混合情绪 跨文化研究

📋 核心要点

大型语言模型在模拟人类行为方面展现潜力，但其文化价值观的表征可能存在偏差，尤其是在情感表达上。
该研究采用混合情绪调查，分析LLM在不同文化背景下的情感反应，并考察语言和说话者来源的影响。
实验发现LLM在文化情感表征上与现有研究存在差距，语言的影响大于说话者来源，且东亚语言的反应更为相似。

📝 摘要（中文）

大型语言模型（LLM）已在全球范围内得到广泛应用，并在多种语言中展示了先进的语言能力。学术界越来越有兴趣使用这些模型来模拟和研究人类行为。然而，必须承认，LLM在特定语言方面的熟练程度可能无法完全概括与其文化相关的规范和价值观。由于西方和美国训练数据占主导地位，人们对LLM可能存在对盎格鲁文化和价值观的偏见表示担忧。本研究侧重于分析LLM中情感的文化表征，特别是在混合情绪情境下。我们的方法基于Miyamoto等人（2010）的研究，该研究确定了日本和美国人类反应中独特的的情感指标。我们首先将他们的混合情绪调查应用于五个不同的LLM，并分析它们的输出。其次，我们试验上下文变量，以探索考虑语言和说话者来源的反应变化。第三，我们将调查范围扩大到包括其他东亚和西欧来源的语言，以衡量它们与其各自文化的契合度，并预期更紧密的契合。我们发现（1）模型与文献中的证据的对齐有限；（2）书面语言对LLM反应的影响大于参与者来源的信息；（3）发现LLM对东亚语言的反应比对西欧语言的反应更相似。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）在处理情感理解任务时，可能受到训练数据中文化偏见的影响，尤其是在混合情绪情境下。这导致LLM无法准确反映不同文化背景下人们的情感表达方式，现有方法缺乏对LLM文化情感表征的深入分析。

核心思路：本研究的核心思路是通过设计混合情绪调查，模拟真实世界中复杂的情感场景，并分析LLM在这些场景下的反应。通过对比LLM在不同语言和文化背景下的反应差异，评估其文化情感表征的准确性和偏差。

技术框架：该研究的技术框架主要包括以下几个阶段： 1. 混合情绪调查设计：采用Miyamoto等人（2010）的混合情绪调查问卷，该问卷旨在识别日本和美国人类反应中独特的情感指标。 2. LLM选择与测试：选择五个不同的LLM，并将混合情绪调查问卷应用于这些模型，记录并分析它们的输出。 3. 上下文变量实验：通过改变语言和说话者来源等上下文变量，观察LLM反应的变化。 4. 跨文化比较：将调查范围扩大到其他东亚和西欧语言，比较LLM在不同文化背景下的情感表征。

关键创新：该研究的关键创新在于： 1. 混合情绪情境分析：关注LLM在混合情绪情境下的情感表征，更贴近真实世界的情感复杂性。 2. 跨文化比较研究：通过对比不同语言和文化背景下的LLM反应，揭示其文化偏见和局限性。 3. 上下文变量实验：通过系统地改变上下文变量，探究其对LLM情感表征的影响。

关键设计：该研究的关键设计包括： 1. 混合情绪调查问卷的选择：选择经过验证的混合情绪调查问卷，确保研究的有效性和可靠性。 2. LLM的选择：选择具有代表性的LLM，覆盖不同的架构和训练数据。 3. 上下文变量的控制：严格控制语言和说话者来源等上下文变量，确保实验结果的准确性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在混合情绪情境下的情感表征与现有文献存在差距，表明其对不同文化情感的理解不足。书面语言对LLM反应的影响大于说话者来源，暗示语言在情感表达中起主导作用。此外，LLM对东亚语言的反应比对西欧语言的反应更相似，可能反映了训练数据中的文化倾向。

🎯 应用场景

该研究成果可应用于提升LLM在跨文化交流和情感理解方面的能力，减少文化偏见，使其在国际化应用场景中更加可靠。例如，在跨文化客户服务、国际教育和全球内容创作等领域，能够提供更准确、更符合文化背景的响应。

📄 摘要（原文）

Large Language Models (LLMs) have gained widespread global adoption, showcasing advanced linguistic capabilities across multiple of languages. There is a growing interest in academia to use these models to simulate and study human behaviors. However, it is crucial to acknowledge that an LLM's proficiency in a specific language might not fully encapsulate the norms and values associated with its culture. Concerns have emerged regarding potential biases towards Anglo-centric cultures and values due to the predominance of Western and US-based training data. This study focuses on analyzing the cultural representations of emotions in LLMs, in the specific case of mixed-emotion situations. Our methodology is based on the studies of Miyamoto et al. (2010), which identified distinctive emotional indicators in Japanese and American human responses. We first administer their mixed emotion survey to five different LLMs and analyze their outputs. Second, we experiment with contextual variables to explore variations in responses considering both language and speaker origin. Thirdly, we expand our investigation to encompass additional East Asian and Western European origin languages to gauge their alignment with their respective cultures, anticipating a closer fit. We find that (1) models have limited alignment with the evidence in the literature; (2) written language has greater effect on LLMs' response than information on participants origin; and (3) LLMs responses were found more similar for East Asian languages than Western European languages.

Analyzing Cultural Representations of Emotions in LLMs through Mixed Emotion Survey

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理