Are they lovers or friends? Evaluating LLMs' Social Reasoning in English and Korean Dialogues
作者: Eunsu Kim, Junyeong Park, Juhyun Oh, Kiwoong Park, Seyoung Song, A. Seza Doğruöz, Najoung Kim, Alice Oh
分类: cs.CL
发布日期: 2025-10-21 (更新: 2025-10-25)
💡 一句话要点
SCRIPTS:评估LLM在英韩对话中进行社会推理能力的数据集与分析
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 社会推理 大型语言模型 人际关系 对话理解 英韩双语 数据集 社会偏见
📋 核心要点
- 现有LLM在人机交互中应用广泛,但缺乏对人际关系进行社会推理的能力,存在社会偏见。
- 论文构建了SCRIPTS数据集,包含英韩双语电影剧本对话,用于评估LLM对人际关系的推理能力。
- 实验表明,现有LLM在社会推理方面存在局限,尤其是在韩语和避免社会偏见方面表现较差。
📝 摘要(中文)
本文介绍了一个名为SCRIPTS的,包含1000个英语和韩语对话的数据集,这些对话来源于电影剧本。该数据集旨在评估大型语言模型(LLM)在人际交往情境中的社会推理能力,具体任务是推断对话中说话者之间的人际关系(例如,朋友、姐妹、恋人)。每个对话都由来自韩国和美国的母语(或同等水平)韩语和英语使用者标注了概率关系标签(极有可能、可能性较小、不太可能)。在我们的任务中评估了九个模型,目前专有的LLM在英语数据集上达到了约75-80%的准确率,而它们在韩语上的表现下降到58-69%。更令人惊讶的是,模型在10-25%的响应中选择了“不太可能”的关系。此外,我们发现,对于一般推理有效的思维模型和思维链提示,对社会推理几乎没有好处,有时还会放大社会偏见。我们的发现揭示了当前LLM在社会推理能力方面的重大局限性,强调了开发具有社会意识的语言模型的必要性。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在理解和推理人际关系方面的能力。现有方法,尤其是通用推理方法,在社会推理方面表现不足,并且可能放大社会偏见。缺乏专门用于评估LLM社会推理能力的数据集,尤其是在多语言环境下。
核心思路:论文的核心思路是构建一个包含英韩双语对话的数据集,并设计一个任务来评估LLM根据对话内容推断说话者之间关系的能力。通过分析LLM在不同语言和不同关系类型上的表现,揭示其社会推理能力的局限性。
技术框架:该研究主要包含以下几个阶段:1) 数据集构建:从电影剧本中提取对话,并进行英韩双语翻译;2) 数据标注:由母语人士对每个对话标注说话者之间关系的概率标签(极有可能、可能性较小、不太可能);3) 模型评估:使用SCRIPTS数据集评估多个LLM在关系推理任务上的表现;4) 误差分析:分析LLM的错误预测,识别其在社会推理方面的弱点。
关键创新:该研究的关键创新在于:1) 构建了首个用于评估LLM社会推理能力的英韩双语数据集SCRIPTS;2) 提出了基于概率标签的关系推理任务,更细致地评估LLM的推理能力;3) 揭示了现有LLM在社会推理方面的局限性,尤其是在跨语言和社会偏见方面。
关键设计:数据集SCRIPTS包含1000个对话,每个对话都标注了说话者之间关系的概率标签。评估指标包括准确率和错误率。实验中使用了多种LLM,包括专有模型和开源模型。同时,研究还探索了思维链提示等技术对社会推理的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有专有LLM在英语数据集上达到75-80%的准确率,但在韩语数据集上表现下降至58-69%。模型在10-25%的响应中选择了“不太可能”的关系。思维链提示等通用推理技术对社会推理的提升效果有限,甚至可能放大社会偏见。这些结果突显了现有LLM在社会推理能力方面的不足。
🎯 应用场景
该研究成果可应用于开发更具社会意识和文化敏感性的AI系统,例如情感聊天机器人、智能客服和虚拟助手。通过提高LLM的社会推理能力,可以改善人机交互体验,减少AI系统产生不当或冒犯性言论的风险。此外,该数据集可以促进社会计算和自然语言处理领域的研究。
📄 摘要(原文)
As large language models (LLMs) are increasingly used in human-AI interactions, their social reasoning capabilities in interpersonal contexts are critical. We introduce SCRIPTS, a 1k-dialogue dataset in English and Korean, sourced from movie scripts. The task involves evaluating models' social reasoning capability to infer the interpersonal relationships (e.g., friends, sisters, lovers) between speakers in each dialogue. Each dialogue is annotated with probabilistic relational labels (Highly Likely, Less Likely, Unlikely) by native (or equivalent) Korean and English speakers from Korea and the U.S. Evaluating nine models on our task, current proprietary LLMs achieve around 75-80% on the English dataset, whereas their performance on Korean drops to 58-69%. More strikingly, models select Unlikely relationships in 10-25% of their responses. Furthermore, we find that thinking models and chain-of-thought prompting, effective for general reasoning, provide minimal benefits for social reasoning and occasionally amplify social biases. Our findings reveal significant limitations in current LLMs' social reasoning capabilities, highlighting the need for efforts to develop socially-aware language models.