Fine-Grained and Thematic Evaluation of LLMs in Social Deduction Game

📄 arXiv: 2408.09946v3 📥 PDF

作者: Byungjun Kim, Dayeon Seo, Minju Kim, Bugeun Kim

分类: cs.AI, cs.CL

发布日期: 2024-08-19 (更新: 2025-10-07)

备注: Published in IEEE Access

DOI: 10.1109/ACCESS.2025.3611399


💡 一句话要点

提出细粒度和主题分析方法,评估LLM在社交推理游戏中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社交推理游戏 细粒度评估 主题分析 模糊交流

📋 核心要点

  1. 现有研究在社交推理游戏中评估LLM时,采用的指标过于粗粒度,无法捕捉到细致的行为表现。
  2. 论文提出一种微观和系统的方法,包括六个细粒度指标和主题分析,以更全面地评估LLM。
  3. 通过主题分析,论文识别了LLM在模糊交流中表现不佳的四个主要推理失败类型。

📝 摘要(中文)

近期研究探索了大型语言模型(LLM)在模糊交流中的能力,这种交流的特点是推断言外之意和避免怀疑。研究者使用社交推理游戏(SDG)作为实验环境,玩家在游戏中隐藏和推断信息。然而,先前的工作往往忽略了如何在此类环境中评估LLM。具体来说,我们指出了现有评估方法的两个局限性。首先,现有研究中使用的指标是粗粒度的,基于整体游戏结果,无法捕捉事件级别的行为;其次,误差分析缺乏结构化的方法,无法产生有意义的见解来支持评估结果。为了解决这些局限性,我们提出了一种微观和系统的方法。具体来说,我们引入了六个细粒度的指标来解决第一个问题。为了解决第二个问题,我们进行了主题分析,并确定了四个主要的推理失败,这些失败削弱了LLM在模糊交流中的表现。

🔬 方法详解

问题定义:现有研究在社交推理游戏中评估LLM时,主要依赖于游戏的整体结果(例如胜负)作为评估指标。这种粗粒度的评估方式无法捕捉到LLM在游戏过程中每个事件中的具体行为表现,例如是否正确推断了其他玩家的意图,或者是否成功隐藏了自己的真实身份。此外,现有的误差分析缺乏系统性和结构性,难以从失败案例中提取有价值的信息,从而改进LLM的性能。

核心思路:论文的核心思路是通过引入细粒度的评估指标和系统性的主题分析,来更全面、深入地评估LLM在社交推理游戏中的表现。细粒度指标旨在捕捉LLM在游戏过程中每个事件中的行为,而主题分析则旨在识别LLM在推理过程中常见的错误类型。

技术框架:论文提出的评估框架包含两个主要组成部分:细粒度指标和主题分析。细粒度指标包括六个指标,用于评估LLM在游戏中的不同方面的表现,例如信息收集、策略制定和欺骗能力。主题分析则通过对LLM在游戏中失败案例进行分析,识别出LLM在推理过程中常见的错误类型,例如逻辑错误、常识错误和情感理解错误。

关键创新:论文的关键创新在于提出了细粒度的评估指标和系统性的主题分析方法,从而能够更全面、深入地评估LLM在社交推理游戏中的表现。与现有方法相比,该方法能够捕捉到LLM在游戏过程中的细致行为,并识别出LLM在推理过程中常见的错误类型,从而为改进LLM的性能提供有价值的信息。

关键设计:论文中提出的六个细粒度指标的具体定义和计算方法未知。主题分析的具体流程和采用的分析方法也未知。这些细节需要在论文中进一步阐述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了六个细粒度的评估指标,能够更精确地衡量LLM在社交推理游戏中的表现。通过主题分析,论文识别了LLM在模糊交流中常见的四种推理失败类型,为改进LLM的推理能力提供了方向。具体的实验结果和性能提升幅度未知。

🎯 应用场景

该研究成果可应用于评估和改进LLM在需要复杂推理和交流的场景中的表现,例如客户服务、谈判协商和智能助手等。通过细粒度的评估和分析,可以更好地了解LLM的优势和不足,从而针对性地进行优化,提高其在实际应用中的可靠性和有效性。此外,该研究也为社交机器人和人机交互领域提供了新的评估思路。

📄 摘要(原文)

Recent studies have investigated whether large language models (LLMs) can support obscured communication, which is characterized by core aspects such as inferring subtext and evading suspicions. To conduct the investigation, researchers have used social deduction games (SDGs) as their experimental environment, in which players conceal and infer specific information. However, prior work has often overlooked how LLMs should be evaluated in such settings. Specifically, we point out two limitations with the evaluation methods they employed. First, metrics used in prior studies are coarse-grained as they are based on overall game outcomes that often fail to capture event-level behaviors; Second, error analyses have lacked structured methodologies capable of producing insights that meaningfully support evaluation outcomes. To address these limitations, we propose a microscopic and systematic approach to the investigation. Specifically, we introduce six fine-grained metrics that resolve the first issue. To tackle the second issue, we conducted a thematic analysis and identified four major reasoning failures that undermine LLMs' performance in obscured communication.