Temperature and Persona Shape LLM Agent Consensus With Minimal Accuracy Gains in Qualitative Coding

📄 arXiv: 2507.11198v1 📥 PDF

作者: Conrad Borchers, Bahar Shahrokhian, Francesco Balzan, Elham Tajik, Sreecharan Sankaranarayanan, Sebastian Simon

分类: cs.CL, cs.AI

发布日期: 2025-07-15

备注: Manuscript submitted for review


💡 一句话要点

研究表明,在定性编码中,LLM Agent的温度和角色设定对共识影响显著,但准确率提升有限。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多智能体系统 定性编码 共识构建 智能体角色 温度参数 人机协作 数据标注

📋 核心要点

  1. 现有定性研究中,人工编码耗时费力,缺乏可扩展性,而直接使用LLM进行编码的准确性和可靠性有待提高。
  2. 论文提出一种基于多智能体系统(MAS)的编码方法,通过模拟人工编码流程中的讨论和共识仲裁,期望提高编码质量。
  3. 实验结果表明,智能体的温度和角色设定会影响共识达成,但对编码准确率的提升并不显著,甚至不如单智能体。

📝 摘要(中文)

大型语言模型(LLMs)为大规模定性研究(包括编码和数据标注)带来了新的可能性。多智能体系统(MAS)可以模拟人工编码工作流程,但其相对于单智能体编码的优势仍不明确。本研究探讨了智能体角色和温度如何影响基于包含8个代码的代码本的对话片段的共识构建和编码准确性。我们开源的MAS通过结构化的智能体讨论和共识仲裁来模拟演绎式人工编码。使用六个开源LLM(参数量从30亿到320亿)和18种实验配置,我们分析了超过77,000个编码决策,并与来自在线数学辅导课程的人工标注转录本的黄金标准数据集进行比较。温度显著影响了所有六个LLM中是否以及何时达成共识。与统一角色相比,具有多种角色(包括中立、自信或同理心)的MAS显著延迟了六个LLM中的四个的共识达成。在其中三个LLM中,较高的温度显著降低了多种角色对共识的影响。然而,温度和角色配对均未导致编码准确性的稳健提高。在大多数情况下,单个智能体的表现与MAS共识相当或优于MAS共识。仅有一个模型(OpenHermesV2:7B)和代码类别在温度为0.5或更低时,尤其是在智能体至少包含一个自信角色时,从MAS审议中获得了高于偶然水平的收益。对这些配置的MAS协作的定性分析表明,MAS可能有助于缩小模糊的代码应用范围,从而改进代码本和人机协同编码。我们为基于LLM的定性方法的局限性提供了新的见解,挑战了多样化的MAS角色能带来更好结果的观点。我们开源了我们的MAS和实验代码。

🔬 方法详解

问题定义:论文旨在研究如何利用多智能体系统(MAS)提高LLM在定性编码任务中的性能。现有方法,如直接使用单个LLM进行编码,可能存在准确性不足的问题,并且缺乏人工编码流程中的讨论和共识环节。论文试图通过模拟人工编码流程,探索MAS在提高编码质量方面的潜力。现有研究对MAS中智能体的角色设定和温度对编码结果的影响缺乏深入理解。

核心思路:论文的核心思路是构建一个模拟人工编码流程的MAS,其中多个LLM智能体扮演不同的角色(如中立、自信、同理心),并根据预定义的代码本对文本片段进行编码。通过智能体之间的讨论和共识仲裁,期望能够提高编码的准确性和可靠性。温度参数用于控制LLM生成文本的随机性,影响智能体的探索能力和共识达成。

技术框架:该研究的技术框架主要包括以下几个部分:1) 构建MAS,包含多个LLM智能体,每个智能体具有不同的角色设定;2) 定义编码任务,使用包含8个代码的代码本对对话片段进行编码;3) 设计智能体之间的讨论和共识仲裁机制,模拟人工编码流程;4) 使用黄金标准数据集评估MAS的编码准确性。整体流程是,输入对话片段,MAS中的智能体独立编码,然后进行讨论,最终达成共识,并将共识结果与黄金标准进行比较。

关键创新:论文的关键创新在于系统性地研究了智能体的角色设定和温度对MAS在定性编码任务中的影响。以往研究较少关注这些因素对LLM编码性能的影响。此外,论文开源了MAS和实验代码,为后续研究提供了便利。论文还对MAS协作过程进行了定性分析,为理解MAS的工作机制提供了新的视角。

关键设计:实验中使用了六个开源LLM(参数量从30亿到320亿),并设置了18种实验配置,包括不同的角色组合和温度参数。角色设定包括中立、自信和同理心三种。温度参数的范围未知,但实验中使用了不同的温度值进行对比。共识仲裁机制的具体实现方式未知,但应该是基于智能体的编码结果进行投票或加权平均。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,温度显著影响了所有六个LLM中是否以及何时达成共识。与统一角色相比,具有多种角色的MAS显著延迟了六个LLM中的四个的共识达成。然而,温度和角色配对均未导致编码准确性的稳健提高。在大多数情况下,单个智能体的表现与MAS共识相当或优于MAS共识。仅有一个模型(OpenHermesV2:7B)在特定条件下获得了高于偶然水平的收益。

🎯 应用场景

该研究成果可应用于大规模定性数据分析,例如社交媒体舆情分析、客户反馈分析、在线教育内容评估等。通过构建合适的MAS,可以提高LLM在这些任务中的编码效率和一致性,辅助研究人员进行更深入的分析。未来的研究可以探索更复杂的智能体角色设定和共识机制,进一步提高LLM在定性编码任务中的性能。

📄 摘要(原文)

Large Language Models (LLMs) enable new possibilities for qualitative research at scale, including coding and data annotation. While multi-agent systems (MAS) can emulate human coding workflows, their benefits over single-agent coding remain poorly understood. We conducted an experimental study of how agent persona and temperature shape consensus-building and coding accuracy of dialog segments based on a codebook with 8 codes. Our open-source MAS mirrors deductive human coding through structured agent discussion and consensus arbitration. Using six open-source LLMs (with 3 to 32 billion parameters) and 18 experimental configurations, we analyze over 77,000 coding decisions against a gold-standard dataset of human-annotated transcripts from online math tutoring sessions. Temperature significantly impacted whether and when consensus was reached across all six LLMs. MAS with multiple personas (including neutral, assertive, or empathetic), significantly delayed consensus in four out of six LLMs compared to uniform personas. In three of those LLMs, higher temperatures significantly diminished the effects of multiple personas on consensus. However, neither temperature nor persona pairing lead to robust improvements in coding accuracy. Single agents matched or outperformed MAS consensus in most conditions. Only one model (OpenHermesV2:7B) and code category showed above-chance gains from MAS deliberation when temperature was 0.5 or lower and especially when the agents included at least one assertive persona. Qualitative analysis of MAS collaboration for these configurations suggests that MAS may nonetheless aid in narrowing ambiguous code applications that could improve codebooks and human-AI coding. We contribute new insight into the limits of LLM-based qualitative methods, challenging the notion that diverse MAS personas lead to better outcomes. We open-source our MAS and experimentation code.