Can LLM Teams Play What? Where? When?

📄 arXiv: 2605.30459v1 📥 PDF

作者: Anastasia Kotelnikova, Viktor Byzov, Maria Dolzhenkova, Evgeny Kotelnikov

分类: cs.CL

发布日期: 2026-05-28

备注: Accepted for Dialogue-2026 conference


💡 一句话要点

LLM团队协作提升智力问答游戏表现,最高提升20个百分点

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 团队协作 智力问答 多智能体系统 协同推理

📋 核心要点

  1. 现有LLM在需要复杂推理和文化知识的任务中表现受限,尤其缺乏协同解决问题的能力。
  2. 提出基于团队协作的LLM解决方案,通过投票、观察等策略模拟人类团队解决智力问答游戏。
  3. 实验表明,团队协作策略显著提升LLM在ChGK游戏中的准确率,最高提升20个百分点,接近人类水平。

📝 摘要(中文)

大型语言模型(LLMs)在需要间接推理、文化知识和协同假设检验的任务中仍然存在局限性。本文研究了基于团队的互动是否能提高LLM在“What? Where? When?”(ChGK)智力问答游戏中的表现,该游戏旨在奖励集体推理。我们引入了三种团队策略:投票、沉默团队(队长观察最终答案)和健谈团队(队长观察答案和理由)。为了最大限度地减少数据泄露,我们在2025年发布的572个ChGK问题的数据集上评估了这些策略。使用六个最新的大型开放模型,我们表明基于团队的策略优于单模型基线,准确率提高了高达20个百分点。最佳团队的准确率达到44.23%,并且在具有可用人类统计数据的问题上接近人类团队的表现。对模型间多样性的分析表明,分歧强烈预示着较低的准确率,但解释性沟通可以显著减轻性能下降。我们进一步检查了队长的行为,没有发现自我偏好偏差的证据;获得同伴的理由可以改善队长的判断。总的来说,LLM团队主要发挥答案选择和错误过滤机制的作用,而不是产生新的解决方案。我们的研究结果强调了互动的重要性,并提出了自适应策略作为多智能体系统的一个有希望的方向。

🔬 方法详解

问题定义:论文旨在解决LLM在需要间接推理、文化知识和协同假设检验的复杂任务中表现不佳的问题。现有方法通常依赖于单个LLM的独立推理,缺乏团队协作和知识整合的能力,导致在类似ChGK这样的智力问答游戏中表现受限。

核心思路:论文的核心思路是借鉴人类团队解决问题的模式,构建LLM团队,通过不同的团队策略(投票、沉默团队、健谈团队)模拟团队成员之间的互动和知识共享,从而提高整体的推理能力和准确率。这种方法旨在利用LLM之间的多样性,并通过沟通和协商来纠正错误,提升性能。

技术框架:整体框架包括以下几个主要模块:1) 问题输入:将ChGK问题输入到LLM团队中。2) 独立回答:每个LLM独立生成答案和/或理由。3) 团队策略:根据不同的团队策略(投票、沉默团队、健谈团队)进行答案选择或理由分析。4) 队长决策:在沉默团队和健谈团队中,由队长根据团队成员的答案和/或理由做出最终决策。5) 结果评估:评估团队的整体准确率,并分析不同策略和模型之间的差异。

关键创新:最重要的技术创新点在于将团队协作的概念引入到LLM的应用中,通过模拟人类团队的互动模式来提高LLM的推理能力。与传统的单模型方法相比,该方法能够利用LLM之间的多样性,并通过沟通和协商来纠正错误,从而提升整体性能。此外,论文还设计了多种团队策略,并分析了不同策略对性能的影响。

关键设计:论文的关键设计包括:1) 三种团队策略:投票(简单多数)、沉默团队(队长观察答案)、健谈团队(队长观察答案和理由)。2) 使用2025年发布的ChGK问题数据集,以避免数据泄露。3) 评估了六个最新的大型开放模型。4) 分析了模型间多样性与准确率之间的关系。5) 考察了队长行为,包括是否存在自我偏好偏差,以及理由对队长判断的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于团队的策略显著优于单模型基线,准确率提高了高达20个百分点。最佳团队的准确率达到44.23%,并且在具有可用人类统计数据的问题上接近人类团队的表现。分析表明,模型间的分歧与较低的准确率相关,但解释性沟通可以显著减轻性能下降。队长行为分析未发现自我偏好偏差,且同伴的理由可以改善队长的判断。

🎯 应用场景

该研究成果可应用于需要复杂推理和协同决策的领域,例如智能客服、专家系统、多智能体机器人协作等。通过构建LLM团队,可以提高问题解决的准确性和效率,并为多智能体系统的设计提供新的思路。未来的研究可以探索更复杂的团队结构和沟通机制,以进一步提升LLM团队的性能。

📄 摘要(原文)

Large language models (LLMs) remain limited on tasks requiring indirect reasoning, cultural knowledge, and coordinated hypothesis testing. We investigate whether team-based interaction improves LLM performance in What? Where? When? (ChGK), a quiz game designed to reward collective reasoning. We introduce three team strategies: Voting, Silent Team (the captain observes final answers), and Talkative Team (the captain observes both answers and rationales). To minimize data leakage, we evaluate these strategies on a dataset consisting of 572 ChGK questions released in 2025. Using six recent large-scale open models, we show that team-based strategies outperform single-model baselines, yielding gains of up to 20 percentage points in accuracy. The best team achieves 44.23% accuracy, and approaches human team performance on questions with available human statistics. Analysis of inter-model diversity reveals that disagreement strongly predicts lower accuracy, but explanatory communication substantially mitigates performance drops. We further examine captain behavior and find no evidence of self-preference bias; access to peer rationales improves captain judgments. Overall, LLM teams function primarily as answer selection and error-filtering mechanisms rather than generators of novel solutions. Our findings highlight the importance of interaction and suggest adaptive strategies as a promising direction for multi-agent systems.