Can LLM Teams Play What? Where? When?

作者: Anastasia Kotelnikova, Viktor Byzov, Maria Dolzhenkova, Evgeny Kotelnikov

分类: cs.CL

发布日期: 2026-05-28

备注: Accepted for Dialogue-2026 conference

💡 一句话要点

LLM团队协作提升智力问答游戏表现，最高提升20个百分点

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 团队协作 智力问答 多智能体系统 协同推理

📋 核心要点

现有LLM在需要复杂推理和文化知识的任务中表现受限，尤其缺乏协同解决问题的能力。
提出基于团队协作的LLM解决方案，通过投票、观察等策略模拟人类团队解决智力问答游戏。
实验表明，团队协作策略显著提升LLM在ChGK游戏中的准确率，最高提升20个百分点，接近人类水平。

📝 摘要（中文）

大型语言模型(LLMs)在需要间接推理、文化知识和协同假设检验的任务中仍然存在局限性。本文研究了基于团队的互动是否能提高LLM在“What? Where? When?”(ChGK)智力问答游戏中的表现，该游戏旨在奖励集体推理。我们引入了三种团队策略：投票、沉默团队（队长观察最终答案）和健谈团队（队长观察答案和理由）。为了最大限度地减少数据泄露，我们在2025年发布的572个ChGK问题的数据集上评估了这些策略。使用六个最新的大型开放模型，我们表明基于团队的策略优于单模型基线，准确率提高了高达20个百分点。最佳团队的准确率达到44.23%，并且在具有可用人类统计数据的问题上接近人类团队的表现。对模型间多样性的分析表明，分歧强烈预示着较低的准确率，但解释性沟通可以显著减轻性能下降。我们进一步检查了队长的行为，没有发现自我偏好偏差的证据；获得同伴的理由可以改善队长的判断。总的来说，LLM团队主要发挥答案选择和错误过滤机制的作用，而不是产生新的解决方案。我们的研究结果强调了互动的重要性，并提出了自适应策略作为多智能体系统的一个有希望的方向。

🔬 方法详解

问题定义：论文旨在解决LLM在需要间接推理、文化知识和协同假设检验的复杂任务中表现不佳的问题。现有方法通常依赖于单个LLM的独立推理，缺乏团队协作和知识整合的能力，导致在类似ChGK这样的智力问答游戏中表现受限。

核心思路：论文的核心思路是借鉴人类团队解决问题的模式，构建LLM团队，通过不同的团队策略（投票、沉默团队、健谈团队）模拟团队成员之间的互动和知识共享，从而提高整体的推理能力和准确率。这种方法旨在利用LLM之间的多样性，并通过沟通和协商来纠正错误，提升性能。

技术框架：整体框架包括以下几个主要模块：1) 问题输入：将ChGK问题输入到LLM团队中。2) 独立回答：每个LLM独立生成答案和/或理由。3) 团队策略：根据不同的团队策略（投票、沉默团队、健谈团队）进行答案选择或理由分析。4) 队长决策：在沉默团队和健谈团队中，由队长根据团队成员的答案和/或理由做出最终决策。5) 结果评估：评估团队的整体准确率，并分析不同策略和模型之间的差异。

关键创新：最重要的技术创新点在于将团队协作的概念引入到LLM的应用中，通过模拟人类团队的互动模式来提高LLM的推理能力。与传统的单模型方法相比，该方法能够利用LLM之间的多样性，并通过沟通和协商来纠正错误，从而提升整体性能。此外，论文还设计了多种团队策略，并分析了不同策略对性能的影响。

关键设计：论文的关键设计包括：1) 三种团队策略：投票（简单多数）、沉默团队（队长观察答案）、健谈团队（队长观察答案和理由）。2) 使用2025年发布的ChGK问题数据集，以避免数据泄露。3) 评估了六个最新的大型开放模型。4) 分析了模型间多样性与准确率之间的关系。5) 考察了队长行为，包括是否存在自我偏好偏差，以及理由对队长判断的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于团队的策略显著优于单模型基线，准确率提高了高达20个百分点。最佳团队的准确率达到44.23%，并且在具有可用人类统计数据的问题上接近人类团队的表现。分析表明，模型间的分歧与较低的准确率相关，但解释性沟通可以显著减轻性能下降。队长行为分析未发现自我偏好偏差，且同伴的理由可以改善队长的判断。

🎯 应用场景

该研究成果可应用于需要复杂推理和协同决策的领域，例如智能客服、专家系统、多智能体机器人协作等。通过构建LLM团队，可以提高问题解决的准确性和效率，并为多智能体系统的设计提供新的思路。未来的研究可以探索更复杂的团队结构和沟通机制，以进一步提升LLM团队的性能。

📄 摘要（原文）

Large language models (LLMs) remain limited on tasks requiring indirect reasoning, cultural knowledge, and coordinated hypothesis testing. We investigate whether team-based interaction improves LLM performance in What? Where? When? (ChGK), a quiz game designed to reward collective reasoning. We introduce three team strategies: Voting, Silent Team (the captain observes final answers), and Talkative Team (the captain observes both answers and rationales). To minimize data leakage, we evaluate these strategies on a dataset consisting of 572 ChGK questions released in 2025. Using six recent large-scale open models, we show that team-based strategies outperform single-model baselines, yielding gains of up to 20 percentage points in accuracy. The best team achieves 44.23% accuracy, and approaches human team performance on questions with available human statistics. Analysis of inter-model diversity reveals that disagreement strongly predicts lower accuracy, but explanatory communication substantially mitigates performance drops. We further examine captain behavior and find no evidence of self-preference bias; access to peer rationales improves captain judgments. Overall, LLM teams function primarily as answer selection and error-filtering mechanisms rather than generators of novel solutions. Our findings highlight the importance of interaction and suggest adaptive strategies as a promising direction for multi-agent systems.

Can LLM Teams Play What? Where? When?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理