Collaborative Multi-Agent Scripts Generation for Enhancing Imperfect-Information Reasoning in Murder Mystery Games
作者: Keyang Zhong, Junlin Xie, Hefeng Wu, Haofeng Li, Guanbin Li
分类: cs.AI
发布日期: 2026-04-13
备注: 9 pages, 5 figures, Findings of ACL 2026
💡 一句话要点
提出协同多智能体剧本生成框架,提升VLMs在谋杀之谜游戏中不完美信息推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 视觉语言模型 不完美信息推理 谋杀之谜游戏 多模态学习
📋 核心要点
- 现有视觉语言模型在多人游戏中,面对不完美信息和欺骗时,多跳推理能力显著下降。
- 提出协同多智能体框架,生成高质量、角色驱动的游戏剧本,增强模型在复杂推理场景下的表现。
- 通过两阶段训练策略,提升模型在叙事推理、隐藏事实提取和抗欺骗理解方面的性能。
📝 摘要(中文)
本文研究了多人游戏场景下,视觉语言模型(VLMs)在不完美和欺骗信息下的复杂多跳推理能力退化问题,以代表性的多人任务“谋杀之谜”游戏为例,该游戏需要根据具有不同意图的角色提供的部分线索来推断隐藏的真相。为了解决这个挑战,我们提出了一个协同多智能体框架,用于评估和合成高质量、角色驱动的多人游戏剧本,从而实现针对角色身份(即,凶手 vs. 无辜者)的细粒度交互模式。我们的系统通过协调的智能体交互生成丰富的多模态上下文,包括角色背景故事、视觉和文本线索以及多跳推理链。我们设计了一个两阶段的智能体监控训练策略,以增强VLMs的推理能力:(1)基于思维链的微调,使用模拟不确定性和欺骗的精选和合成数据集;(2)基于GRPO的强化学习,采用智能体监控的奖励塑造,鼓励模型发展角色特定的推理行为和有效的多模态多跳推理。大量的实验表明,我们的方法显著提高了VLMs在叙事推理、隐藏事实提取和抗欺骗理解方面的性能。我们的贡献为在不确定、对抗和社交复杂条件下训练和评估VLMs提供了一个可扩展的解决方案,为未来在不完美信息下的多模态多跳推理基准奠定了基础。
🔬 方法详解
问题定义:论文旨在解决视觉语言模型(VLMs)在多人、不完美信息环境下的推理能力不足的问题,尤其是在存在欺骗和多跳推理的情况下。现有方法难以有效处理这种复杂场景,导致VLMs在叙事推理、隐藏事实提取和抗欺骗理解方面的性能下降。
核心思路:论文的核心思路是利用协同多智能体框架生成高质量的游戏剧本,这些剧本包含丰富的多模态上下文(角色背景、视觉和文本线索、多跳推理链),并采用两阶段训练策略,从而提升VLMs在复杂推理场景下的表现。通过角色驱动的剧本生成和智能体监控的训练,使模型能够更好地理解和应对不确定性和欺骗。
技术框架:该框架包含以下主要模块:1) 多智能体剧本生成器:负责生成包含角色背景、线索和推理链的多模态游戏剧本。2) 两阶段训练策略:第一阶段是基于思维链的微调,使用精选和合成的数据集,模拟不确定性和欺骗;第二阶段是基于GRPO的强化学习,采用智能体监控的奖励塑造,鼓励模型发展角色特定的推理行为。
关键创新:该论文的关键创新在于:1) 协同多智能体剧本生成框架,能够生成高质量、角色驱动的复杂游戏剧本,为VLMs提供更具挑战性的训练数据。2) 两阶段智能体监控训练策略,通过思维链微调和GRPO强化学习,有效提升了VLMs在不完美信息下的推理能力。
关键设计:在剧本生成方面,设计了角色特定的生成策略,确保剧本内容与角色身份和意图一致。在训练策略方面,采用了基于GRPO的强化学习,并设计了智能体监控的奖励函数,以鼓励模型学习角色特定的推理行为。具体参数设置和网络结构细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法显著提高了VLMs在叙事推理、隐藏事实提取和抗欺骗理解方面的性能。具体提升幅度未在摘要中给出,属于未知信息。该方法为在不确定、对抗和社交复杂条件下训练和评估VLMs提供了一个可扩展的解决方案。
🎯 应用场景
该研究成果可应用于开发更智能的对话系统、游戏AI和欺诈检测系统。通过提升模型在不确定和对抗环境下的推理能力,可以使其在现实世界的复杂场景中更好地理解和应对各种挑战,例如金融欺诈识别、舆情分析和智能客服。
📄 摘要(原文)
Vision-language models (VLMs) have shown impressive capabilities in perceptual tasks, yet they degrade in complex multi-hop reasoning under multiplayer game settings with imperfect and deceptive information. In this paper, we study a representative multiplayer task, Murder Mystery Games, which require inferring hidden truths based on partial clues provided by roles with different intentions. To address this challenge, we propose a collaborative multi-agent framework for evaluating and synthesizing high-quality, role-driven multiplayer game scripts, enabling fine-grained interaction patterns tailored to character identities (i.e., murderer vs. innocent). Our system generates rich multimodal contexts, including character backstories, visual and textual clues, and multi-hop reasoning chains, through coordinated agent interactions. We design a two-stage agent-monitored training strategy to enhance the reasoning ability of VLMs: (1) chain-of-thought based fine-tuning on curated and synthetic datasets that model uncertainty and deception; (2) GRPO-based reinforcement learning with agent-monitored reward shaping, encouraging the model to develop character-specific reasoning behaviors and effective multimodal multi-hop inference. Extensive experiments demonstrate that our method significantly boosts the performance of VLMs in narrative reasoning, hidden fact extraction, and deception-resilient understanding. Our contributions offer a scalable solution for training and evaluating VLMs under uncertain, adversarial, and socially complex conditions, laying the groundwork for future benchmarks in multimodal multi-hop reasoning under imperfect information.