ProMediate: A Socio-cognitive framework for evaluating proactive agents in multi-party negotiation

📄 arXiv: 2510.25224v1 📥 PDF

作者: Ziyi Liu, Bahar Sarrafzadeh, Pei Zhou, Longqi Yang, Jieyu Zhao, Ashish Sharma

分类: cs.CL

发布日期: 2025-10-29


💡 一句话要点

ProMediate:用于评估多方协商中主动代理的社会认知框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多方协商 主动代理 社会认知 AI调解 评估框架

📋 核心要点

  1. 现有方法缺乏对多方协商场景中主动AI代理的系统评估,阻碍了相关技术的发展。
  2. ProMediate框架通过模拟协商环境和提供可灵活干预的AI调解器,实现了对主动代理的评估。
  3. 实验结果表明,具有社会智能的调解代理在困难场景下,共识变化和响应速度均优于通用基线。

📝 摘要(中文)

大型语言模型(LLM)越来越多地应用于代理框架中,以辅助个体用户。然而,对于能够主动管理复杂的多方协作的代理的需求日益增长。针对此类主动代理的系统评估方法仍然稀缺,这限制了在开发能够有效支持多人协作的AI方面的进展。协商为此挑战提供了一个严峻的试验平台,它需要社会认知智能来驾驭多个参与者和多个主题之间相互冲突的利益,并达成共识。在此,我们提出了ProMediate,这是第一个用于评估复杂、多主题、多方协商中主动AI调解代理的框架。ProMediate由两个核心组件组成:(i)一个基于真实协商案例和理论驱动的难度级别(ProMediate-Easy、ProMediate-Medium和ProMediate-Hard)的模拟测试平台,以及一个基于社会认知调解理论的即插即用型主动AI调解器,能够灵活地决定何时以及如何进行干预;(ii)一个社会认知评估框架,其中包含一套新的指标,用于衡量共识变化、干预延迟、调解器有效性和智能。这些组件共同建立了一个系统框架,用于评估多方环境中主动AI代理的社会认知智能。我们的结果表明,通过更快、更有针对性的干预,具有社会智能的调解代理优于通用基线。在ProMediate-Hard设置中,与通用基线相比,我们的社会调解器将共识变化提高了3.6个百分点(10.65% vs 7.01%),同时响应速度提高了77%(15.98s vs. 3.71s)。总之,ProMediate提供了一个严谨的、基于理论的测试平台,以推进主动的、具有社会智能的代理的开发。

🔬 方法详解

问题定义:论文旨在解决如何系统地评估多方协商场景中主动AI代理的社会认知智能的问题。现有方法缺乏针对此类场景的有效评估框架,难以衡量代理在复杂交互中的表现,阻碍了主动协商AI的发展。

核心思路:论文的核心思路是构建一个模拟协商环境,并设计一个具有社会认知能力的AI调解器,通过观察调解器的干预行为和协商结果,评估其社会认知智能。该方法强调了在真实场景中评估AI代理的重要性,并借鉴了社会认知理论来指导调解器的设计。

技术框架:ProMediate框架包含两个主要组件:(1) 模拟测试平台:该平台基于真实的协商案例,并根据难度分为Easy、Medium和Hard三个级别。该平台允许插入不同的AI调解器。(2) 社会认知评估框架:该框架包含一套新的指标,用于衡量共识变化、干预延迟、调解器有效性和智能。整体流程为:在模拟测试平台上运行AI调解器,然后使用社会认知评估框架评估其性能。

关键创新:该论文的关键创新在于提出了一个完整的、基于理论的评估框架,用于评估多方协商场景中主动AI代理的社会认知智能。该框架不仅提供了模拟环境,还定义了一套新的评估指标,能够更全面地衡量代理的性能。此外,该框架还提供了一个即插即用的AI调解器,方便研究人员进行实验。

关键设计:ProMediate-Easy, ProMediate-Medium, ProMediate-Hard三种难度级别,通过调整协商议题的数量、参与者的利益冲突程度等因素来控制难度。AI调解器基于社会认知调解理论,能够根据协商状态灵活地决定何时以及如何进行干预。评估指标包括共识变化(衡量协商结果)、干预延迟(衡量响应速度)、调解器有效性(衡量干预效果)和智能(衡量社会认知能力)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在ProMediate-Hard设置中,与通用基线相比,具有社会智能的调解器将共识变化提高了3.6个百分点(10.65% vs 7.01%),同时响应速度提高了77%(15.98s vs. 3.71s)。这表明,社会智能对于提升AI在复杂协商场景中的表现至关重要。

🎯 应用场景

ProMediate框架可应用于开发和评估各种多方协作场景中的主动AI代理,例如在线会议、团队项目管理、供应链协调等。该研究有助于提升AI在复杂社会环境中的适应性和协作能力,促进人机协同。

📄 摘要(原文)

While Large Language Models (LLMs) are increasingly used in agentic frameworks to assist individual users, there is a growing need for agents that can proactively manage complex, multi-party collaboration. Systematic evaluation methods for such proactive agents remain scarce, limiting progress in developing AI that can effectively support multiple people together. Negotiation offers a demanding testbed for this challenge, requiring socio-cognitive intelligence to navigate conflicting interests between multiple participants and multiple topics and build consensus. Here, we present ProMediate, the first framework for evaluating proactive AI mediator agents in complex, multi-topic, multi-party negotiations. ProMediate consists of two core components: (i) a simulation testbed based on realistic negotiation cases and theory-driven difficulty levels (ProMediate-Easy, ProMediate-Medium, and ProMediate-Hard), with a plug-and-play proactive AI mediator grounded in socio-cognitive mediation theories, capable of flexibly deciding when and how to intervene; and (ii) a socio-cognitive evaluation framework with a new suite of metrics to measure consensus changes, intervention latency, mediator effectiveness, and intelligence. Together, these components establish a systematic framework for assessing the socio-cognitive intelligence of proactive AI agents in multi-party settings. Our results show that a socially intelligent mediator agent outperforms a generic baseline, via faster, better-targeted interventions. In the ProMediate-Hard setting, our social mediator increases consensus change by 3.6 percentage points compared to the generic baseline (10.65\% vs 7.01\%) while being 77\% faster in response (15.98s vs. 3.71s). In conclusion, ProMediate provides a rigorous, theory-grounded testbed to advance the development of proactive, socially intelligent agents.