AgenticPay: A Multi-Agent LLM Negotiation System for Buyer-Seller Transactions
作者: Xianyang Liu, Shangding Gu, Dawn Song
分类: cs.AI, cs.LG
发布日期: 2026-02-05
🔗 代码/项目: GITHUB
💡 一句话要点
AgenticPay:一个用于买卖交易的多智能体LLM协商系统
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 语言协商 大型语言模型 经济仿真 智能商务
📋 核心要点
- 现有基准测试缺乏对多智能体间基于语言的经济互动进行评估的有效设置,难以衡量LLM在复杂协商场景下的能力。
- AgenticPay框架通过模拟买卖双方的私有约束和产品估值,促使智能体通过多轮语言协商达成协议。
- 实验结果表明,现有LLM在协商性能上存在显著差距,尤其是在长期战略推理方面,AgenticPay为此类研究提供了基础。
📝 摘要(中文)
基于大型语言模型(LLM)的智能体越来越被期望能够自主地进行协商、协调和交易,然而,现有的基准测试缺乏评估多个智能体之间基于语言的经济互动的原则性设置。我们引入AgenticPay,这是一个由自然语言驱动的多智能体买卖协商的基准测试和仿真框架。AgenticPay模拟了买方和卖方拥有私有约束和产品相关估值的市场,并且必须通过多轮语言协商而不是单独的数字竞价来达成协议。该框架支持从双边议价到多对多市场的110多个任务,具有结构化的动作提取以及可行性、效率和福利的指标。对最先进的专有和开源LLM进行基准测试,揭示了协商性能方面的巨大差距,并突出了长期战略推理方面的挑战,从而将AgenticPay确立为研究智能体商务和基于语言的市场互动的基础。
🔬 方法详解
问题定义:论文旨在解决现有基准测试在评估多智能体之间基于语言的经济互动方面的不足。现有方法主要依赖于数值竞价,缺乏对自然语言协商过程的建模,难以评估LLM在复杂、真实的经济场景中的协商能力。
核心思路:论文的核心思路是构建一个多智能体协商环境,其中买方和卖方通过自然语言进行多轮协商,以达成交易协议。该环境模拟了真实的经济场景,考虑了买卖双方的私有约束和产品估值,并提供了丰富的任务类型和评估指标。通过这种方式,可以更全面地评估LLM在协商、协调和交易方面的能力。
技术框架:AgenticPay框架包含以下主要模块:1) 任务生成器:生成不同类型的买卖协商任务,包括双边议价和多对多市场;2) 智能体模型:使用LLM作为智能体的决策引擎,负责生成协商策略和语言表达;3) 环境模拟器:模拟市场环境,根据智能体的行为更新状态,并提供反馈;4) 评估指标:评估协商结果的可行性、效率和福利。整体流程是,任务生成器生成任务,智能体模型在环境模拟器中进行多轮协商,最后使用评估指标评估协商结果。
关键创新:AgenticPay的关键创新在于其对多智能体语言协商过程的建模。与传统的数值竞价方法不同,AgenticPay允许智能体使用自然语言进行交流,从而更好地模拟了真实的经济场景。此外,AgenticPay还提供了丰富的任务类型和评估指标,可以更全面地评估LLM在协商方面的能力。
关键设计:AgenticPay的关键设计包括:1) 使用LLM作为智能体的决策引擎,利用LLM的自然语言处理能力;2) 设计了结构化的动作提取机制,将自然语言转化为可执行的动作;3) 提供了多种评估指标,包括可行性、效率和福利,以全面评估协商结果;4) 任务的多样性,覆盖了从简单的双边议价到复杂的多对多市场。
🖼️ 关键图片
📊 实验亮点
对多种LLM的基准测试表明,现有模型在协商性能上存在显著差距,尤其是在长期战略推理方面。例如,某些专有LLM在特定任务上的表现优于开源模型,但在其他任务上则表现不佳,这表明LLM在协商能力方面仍有很大的提升空间。AgenticPay的评估结果为LLM的改进提供了重要的参考。
🎯 应用场景
AgenticPay的研究成果可应用于智能商务、自动化谈判、供应链管理等领域。通过构建更智能的协商系统,可以提高交易效率、降低交易成本,并实现更公平的资源分配。未来,该研究有望推动人机协作的智能经济发展,例如在电商平台中,AI智能体可以代表用户进行商品议价,或者在企业间合作中,AI智能体可以自动协商合同条款。
📄 摘要(原文)
Large language model (LLM)-based agents are increasingly expected to negotiate, coordinate, and transact autonomously, yet existing benchmarks lack principled settings for evaluating language-mediated economic interaction among multiple agents. We introduce AgenticPay, a benchmark and simulation framework for multi-agent buyer-seller negotiation driven by natural language. AgenticPay models markets in which buyers and sellers possess private constraints and product-dependent valuations, and must reach agreements through multi-round linguistic negotiation rather than numeric bidding alone. The framework supports a diverse suite of over 110 tasks ranging from bilateral bargaining to many-to-many markets, with structured action extraction and metrics for feasibility, efficiency, and welfare. Benchmarking state-of-the-art proprietary and open-weight LLMs reveals substantial gaps in negotiation performance and highlights challenges in long-horizon strategic reasoning, establishing AgenticPay as a foundation for studying agentic commerce and language-based market interaction. Code and dataset are available at the link: https://github.com/SafeRL-Lab/AgenticPay.