LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation

作者: Yijun Liu, Wu Liu, Xiaoyan Gu, Yong Rui, Xiaodong He, Yongdong Zhang

分类: cs.AI

发布日期: 2024-12-12 (更新: 2024-12-13)

💡 一句话要点

LMAgent：构建大规模多模态智能体社会，用于多用户电商行为仿真

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态智能体 大规模仿真 电商场景 自洽性提示 快速记忆机制 小世界模型 用户行为模拟 LLM

📋 核心要点

现有基于LLM的智能体在模拟复杂社会系统中多用户行为方面存在不足，尤其是在多模态交互和大规模仿真方面。
LMAgent通过自洽性提示增强智能体的多模态能力，并结合快速记忆机制和小世界模型提高系统效率，从而实现大规模仿真。
实验表明，LMAgent在行为指标上与人类表现相当，并能展现羊群效应等复杂社会现象，验证了其在社会行为模拟方面的潜力。

📝 摘要（中文）

本文提出了LMAgent，一个基于多模态大型语言模型的大规模多模态智能体社会，以电商场景为例，旨在对多用户行为进行可信的仿真。在LMAgent中，智能体不仅可以自由地与朋友聊天，还可以自主地浏览、购买和评价商品，甚至进行直播电商。为了模拟这种复杂的系统，本文引入了一种自洽性提示机制来增强智能体的多模态能力，从而显著提高了决策性能。此外，本文提出了一种快速记忆机制，并结合小世界模型来提高系统效率，支持超过10,000个智能体的社会模拟。智能体行为的实验表明，这些智能体在行为指标上达到了与人类相当的性能。与现有的基于LLM的多智能体系统相比，LMAgent展现了更多不同且有价值的现象，例如羊群效应，这证明了LMAgent在可信的大规模社会行为模拟方面的潜力。

🔬 方法详解

问题定义：现有基于LLM的多智能体系统难以模拟真实社会中大规模、多模态交互的复杂性。尤其是在电商场景下，智能体需要具备浏览商品、购买决策、撰写评价、直播互动等多种能力，并且需要支持大规模用户数量的仿真。现有方法在多模态能力和系统效率方面存在瓶颈。

核心思路：LMAgent的核心思路是构建一个基于多模态LLM的智能体社会，通过增强智能体的多模态能力和提高系统效率，实现对大规模、多模态交互的电商场景进行可信的仿真。通过自洽性提示机制提升智能体的决策能力，并利用快速记忆机制和小世界模型来支持大规模智能体数量的仿真。

技术框架：LMAgent的整体框架包含以下几个主要模块：1) 多模态智能体：基于多模态LLM构建，具备聊天、浏览、购买、评价、直播等多种能力。2) 自洽性提示机制：用于增强智能体的多模态决策能力。3) 快速记忆机制：用于存储和检索智能体的历史行为和知识。4) 小世界模型：用于构建智能体之间的社交网络，提高信息传播效率。5) 仿真环境：模拟电商场景，包括商品、用户、店铺等元素。

关键创新：LMAgent的关键创新在于：1) 提出了自洽性提示机制，有效提升了智能体在多模态环境下的决策能力。2) 结合快速记忆机制和小世界模型，实现了对大规模智能体社会的仿真，突破了现有方法的规模限制。3) 将多模态LLM应用于电商场景，实现了对用户行为的细粒度模拟。

关键设计：自洽性提示机制的具体实现方式未知，但推测可能涉及对LLM输出结果进行多次采样和评估，选择一致性最高的答案。快速记忆机制可能采用向量数据库等技术，实现对历史信息的快速检索。小世界模型的参数设置未知，但需要根据具体场景进行调整，以保证信息传播效率和网络结构的合理性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LMAgent在行为指标上达到了与人类相当的性能，例如购买行为的频率、评价内容的质量等。与现有的基于LLM的多智能体系统相比，LMAgent展现了羊群效应等更复杂的社会现象，证明了其在可信的大规模社会行为模拟方面的潜力。具体的性能数据和提升幅度未知。

🎯 应用场景

LMAgent可应用于电商平台的用户行为分析、推荐系统优化、营销策略评估等方面。通过模拟用户行为，可以预测用户需求、优化商品推荐、评估营销活动效果，从而提升电商平台的运营效率和用户体验。此外，该研究也可推广到其他社会行为仿真领域，例如舆情分析、交通规划等。

📄 摘要（原文）

The believable simulation of multi-user behavior is crucial for understanding complex social systems. Recently, large language models (LLMs)-based AI agents have made significant progress, enabling them to achieve human-like intelligence across various tasks. However, real human societies are often dynamic and complex, involving numerous individuals engaging in multimodal interactions. In this paper, taking e-commerce scenarios as an example, we present LMAgent, a very large-scale and multimodal agents society based on multimodal LLMs. In LMAgent, besides freely chatting with friends, the agents can autonomously browse, purchase, and review products, even perform live streaming e-commerce. To simulate this complex system, we introduce a self-consistency prompting mechanism to augment agents' multimodal capabilities, resulting in significantly improved decision-making performance over the existing multi-agent system. Moreover, we propose a fast memory mechanism combined with the small-world model to enhance system efficiency, which supports more than 10,000 agent simulations in a society. Experiments on agents' behavior show that these agents achieve comparable performance to humans in behavioral indicators. Furthermore, compared with the existing LLMs-based multi-agent system, more different and valuable phenomena are exhibited, such as herd behavior, which demonstrates the potential of LMAgent in credible large-scale social behavior simulations.

LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理