Interacting Large Language Model Agents. Interpretable Models and Social Learning
作者: Adit Jain, Vikram Krishnamurthy
分类: cs.LG, cs.AI, cs.ET, cs.MA, eess.SY
发布日期: 2024-11-02 (更新: 2025-05-25)
备注: 41 Pages
💡 一句话要点
提出基于贝叶斯社会学习的LLM智能体交互模型,用于理解和缓解群体行为偏差
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 智能体交互 贝叶斯社会学习 群体行为 随机控制
📋 核心要点
- 现有方法在理解和缓解交互式LLMA的偏差和群体行为方面存在不足,缺乏可解释的模型。
- 利用贝叶斯社会学习构建可解释的LLMA交互模型,捕捉群体行为,并采用随机控制延迟群体行为。
- 在仇恨言论分类和产品质量评估的真实数据集上,验证了所提方法的有效性,使用了LLaMA和ChatGPT等模型。
📝 摘要(中文)
本文探讨了使用统计信号处理和微观经济学方法进行交互式大型语言模型智能体(LLMA)的理论和算法。尽管这两个领域都已成熟,但它们在涉及交互式LLMA的决策中的应用仍未得到探索。受在线平台上的贝叶斯情感分析的启发,我们构建了可解释的模型和算法,使LLMA能够交互并执行贝叶斯推理。由于交互式LLMA可以从先前的决策和外部输入中学习,因此它们可能会表现出偏差和群体行为。因此,开发可解释的模型和随机控制算法对于理解和减轻这些行为至关重要。本文有三个主要结果。首先,我们使用微观经济学的贝叶斯显示偏好表明,单个LLMA满足理性不关注(有限理性)贝叶斯效用最大化的必要和充分条件,并且在给定观察的情况下,LLMA选择最大化正则化效用的动作。其次,我们利用贝叶斯社会学习来构建LLMA的可解释模型,这些模型在执行贝叶斯推理时彼此以及与环境顺序交互。我们提出的模型捕捉了交互式LLMA表现出的群体行为。第三,我们提出了一个随机控制框架,以在两种设置下延迟群体行为并提高状态估计的准确性:(a)集中控制的LLMA(b)具有激励措施的自主LLMA。我们使用LLaMA等开源模型和ChatGPT等闭源模型,在仇恨言论分类和产品质量评估的真实数据集上证明了我们方法的有效性。本文的主要结论基于经验分析和数学形式主义,即LLMA充当理性有界的贝叶斯智能体,在交互时表现出社会学习。
🔬 方法详解
问题定义:论文旨在解决交互式大型语言模型智能体(LLMA)在决策过程中出现的偏差和群体行为问题。现有方法缺乏对这些行为的有效建模和控制,难以保证决策的准确性和公正性。特别是在社交媒体情感分析、产品质量评估等场景中,LLMA的群体行为可能导致错误结论或不公平的结果。
核心思路:论文的核心思路是将LLMA建模为理性有界的贝叶斯智能体,并利用贝叶斯社会学习理论来描述它们之间的交互过程。通过这种方式,可以捕捉LLMA从先前决策和外部输入中学习,并受到其他智能体影响的行为模式。此外,论文还提出了随机控制框架,旨在通过干预LLMA的决策过程来延迟群体行为,提高状态估计的准确性。
技术框架:论文的技术框架主要包含三个部分:1) 基于贝叶斯显示偏好理论,证明LLMA满足理性不关注的贝叶斯效用最大化条件;2) 利用贝叶斯社会学习构建LLMA的交互模型,该模型能够捕捉LLMA的群体行为;3) 提出随机控制框架,包括集中控制和自主控制两种模式,用于延迟群体行为并提高状态估计准确性。
关键创新:论文的关键创新在于将微观经济学中的贝叶斯显示偏好理论和统计信号处理中的贝叶斯社会学习理论相结合,用于建模和控制交互式LLMA的行为。这种跨学科的方法为理解和缓解LLMA的偏差和群体行为提供了新的视角。此外,论文提出的随机控制框架也为干预LLMA的决策过程提供了有效的工具。
关键设计:在贝叶斯社会学习模型中,关键设计在于如何建模LLMA之间的信息传递和影响。论文可能采用了某种形式的图模型或递归神经网络来表示LLMA之间的依赖关系。在随机控制框架中,关键设计在于如何选择合适的控制策略,以在延迟群体行为和提高状态估计准确性之间取得平衡。具体的参数设置、损失函数和网络结构等技术细节未知。
🖼️ 关键图片
📊 实验亮点
论文在真实数据集上进行了实验,包括仇恨言论分类和产品质量评估。实验结果表明,所提出的方法能够有效地捕捉LLMA的群体行为,并通过随机控制延迟群体行为,提高状态估计的准确性。具体性能数据和提升幅度未知,但实验验证了该方法的有效性。
🎯 应用场景
该研究成果可应用于社交媒体情感分析、产品质量评估、金融风险管理等领域。通过理解和缓解LLMA的群体行为,可以提高决策的准确性和公正性,避免错误结论或不公平的结果。未来,该研究还可扩展到其他类型的智能体交互场景,例如机器人协作、自动驾驶等。
📄 摘要(原文)
This paper discusses the theory and algorithms for interacting large language model agents (LLMAs) using methods from statistical signal processing and microeconomics. While both fields are mature, their application to decision-making involving interacting LLMAs remains unexplored. Motivated by Bayesian sentiment analysis on online platforms, we construct interpretable models and algorithms that enable LLMAs to interact and perform Bayesian inference. Because interacting LLMAs learn from both prior decisions and external inputs, they can exhibit bias and herding behavior. Thus, developing interpretable models and stochastic control algorithms is essential to understand and mitigate these behaviors. This paper has three main results. First, we show using Bayesian revealed preferences from microeconomics that an individual LLMA satisfies the necessary and sufficient conditions for rationally inattentive (bounded rationality) Bayesian utility maximization and, given an observation, the LLMA chooses an action that maximizes a regularized utility. Second, we utilize Bayesian social learning to construct interpretable models for LLMAs that interact sequentially with each other and the environment while performing Bayesian inference. Our proposed models capture the herding behavior exhibited by interacting LLMAs. Third, we propose a stochastic control framework to delay herding and improve state estimation accuracy under 2 settings: (a) centrally controlled LLMAs (b) autonomous LLMAs with incentives. We demonstrate the effectiveness of our methods on real datasets for hate speech classification and product quality assessment, using open-source models like LLaMA and closed-source models like ChatGPT. The main takeaway of this paper, based on empirical analysis and mathematical formalism, is that LLMAs act as rationally bounded Bayesian agents that exhibit social learning when interacting.