Influencing LLM Multi-Agent Dialogue via Policy-Parameterized Prompts

📄 arXiv: 2603.09890v1 📥 PDF

作者: Hongbo Bo, Jingyu Hu, Weiru Liu

分类: cs.AI, cs.MA

发布日期: 2026-03-10


💡 一句话要点

提出基于策略参数化Prompt的LLM多智能体对话控制方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大型语言模型 Prompt工程 策略参数化 对话控制

📋 核心要点

  1. 现有LLM多智能体研究依赖人工设计的prompt,缺乏系统性的策略指导,难以有效控制智能体行为。
  2. 论文提出将prompt视为动作,通过参数化prompt构建轻量级策略,以状态-动作对序列影响对话行为,无需训练。
  3. 实验表明,该方法在响应性、反驳、证据使用等方面有效影响对话动态,为社会模拟提供有效机制。

📝 摘要(中文)

大型语言模型(LLMs)已经成为多智能体系统的一种新范式。然而,目前关于基于LLM的多智能体行为的研究依赖于临时性的prompt,缺乏有原则的策略视角。与强化学习不同,本文研究了是否可以将prompt作为动作进行参数化,从而构建一个轻量级的策略,该策略由一系列状态-动作对组成,以影响对话行为而无需训练。本文的框架将prompt视为LLM执行的动作,并通过基于智能体当前状态的五个组件动态地构建prompt。为了测试参数化控制的有效性,本文基于五个指标评估了对话流程:响应性、反驳、证据使用、非重复性和立场转变。本文在使用不同LLM驱动的智能体在两个与公众相关的讨论场景中进行了实验,结果表明prompt参数化可以影响对话动态。该结果表明,策略参数化的prompt提供了一种简单有效的机制来影响对话过程,这将有助于多智能体系统在社会模拟方向上的研究。

🔬 方法详解

问题定义:现有基于LLM的多智能体对话研究主要依赖于人工设计的prompt,这些prompt通常是临时的、缺乏系统性的,难以对智能体的行为进行精确控制。这种方法的痛点在于,无法从策略的角度对智能体的行为进行建模和优化,导致对话过程不可控,难以实现预期的目标。

核心思路:本文的核心思路是将prompt视为智能体可以执行的动作,通过参数化prompt来构建一个轻量级的策略。这个策略由一系列状态-动作对组成,其中状态描述了智能体当前的对话状态,动作则对应于一个特定的prompt。通过选择不同的prompt,可以影响智能体的行为,从而控制对话的走向。这种方法无需对LLM进行训练,只需要通过调整prompt的参数即可实现对智能体行为的控制。

技术框架:该框架包含以下几个主要模块:1) 状态表示模块:用于描述智能体当前的对话状态,例如已经说过的话、当前的立场等。2) 动作空间模块:定义了可供智能体选择的prompt集合,每个prompt都对应于一个特定的动作。3) 策略模块:根据当前的状态选择一个合适的动作(即prompt)。4) LLM执行模块:将选择的prompt输入到LLM中,生成智能体的回复。5) 评估模块:用于评估对话的质量,例如响应性、反驳、证据使用等。

关键创新:本文最重要的技术创新点在于将prompt视为动作,并通过参数化prompt来构建策略。这种方法将prompt工程从一种艺术变成了一种科学,使得可以更加系统地对智能体的行为进行建模和控制。与传统的强化学习方法相比,该方法无需对LLM进行训练,只需要调整prompt的参数即可,大大降低了计算成本。

关键设计:论文中prompt的参数化是通过五个组件实现的,这些组件包括:1) 角色描述:描述智能体的角色和背景。2) 目标设定:设定智能体的对话目标。3) 约束条件:设定智能体的行为约束。4) 提示信息:提供一些对话的提示信息。5) 风格控制:控制智能体的对话风格。通过调整这些组件的参数,可以生成不同的prompt,从而影响智能体的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过策略参数化的prompt,可以显著影响LLM驱动的智能体在对话中的行为。具体来说,该方法可以提高智能体的响应性、反驳能力和证据使用率,同时降低重复性和立场转变的概率。这些结果表明,该方法是一种简单有效的对话控制机制。

🎯 应用场景

该研究成果可应用于社会模拟、在线辩论、智能客服等领域。通过控制LLM驱动的智能体在对话中的行为,可以模拟不同社会群体的观点碰撞,帮助人们更好地理解社会现象。此外,该方法还可以用于构建更加智能和个性化的对话系统,提升用户体验。

📄 摘要(原文)

Large Language Models (LLMs) have emerged as a new paradigm for multi-agent systems. However, existing research on the behaviour of LLM-based multi-agents relies on ad hoc prompts and lacks a principled policy perspective. Different from reinforcement learning, we investigate whether prompt-as-action can be parameterized so as to construct a lightweight policy which consists of a sequence of state-action pairs to influence conversational behaviours without training. Our framework regards prompts as actions executed by LLMs, and dynamically constructs prompts through five components based on the current state of the agent. To test the effectiveness of parameterized control, we evaluated the dialogue flow based on five indicators: responsiveness, rebuttal, evidence usage, non-repetition, and stance shift. We conduct experiments using different LLM-driven agents in two discussion scenarios related to the general public and show that prompt parameterization can influence the dialogue dynamics. This result shows that policy-parameterised prompts offer a simple and effective mechanism to influence the dialogue process, which will help the research of multi-agent systems in the direction of social simulation.