Multi-Party Supervised Fine-tuning of Language Models for Multi-Party Dialogue Generation

作者: Xiaoyu Wang, Ningyuan Xi, Teng Chen, Qingqing Gu, Yue Zhao, Xiaokai Chen, Zhonglin Jiang, Yong Chen, Luo Ji

分类: cs.CL, cs.AI

发布日期: 2024-12-06 (更新: 2025-06-11)

备注: Accepted by IJCNN 2025

💡 一句话要点

提出MuPaS多方对话微调框架，提升LLM在多人对话场景下的生成能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多人对话生成 语言模型微调 多方对话 自然语言处理 对话系统

📋 核心要点

现有LLM主要针对双人对话微调，难以适应多人对话场景，限制了其应用。
MuPaS框架直接在多人对话数据集上微调LLM，使其更好地对齐多人对话风格。
实验证明MuPaS在多人响应生成、发言人预测和语句质量方面均有显著提升。

📝 摘要（中文）

大型语言模型(LLM)通常经过微调以参与二元或双方对话，这使得它们难以适应多人对话(MPD)场景，从而阻碍了它们在多人会议、讨论和日常交流等场景中的应用。以往基于LLM的研究主要集中在多智能体框架上，但其基础LLM仍然是成对微调的。本文设计了一个用于LLM的多人微调框架(MuPaS)，该框架基于多人对话数据集，并证明这种直接的框架可以有效且高效地使LLM与多人对话风格对齐。我们还设计了两种训练策略，可以将MuPaS转换为MPD模拟器。大量实验表明，MuPaS可以实现最先进的多人响应、更高的下一发言人预测准确率、更高的人工和自动评估的语句质量，甚至可以生成具有超出分布的场景、主题和角色描述的合理内容。MuPaS框架将LLM训练与更复杂的多人应用（如对话生成、虚拟排练或元宇宙）连接起来。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）主要针对双人对话进行微调，这导致它们在处理多人对话（MPD）时表现不佳。多人对话具有更复杂的交互模式和上下文依赖关系，简单地将双人对话模型应用于多人场景会产生不自然的响应、错误的发言人预测以及整体较低的对话质量。因此，如何使LLM更好地适应多人对话环境是一个重要的研究问题。

核心思路：本文的核心思路是直接在多人对话数据集上对LLM进行微调。作者认为，通过这种方式，LLM可以直接学习到多人对话的风格和模式，从而更好地理解和生成多人对话。这种方法避免了以往研究中常用的多智能体框架的复杂性，而是采用了一种更直接和有效的方式来解决问题。

技术框架：MuPaS框架的核心是一个基于Transformer的LLM，该LLM在多人对话数据集上进行微调。框架的输入是多人对话的历史记录，输出是下一个发言人的响应。为了更好地模拟多人对话环境，作者还设计了两种训练策略，可以将MuPaS转换为MPD模拟器。具体来说，第一种策略是随机选择对话历史中的一部分作为输入，模拟对话的不完整性；第二种策略是随机改变对话中发言人的顺序，模拟不同的对话场景。

关键创新：MuPaS框架的关键创新在于其直接在多人对话数据集上微调LLM的方法。与以往研究中常用的多智能体框架相比，MuPaS更加简单和有效。此外，作者设计的两种训练策略也能够有效地提高LLM在多人对话场景下的泛化能力。

关键设计：MuPaS框架的关键设计包括：1) 使用预训练的LLM作为基础模型，例如BERT或GPT系列模型；2) 构建大规模的多人对话数据集，用于微调LLM；3) 设计合适的损失函数，例如交叉熵损失函数，用于优化LLM的生成能力；4) 采用合适的训练策略，例如上述的两种MPD模拟器策略，以提高LLM的泛化能力。具体的参数设置和网络结构取决于所使用的LLM。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MuPaS框架在多人响应生成、下一发言人预测和语句质量方面均优于现有方法。具体而言，MuPaS在自动评估指标（如BLEU、ROUGE）和人工评估指标（如流畅度、相关性）上均取得了显著提升。此外，MuPaS还能够生成具有超出分布的场景、主题和角色描述的合理内容，表明其具有较强的泛化能力。

🎯 应用场景

该研究成果可广泛应用于多人会议记录生成、虚拟排练系统、元宇宙社交互动等领域。通过提升LLM在多人对话场景下的表现，可以实现更自然、流畅的人机交互，提高沟通效率，并为虚拟环境中的社交互动提供更真实的用户体验。未来，该技术有望进一步扩展到教育、医疗等领域，例如用于模拟课堂讨论或医生会诊等场景。

📄 摘要（原文）

Large Language Models (LLM) are usually fine-tuned to participate in dyadic or two-party dialogues, which can not adapt well to multi-party dialogues (MPD), which hinders their applications in such scenarios including multi-personal meetings, discussions and daily communication. Previous LLM-based researches mainly focus on the multi-agent framework, while their base LLMs are still pairwisely fine-tuned. In this work, we design a multi-party fine-tuning framework (MuPaS) for LLMs on the multi-party dialogue datasets, and prove such a straightforward framework can let the LLM align with the multi-party conversation style efficiently and effectively. We also design two training strategies which can convert MuPaS into the MPD simulator. Substantial experiments show that MuPaS can achieve state-of-the-art multi-party response, higher accuracy of the-next-speaker prediction, higher human and automatic evaluated utterance qualities, and can even generate reasonably with out-of-distribution scene, topic and role descriptions. The MuPaS framework bridges the LLM training with more complicated multi-party applications, such as conversation generation, virtual rehearsal or meta-universe.

Multi-Party Supervised Fine-tuning of Language Models for Multi-Party Dialogue Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理