Prompt-Based Length Controlled Generation with Multiple Control Types
作者: Renlong Jie, Xiaojun Meng, Lifeng Shang, Xin Jiang, Qun Liu
分类: cs.CL, cs.AI
发布日期: 2024-06-12
备注: Accepted by ACL 2024 findings. arXiv admin note: text overlap with arXiv:2308.12030
💡 一句话要点
提出一种基于Prompt的长度可控生成方法,解决GPT模型在多种控制类型下的长度控制问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长度可控生成 Prompt工程 强化学习 GPT模型 自然语言生成
📋 核心要点
- 现有长度控制方法主要集中于“等于”目标长度的简单控制,无法满足用户对多种长度控制类型的需求。
- 提出一种基于Prompt的长度控制方法,利用强化学习和样本过滤,结合规则奖励模型,提升模型对不同控制指令的遵循能力。
- 实验结果表明,该方法在摘要数据集上显著提高了多种控制类型下的长度控制准确性,并具有良好的泛化能力。
📝 摘要(中文)
大型语言模型(LLMs)在各种自然语言处理任务中表现出色,备受关注。在实践中,用户通常期望生成的文本长度在特定范围内,这使得长度可控生成成为一个重要的课题,特别是对于GPT风格的模型。现有的长度控制方法大多侧重于“等于”目标长度这种简单的控制类型。与它们不同,我们提出了一种基于prompt的方法,以高精度实现不同控制类型下的长度可控生成。具体来说,我们采用强化学习(RL)和样本过滤,并使用基于规则的奖励模型提供的奖励信号,通过奖励符合特定控制指令的输出来增强模型的长度控制能力。此外,我们引入了一个标准prompt提取器,将任意用户的输入解析为标准控制指令。实验表明,我们的方法显著提高了基于prompt的长度控制在CNNDM和NYT等流行的摘要数据集上多种控制类型下的准确性。此外,标准prompt提取器和RL调优模型都表现出对未见过的控制prompt模板的强大泛化能力。
🔬 方法详解
问题定义:现有长度控制方法主要关注于生成长度精确等于目标长度的文本,缺乏对其他控制类型(如“小于”、“大于”某个长度范围)的支持。此外,用户输入的prompt形式多样,如何将其转化为模型可理解的标准控制指令也是一个挑战。
核心思路:该论文的核心思路是利用Prompt工程,将长度控制目标转化为模型可以理解的指令。通过强化学习,模型可以学习到如何根据不同的控制指令生成符合长度要求的文本。同时,引入标准Prompt提取器,将用户输入的各种Prompt转化为统一的标准格式。
技术框架:整体框架包含三个主要模块:1) 标准Prompt提取器:负责将用户输入的Prompt转化为标准控制指令;2) 基于GPT的模型:作为生成器,根据Prompt生成文本;3) 强化学习模块:使用规则奖励模型作为奖励信号,通过强化学习优化生成器,使其更好地遵循长度控制指令。在训练过程中,使用样本过滤技术,只保留符合控制指令的样本,进一步提高训练效率。
关键创新:该方法的主要创新在于:1) 提出了基于Prompt的长度控制方法,可以支持多种控制类型;2) 引入了标准Prompt提取器,解决了用户输入Prompt形式多样的问题;3) 使用强化学习和样本过滤,有效地提高了长度控制的准确性。
关键设计:规则奖励模型根据生成的文本长度与目标长度的偏差,给出奖励信号。强化学习采用策略梯度算法,优化生成器的参数,使其生成更符合长度要求的文本。样本过滤根据生成的文本长度是否符合控制指令,决定是否保留该样本用于训练。标准Prompt提取器使用预定义的模板和规则,将用户输入的Prompt转化为标准控制指令。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在CNNDM和NYT等摘要数据集上显著提高了长度控制的准确性。与现有方法相比,该方法在多种控制类型下均取得了更好的性能。此外,标准Prompt提取器和RL调优模型都表现出对未见过的控制Prompt模板的强大泛化能力,表明该方法具有良好的鲁棒性和可扩展性。
🎯 应用场景
该研究成果可应用于各种需要长度可控文本生成的场景,例如自动摘要、机器翻译、文本创作等。在实际应用中,用户可以根据需求指定生成的文本长度范围,从而更好地控制生成结果。该方法还可以用于提高对话系统的流畅性和自然度,使其能够生成更符合用户期望的回复。
📄 摘要(原文)
Large language models (LLMs) have attracted great attention given their strong performance on a wide range of NLP tasks. In practice, users often expect generated texts to fall within a specific length range, making length controlled generation an important topic, especially for GPT-style models. Existing length control methods mostly focus on a simple control type of "equal to" a target length. Different from them, we propose a prompt-based method to achieve length controlled generation under different control types with high accuracy. In particular, we adopt reinforcement learning (RL) and sample filtering with the reward signal given by rule-based reward models, which enhances the length control ability of models by rewarding outputs that follow certain control instructions. In addition, we introduce a standard prompt extractor to parse arbitrary users' input into standard control instructions. Experiments show that our method significantly improves the accuracy of prompt-based length control on popular summarization datasets like CNNDM and NYT under multiple control types. Moreover, both the standard prompt extractor and RL-tuned model show strong generalization to unseen control prompt templates.