Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models
作者: Jiaming Li, Lei Zhang, Yunshui Li, Ziqiang Liu, yuelin bai, Run Luo, Longze Chen, Min Yang
分类: cs.CL
发布日期: 2024-09-27 (更新: 2024-10-01)
🔗 代码/项目: GITHUB
💡 一句话要点
Ruler:一种模型无关的方法,用于控制大型语言模型的生成长度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 长度控制 指令遵循 元长度令牌 模型无关
📋 核心要点
- 大型语言模型难以准确控制生成文本的长度,无法满足用户对特定长度回复的需求。
- Ruler方法通过引入元长度令牌(MLT),使模型能够理解并遵循长度约束指令。
- 实验表明,Ruler在不同LLM上显著提升了生成文本长度的控制精度,并在未明确指定长度时表现出良好的泛化能力。
📝 摘要(中文)
大型语言模型的指令遵循能力使人能够以自然的方式与AI代理交互。然而,当需要生成特定长度的回复时,由于大型语言模型在准确感知数值约束方面存在固有的困难,它们通常难以满足用户的需求。为了探索大型语言模型控制生成回复长度的能力,我们提出了目标长度生成任务(TLG),并设计了两个指标,精确匹配(PM)和灵活匹配(FM),以评估模型在遵守指定回复长度方面的性能。此外,我们引入了一种新颖的、模型无关的方法,称为Ruler,它采用元长度令牌(MLT)来增强大型语言模型在长度约束指令下的指令遵循能力。具体来说,Ruler使LLM能够根据指令中的长度约束生成指定长度的回复。此外,Ruler可以在没有明确提供长度约束时自动生成适当的MLT,表现出出色的通用性和泛化能力。综合实验表明,Ruler在目标长度生成任务中对不同的LLM有效,例如,在所有级别上,PM平均增益为27.97,FM平均增益为29.57。此外,我们进行了广泛的消融实验,以进一步证实Ruler的有效性和泛化能力。我们的代码和数据可在https://github.com/Geaming2002/Ruler获得。
🔬 方法详解
问题定义:大型语言模型在生成文本时,难以精确控制生成文本的长度,无法很好地满足用户对特定长度回复的需求。现有的方法通常依赖于启发式截断或重复生成,效果不佳,且缺乏通用性。
核心思路:Ruler的核心思路是引入元长度令牌(Meta Length Tokens, MLTs),将长度约束显式地编码到输入序列中,从而使模型能够更好地理解和遵循长度约束。通过训练,模型学会根据MLT生成相应长度的文本。当没有明确的长度约束时,Ruler可以自动生成合适的MLT,以保证生成文本的合理长度。
技术框架:Ruler方法主要包含以下几个阶段:1) 输入序列构建:将指令和长度约束(如果存在)组合成输入序列,长度约束被转换为MLT。2) 模型推理:使用大型语言模型对输入序列进行推理,生成文本。3) 输出序列处理:根据生成的MLT,对输出序列进行调整,例如,截断或补全,以满足长度约束。
关键创新:Ruler最重要的技术创新在于引入了元长度令牌(MLTs),这是一种显式地表示长度约束的方式,使得模型能够更好地理解和遵循长度约束。与现有方法相比,Ruler是一种模型无关的方法,可以应用于不同的LLM,并且具有更好的通用性和泛化能力。
关键设计:Ruler的关键设计包括:1) MLT的表示方式:MLT可以是离散的或连续的,论文中使用了离散的MLT,每个MLT对应一个特定的长度范围。2) 训练数据的构建:论文构建了一个包含长度约束的指令数据集,用于训练模型。3) 损失函数的设计:论文使用了标准的语言模型损失函数,并增加了一个辅助损失函数,用于鼓励模型生成与MLT对应的长度的文本。
🖼️ 关键图片
📊 实验亮点
Ruler在目标长度生成任务(TLG)上取得了显著的性能提升。在不同的LLM上,Ruler的精确匹配(PM)指标平均提升了27.97,灵活匹配(FM)指标平均提升了29.57。消融实验进一步验证了Ruler的有效性和泛化能力,表明MLT的设计和自动MLT生成机制是Ruler成功的关键。
🎯 应用场景
Ruler方法可以应用于各种需要控制生成文本长度的场景,例如,自动摘要、机器翻译、对话生成等。它可以提高生成文本的质量和用户满意度,并为LLM在实际应用中提供更强的可控性。未来,该方法可以进一步扩展到控制生成文本的其他属性,例如,情感、风格等。
📄 摘要(原文)
The instruction-following ability of large language models enables humans to interact with AI agents in a natural way. However, when required to generate responses of a specific length, large language models often struggle to meet users' needs due to their inherent difficulty in accurately perceiving numerical constraints. To explore the ability of large language models to control the length of generated responses, we propose the Target Length Generation Task (TLG) and design two metrics, Precise Match (PM) and Flexible Match (FM) to evaluate the model's performance in adhering to specified response lengths. Furthermore, we introduce a novel, model-agnostic approach called Ruler, which employs Meta Length Tokens (MLTs) to enhance the instruction-following ability of large language models under length-constrained instructions. Specifically, Ruler equips LLMs with the ability to generate responses of a specified length based on length constraints within the instructions. Moreover, Ruler can automatically generate appropriate MLT when length constraints are not explicitly provided, demonstrating excellent versatility and generalization. Comprehensive experiments show the effectiveness of Ruler across different LLMs on Target Length Generation Task, e.g., at All Level 27.97 average gain on PM, 29.57 average gain on FM. In addition, we conduct extensive ablation experiments to further substantiate the efficacy and generalization of Ruler. Our code and data is available at https://github.com/Geaming2002/Ruler.