Insertion Language Models: Sequence Generation with Arbitrary-Position Insertions
作者: Dhruvesh Patel, Aishwarya Sahoo, Avinash Amballa, Tahira Naseem, Tim G. J. Rudner, Andrew McCallum
分类: cs.CL, cs.LG
发布日期: 2025-05-09 (更新: 2025-09-03)
备注: Additional related work. Code available at: https://dhruveshp.com/projects/ilm
💡 一句话要点
提出插入语言模型(ILM),通过任意位置插入生成序列,提升规划任务性能。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 插入语言模型 序列生成 任意位置插入 规划任务 文本填充
📋 核心要点
- 自回归模型在处理复杂约束或乱序依赖的序列生成时存在局限性。
- 提出插入语言模型(ILM),通过学习在任意位置插入token来解决上述问题。
- 实验表明,ILM在规划任务上优于自回归模型和掩码扩散模型,并在文本生成和填充任务上表现出色。
📝 摘要(中文)
自回归模型(ARMs)在序列生成任务中取得了显著成功,但难以准确表示需要满足复杂约束或通过乱序生成更好地处理序列依赖关系的序列。掩码扩散模型(MDMs)在一定程度上解决了这些限制,但MDMs中同时解掩多个token的过程可能引入不连贯性,并且当要填充的token数量未知时,MDMs无法处理任意填充约束。本文提出了插入语言模型(ILMs),该模型学习在序列中的任意位置插入token——即,联合选择要插入的位置和词汇元素。通过一次插入一个token,ILMs可以表示token之间的强依赖关系,并且它们以任意顺序生成序列的能力使它们能够准确地建模token依赖关系不遵循从左到右顺序结构的序列。为了训练ILMs,我们提出了一种定制的网络参数化,并使用了一个简单的去噪目标。我们的实验评估表明,ILMs在常见的规划任务上优于ARMs和MDMs。此外,我们表明ILMs优于MDMs,并且在无条件文本生成任务中与ARMs表现相当,同时在任意长度的文本填充方面比MDMs提供更大的灵活性。
🔬 方法详解
问题定义:现有自回归模型(ARMs)在处理需要满足复杂约束或序列依赖关系不遵循从左到右顺序的序列生成任务时表现不佳。掩码扩散模型(MDMs)虽然可以解决部分问题,但在处理任意长度的文本填充时存在局限性,并且同时解掩多个token可能导致不连贯性。因此,需要一种更灵活、更准确的序列生成方法。
核心思路:ILM的核心思路是通过学习在序列的任意位置插入token来生成序列。与自回归模型从左到右逐个生成token不同,ILM可以根据序列的上下文信息,选择最合适的插入位置和token,从而更好地建模序列的依赖关系。这种任意顺序的生成方式使得ILM能够更灵活地处理复杂的序列生成任务。
技术框架:ILM的整体框架包括一个编码器和一个解码器。编码器负责将输入序列编码成一个向量表示,解码器则根据这个向量表示,逐步生成新的序列。解码器通过一个位置预测模块和一个token预测模块来共同决定插入的位置和token。位置预测模块预测下一个token应该插入的位置,token预测模块则预测应该插入的token。这两个模块是联合训练的,以保证生成序列的连贯性和准确性。
关键创新:ILM最重要的创新点在于其任意位置插入的生成方式。与传统的自回归模型和掩码扩散模型不同,ILM可以根据序列的上下文信息,灵活地选择插入位置和token。这种生成方式使得ILM能够更好地建模序列的依赖关系,从而在复杂的序列生成任务中取得更好的效果。
关键设计:ILM的关键设计包括定制的网络参数化和一个简单的去噪目标。网络参数化方面,论文设计了一种特殊的位置编码方式,使得模型能够更好地理解序列中token的位置信息。在训练方面,论文采用了一个简单的去噪目标,即通过随机mask序列中的一些token,然后让模型预测这些被mask的token,从而提高模型的鲁棒性和泛化能力。损失函数是位置预测和token预测的交叉熵损失的加权和。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ILM在常见的规划任务上优于自回归模型(ARMs)和掩码扩散模型(MDMs)。在无条件文本生成任务中,ILM与ARMs表现相当,同时在任意长度的文本填充方面比MDMs提供更大的灵活性。这些结果证明了ILM在序列生成任务中的有效性和优越性。
🎯 应用场景
ILM具有广泛的应用前景,例如在自然语言处理领域的文本生成、机器翻译、代码生成,以及在机器人领域的运动规划、路径规划等。其任意位置插入的特性使其能够更好地处理需要满足复杂约束或乱序依赖的序列生成任务,具有很高的实际应用价值。
📄 摘要(原文)
Autoregressive models (ARMs), which predict subsequent tokens one-by-one ``from left to right,'' have achieved significant success across a wide range of sequence generation tasks. However, they struggle to accurately represent sequences that require satisfying sophisticated constraints or whose sequential dependencies are better addressed by out-of-order generation. Masked Diffusion Models (MDMs) address some of these limitations, but the process of unmasking multiple tokens simultaneously in MDMs can introduce incoherences, and MDMs cannot handle arbitrary infilling constraints when the number of tokens to be filled in is not known in advance. In this work, we introduce Insertion Language Models (ILMs), which learn to insert tokens at arbitrary positions in a sequence -- that is, they select jointly both the position and the vocabulary element to be inserted. By inserting tokens one at a time, ILMs can represent strong dependencies between tokens, and their ability to generate sequences in arbitrary order allows them to accurately model sequences where token dependencies do not follow a left-to-right sequential structure. To train ILMs, we propose a tailored network parameterization and use a simple denoising objective. Our empirical evaluation demonstrates that ILMs outperform both ARMs and MDMs on common planning tasks. Furthermore, we show that ILMs outperform MDMs and perform on par with ARMs in an unconditional text generation task while offering greater flexibility than MDMs in arbitrary-length text infilling. The code is available at: https://dhruveshp.com/projects/ilm .