Coupling Models for One-Step Discrete Generation

📄 arXiv: 2605.07193v1 📥 PDF

作者: Fred Zhangzhi Peng, Avishek Joey Bose, Anru R. Zhang, Alexander Tong

分类: cs.LG

发布日期: 2026-05-08

备注: Code is available at https://github.com/pengzhangzhi/Coupling-Models

🔗 代码/项目: GITHUB


💡 一句话要点

提出耦合模型(Coupling Models)以实现离散数据的高效一步生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 离散生成模型 一步生成 潜变量模型 序列建模 生成式AI 高效推理

📋 核心要点

  1. 现有离散生成模型多依赖自回归或迭代细化,导致推理延迟高,难以满足实时生成需求。
  2. 提出耦合模型,通过学习离散序列与高斯潜变量间的直接映射,构建专门的解码器实现一步生成。
  3. 实验证明该方法在文本、生物序列及图像生成任务中性能显著优于现有的一步生成基线。

📝 摘要(中文)

离散结构上的生成建模是深度学习的核心,涵盖生物序列设计、代码生成及大语言模型等领域。然而,目前的生成过程通常依赖于自回归解码或迭代细化,效率受限。本文提出了耦合模型(Coupling Models),这是一种一步离散生成模型,通过学习离散序列与高斯潜变量之间的直接耦合来实现生成。与近期将预训练多步采样器压缩为少步的蒸馏方法不同,耦合模型训练专门的解码器来反转这种耦合,从而实现单步采样。该方法避免了单纯形上的复杂连续流以及人工指定的数据-噪声耦合。实验表明,耦合模型在LM1B文本生成、果蝇脑增强子设计(FBD)和MNIST-Binary任务中均显著超越了现有的一步生成基线,证明了数据与噪声的耦合方式对一步生成性能具有决定性影响。

🔬 方法详解

问题定义:现有离散生成模型(如扩散模型或自回归模型)在推理时需要多次迭代或逐词生成,计算开销巨大。现有的蒸馏方法虽能减少步数,但往往受限于预训练模型的性能上限,且难以处理离散空间中的复杂分布。

核心思路:论文提出通过学习离散数据与高斯噪声之间的直接耦合关系,将生成过程简化为一步映射。其核心假设是:通过优化数据与噪声的耦合方式,可以训练一个能够直接从高斯潜空间映射到离散空间的解码器,从而摆脱对迭代过程的依赖。

技术框架:该模型由一个编码器(将离散数据映射到高斯潜空间)和一个专门设计的解码器组成。解码器直接学习从高斯潜变量到离散序列的逆映射,无需复杂的连续流或预训练采样器的蒸馏。

关键创新:与依赖蒸馏的方法不同,耦合模型直接优化数据与噪声的耦合,避免了在单纯形上构建复杂的连续流,并消除了对人工预设耦合策略的依赖,实现了更高效的端到端训练。

关键设计:模型通过特定的耦合策略优化目标函数,确保潜空间分布与离散数据分布的对齐。在解码阶段,模型利用学习到的映射关系,通过单次前向传播即可完成从高斯噪声到离散结构的转换,显著提升了推理效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

耦合模型在多项任务中表现优异:在LM1B文本生成任务中,困惑度(Perplexity)降低了33%;在果蝇脑增强子设计(FBD)任务中,性能提升了18%;在MNIST-Binary图像生成任务中,FID指标提升了46%。这些结果证实了该方法在处理不同模态离散数据时,均能有效超越现有的一步生成基线。

🎯 应用场景

该技术在需要高吞吐量和低延迟的生成任务中具有巨大潜力,包括大语言模型的快速推理、蛋白质序列等生物序列的自动化设计、以及实时代码生成。其一步生成的特性将显著降低计算成本,推动生成式AI在边缘设备及大规模生产环境中的部署。

📄 摘要(原文)

Generative modeling over discrete structures underpins applications across deep learning, from biological sequence design and code generation to large language models, yet generation often remains sequential, relying on autoregressive decoding or iterative refinement. In this work, we introduce Coupling Models(Coupling Models), a one-step discrete generative model that learns a direct coupling between discrete sequences and Gaussian latents. Unlike recent distillation methods that compress a pretrained multi-step sampler into a few steps, Coupling Model trains a purpose-built decoder to invert this coupling and generate samples in a single step. The model also avoids complex continuous flows over the simplex and hand-specified data-to-noise couplings. Empirically,Coupling Model improves the strongest one-step baselines in each domain: it reduces LM1B text-generation perplexity by 33% at its lowest-perplexity operating point, Fly Brain enhancer-design FBD by 18%, and MNIST-Binary FID by 46%. These results suggest that effective one-step discrete generation depends strongly on how data and noise are coupled before decoding. Code is available at https://github.com/pengzhangzhi/Coupling-Models.