Discrete Adjoint Matching
作者: Oswin So, Brian Karrer, Chuchu Fan, Ricky T. Q. Chen, Guan-Horng Liu
分类: stat.ML, cs.LG
发布日期: 2026-02-06 (更新: 2026-02-14)
备注: ICLR 2026
💡 一句话要点
提出离散伴随匹配(DAM)算法,用于微调基于连续时间马尔可夫链的离散生成模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 离散生成模型 伴随匹配 连续时间马尔可夫链 模型微调 奖励优化
📋 核心要点
- 现有基于伴随匹配(AM)的方法在连续状态空间表现良好,但难以直接应用于离散生成模型,因为离散状态空间不可微。
- 论文提出离散伴随匹配(DAM),通过引入离散伴随的概念,将AM扩展到离散状态空间,从而解决离散生成模型的微调问题。
- 实验结果表明,DAM在合成数据和数学推理任务上表现出良好的性能,验证了其在离散生成模型微调方面的有效性。
📝 摘要(中文)
熵正则化奖励优化问题广泛应用于生成模型的微调。伴随匹配(AM)在连续状态空间和可微奖励函数下表现出色。然而,由于离散生成模型状态空间的不可微性,将其应用于离散生成模型仍然具有挑战性。本文提出了离散伴随匹配(DAM),一种用于微调基于连续时间马尔可夫链的离散生成模型的AM变体,例如基于扩散的大语言模型。DAM的核心是引入离散伴随——一种在离散域上对原问题最优解的估计。与AM的控制理论视角不同,DAM从纯统计的角度推导而来,为基于伴随的估计器提供了新的算法机会。实验表明,DAM在合成和数学推理任务上有效。
🔬 方法详解
问题定义:论文旨在解决离散生成模型的微调问题,特别是那些基于连续时间马尔可夫链的模型,如扩散模型。现有方法,如直接应用连续状态空间的伴随匹配(AM),由于离散状态空间的不可微性而失效。这限制了AM在大型语言模型等离散生成模型上的应用。
核心思路:论文的核心思路是引入“离散伴随”的概念。离散伴随是对原始优化问题最优解的离散域估计。通过这种方式,可以将连续伴随匹配的思想迁移到离散空间。DAM从纯统计的角度推导离散伴随,而非像传统AM那样从控制理论出发,从而为算法设计提供了更大的灵活性。
技术框架:DAM的整体框架包括以下几个主要步骤:1) 定义基于连续时间马尔可夫链的离散生成模型;2) 基于统计推导,构建离散伴随估计器;3) 利用离散伴随,建立匹配框架,优化生成模型。该框架避免了直接在不可微的离散空间进行梯度计算。
关键创新:DAM的关键创新在于提出了离散伴随的概念,并从统计角度推导了其估计方法。这与传统AM的控制理论视角形成对比,为伴随方法的扩展提供了新的思路。此外,DAM将伴随匹配方法成功应用于离散生成模型,填补了该领域的空白。
关键设计:DAM的关键设计包括:1) 针对特定离散生成模型(如基于扩散的语言模型)设计合适的连续时间马尔可夫链;2) 基于统计方法,推导离散伴随的无偏估计;3) 设计合适的匹配损失函数,以优化生成模型,使其输出更符合目标奖励。
📊 实验亮点
实验结果表明,DAM在合成数据和数学推理任务上均取得了显著的性能提升。具体来说,DAM能够有效地优化离散生成模型,使其在特定任务上的表现优于其他基线方法。这些结果验证了DAM在离散生成模型微调方面的有效性和潜力。
🎯 应用场景
DAM可应用于各种离散生成模型的微调,例如大型语言模型、文本生成模型和离散图像生成模型。该方法能够提升生成模型在特定任务上的性能,例如提高文本生成的流畅性和相关性,或改善图像生成的质量。DAM在自然语言处理、计算机视觉等领域具有广泛的应用前景。
📄 摘要(原文)
Computation methods for solving entropy-regularized reward optimization -- a class of problems widely used for fine-tuning generative models -- have advanced rapidly. Among those, Adjoint Matching (AM, Domingo-Enrich et al., 2025) has proven highly effective in continuous state spaces with differentiable rewards. Transferring these practical successes to discrete generative modeling, however, remains particularly challenging and largely unexplored, mainly due to the drastic shift in generative model classes to discrete state spaces, which are nowhere differentiable. In this work, we propose Discrete Adjoint Matching (DAM) -- a discrete variant of AM for fine-tuning discrete generative models characterized by Continuous-Time Markov Chains, such as diffusion-based large language models. The core of DAM is the introduction of discrete adjoint-an estimator of the optimal solution to the original problem but formulated on discrete domains-from which standard matching frameworks can be applied. This is derived via a purely statistical standpoint, in contrast to the control-theoretic viewpoint in AM, thereby opening up new algorithmic opportunities for general adjoint-based estimators. We showcase DAM's effectiveness on synthetic and mathematical reasoning tasks.