Decentralized Autoregressive Generation

📄 arXiv: 2601.03184v1 📥 PDF

作者: Stepan Maschan, Haoxuan Qu, Jun Liu

分类: cs.LG, cs.AI

发布日期: 2026-01-06

备注: Work in progress


💡 一句话要点

提出去中心化自回归生成方法,解决多模态语言模型训练中的专家协作问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 去中心化学习 自回归生成 多模态模型 联邦学习 离散流匹配

📋 核心要点

  1. 现有自回归生成模型训练依赖中心化架构,专家协作困难,限制了模型规模和泛化能力。
  2. 论文提出去中心化离散流匹配目标,将生成过程分解为多个专家流的线性组合,实现去中心化训练。
  3. 实验表明,在多模态语言模型上,去中心化训练与中心化训练效果相当,验证了该方法的有效性。

📝 摘要(中文)

本文对自回归生成的去中心化进行了理论分析。我们定义了去中心化离散流匹配目标,通过将概率生成速度表示为专家流的线性组合来实现。我们还进行了实验,证明了在各种基准测试中,对于多模态语言模型,去中心化训练设置与中心化训练设置是等效的。具体来说,我们比较了两种不同的范例:LLaVA和InternVL 2.5-1B,它们使用固定的CLIP视觉编码器,并在指令调整阶段执行全参数微调(ViT+MLP+LLM)。

🔬 方法详解

问题定义:论文旨在解决自回归生成模型在去中心化场景下的训练问题。现有方法通常依赖于中心化的训练架构,这限制了模型扩展到更大规模以及利用多个专家知识的能力。痛点在于如何有效地将多个独立的模型或“专家”的知识融合到一个统一的生成模型中,同时避免中心化训练带来的通信和计算瓶颈。

核心思路:论文的核心思路是将概率生成过程建模为多个专家流的线性组合。每个专家负责生成过程的一部分,最终的生成结果是这些专家贡献的加权和。通过这种方式,可以将训练任务分解到多个独立的节点上进行,从而实现去中心化训练。这样设计的目的是为了提高训练效率、扩展模型规模,并允许模型融合来自不同来源的知识。

技术框架:整体框架包括以下几个主要模块:1) 多个独立的专家模型,每个模型负责学习生成过程的一部分;2) 一个融合模块,负责将各个专家的输出进行线性组合,得到最终的生成结果;3) 一个去中心化离散流匹配目标函数,用于指导专家模型的训练,使其能够有效地协同工作。训练流程包括:首先,独立训练每个专家模型;然后,使用去中心化离散流匹配目标函数对融合模块进行微调,使其能够有效地利用各个专家的知识。

关键创新:论文最重要的技术创新点在于提出了去中心化离散流匹配目标函数。该目标函数允许在没有中心化协调的情况下,对多个独立的专家模型进行训练,并保证最终的生成结果具有良好的质量。与现有方法的本质区别在于,现有方法通常需要一个中心化的服务器来协调各个模型的训练,而该论文提出的方法则完全不需要中心化的协调。

关键设计:关键的设计包括:1) 专家模型的选择:论文使用了LLaVA和InternVL 2.5-1B两种不同的多模态语言模型作为专家模型;2) 融合模块的设计:融合模块使用简单的线性组合来实现,权重可以通过学习得到;3) 损失函数的设计:去中心化离散流匹配目标函数的设计需要保证各个专家模型能够有效地协同工作,并避免出现模式崩塌等问题。具体参数设置和网络结构细节在论文中未详细说明,属于未知信息。

📊 实验亮点

实验结果表明,在多模态语言模型(LLaVA和InternVL 2.5-1B)上,去中心化训练与中心化训练的效果相当。这意味着该方法可以在不损失性能的情况下,实现模型的去中心化训练,从而提高训练效率和扩展性。具体的性能数据和提升幅度在论文中未详细说明,属于未知信息。

🎯 应用场景

该研究成果可应用于联邦学习、边缘计算等场景,允许多个机构或设备在不共享数据的情况下协同训练生成模型。例如,在医疗领域,不同医院可以共同训练一个诊断模型,而无需共享患者的敏感数据。此外,该方法还可以用于构建更大规模、更具泛化能力的生成模型,例如用于生成高质量的图像、文本或音频。

📄 摘要(原文)

We present a theoretical analysis of decentralization of autoregressive generation. We define the Decentralized Discrete Flow Matching objective, by expressing probability generating velocity as a linear combination of expert flows. We also conduct experiments demonstrating the equivalence between decentralized and centralized training settings for multimodal language models across diverse set of benchmarks. Specifically, we compare two distinct paradigms: LLaVA and InternVL 2.5-1B, which uses a fixed CLIP vision encoder and performs full-parameter fine-tuning (ViT+MLP+LLM) during the instruction tuning stage.