LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models

📄 arXiv: 2602.14147v1 📥 PDF

作者: Shufan Li, Yuchen Zhu, Jiuxiang Gu, Kangning Liu, Zhe Lin, Yongxin Chen, Molei Tao, Aditya Grover, Jason Kuen

分类: cs.CV

发布日期: 2026-02-15

备注: 28 pages, 11 figures


💡 一句话要点

提出LaViDa-R1:一种用于统一多模态扩散语言模型的推理方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 扩散语言模型 推理 强化学习 监督微调 视觉数学推理 图像编辑

📋 核心要点

  1. 现有推理扩散语言模型依赖于任务特定的强化学习,泛化能力受限,难以统一处理多种多模态任务。
  2. LaViDa-R1采用统一的后训练框架,结合监督微调和多任务强化学习,提升模型在多模态理解和生成任务上的推理能力。
  3. 实验结果表明,LaViDa-R1在视觉数学推理、密集型推理定位和图像编辑等任务上表现出色,验证了其有效性。

📝 摘要(中文)

本文提出LaViDa-R1,一种多模态、通用推理扩散语言模型(dLLM)。与现有通过特定任务强化学习构建推理dLLM的方法不同,LaViDa-R1以统一的方式整合了多种多模态理解和生成任务。LaViDa-R1基于一种新颖的统一后训练框架构建,该框架无缝集成了监督微调(SFT)和多任务强化学习(RL)。它采用了包括答案强制、树搜索和互补似然估计等多种新颖的训练技术,以提高有效性和可扩展性。大量实验表明,LaViDa-R1在包括视觉数学推理、密集型推理定位和图像编辑在内的各种多模态任务上表现出强大的性能。

🔬 方法详解

问题定义:现有方法通常针对特定任务进行强化学习,导致模型泛化能力不足,难以统一处理多种多模态任务。此外,如何有效地结合监督学习和强化学习,提升扩散语言模型在复杂推理任务上的性能,也是一个挑战。

核心思路:LaViDa-R1的核心思路是构建一个统一的后训练框架,该框架能够无缝集成监督微调(SFT)和多任务强化学习(RL)。通过SFT,模型可以学习到通用的多模态理解和生成能力;通过多任务RL,模型可以针对特定任务进行优化,从而提升推理能力。这种结合的方式能够充分利用两种学习方法的优势,提高模型的整体性能。

技术框架:LaViDa-R1的整体框架包括预训练的扩散语言模型、监督微调阶段和多任务强化学习阶段。首先,使用大规模多模态数据预训练一个扩散语言模型。然后,使用监督微调(SFT)对模型进行微调,使其能够更好地理解和生成多模态数据。最后,使用多任务强化学习(RL)对模型进行优化,使其能够在各种推理任务上表现出色。

关键创新:LaViDa-R1的关键创新在于其统一的后训练框架,该框架能够无缝集成监督微调(SFT)和多任务强化学习(RL)。此外,LaViDa-R1还采用了多种新颖的训练技术,包括答案强制、树搜索和互补似然估计,以提高有效性和可扩展性。与现有方法相比,LaViDa-R1能够更有效地利用数据,并取得更好的性能。

关键设计:LaViDa-R1的关键设计包括:1) 统一的后训练框架,能够无缝集成SFT和RL;2) 答案强制技术,通过在训练过程中强制模型生成正确的答案,提高模型的准确性;3) 树搜索技术,通过搜索可能的答案空间,提高模型的推理能力;4) 互补似然估计技术,通过估计互补事件的概率,提高模型的鲁棒性。这些技术细节共同作用,使得LaViDa-R1能够在各种多模态任务上表现出色。

📊 实验亮点

LaViDa-R1在多个多模态任务上取得了显著的性能提升。例如,在视觉数学推理任务上,LaViDa-R1的准确率超过了现有最佳模型。在密集型推理定位任务上,LaViDa-R1能够更准确地定位目标对象。在图像编辑任务上,LaViDa-R1能够生成更逼真的图像。这些实验结果表明,LaViDa-R1是一种有效的多模态推理模型。

🎯 应用场景

LaViDa-R1具有广泛的应用前景,例如可以应用于视觉数学推理、密集型推理定位、图像编辑等领域。该研究的实际价值在于提供了一种通用的多模态推理框架,可以促进人工智能在各个领域的应用。未来,LaViDa-R1可以进一步扩展到更多的多模态任务,并与其他技术相结合,例如知识图谱、符号推理等,从而实现更强大的推理能力。

📄 摘要(原文)

Diffusion language models (dLLMs) recently emerged as a promising alternative to auto-regressive LLMs. The latest works further extended it to multimodal understanding and generation tasks. In this work, we propose LaViDa-R1, a multimodal, general-purpose reasoning dLLM. Unlike existing works that build reasoning dLLMs through task-specific reinforcement learning, LaViDa-R1 incorporates diverse multimodal understanding and generation tasks in a unified manner. In particular, LaViDa-R1 is built with a novel unified post-training framework that seamlessly integrates supervised finetuning (SFT) and multi-task reinforcement learning (RL). It employs several novel training techniques, including answer-forcing, tree search, and complementary likelihood estimation, to enhance effectiveness and scalability. Extensive experiments demonstrate LaViDa-R1's strong performance on a wide range of multimodal tasks, including visual math reasoning, reason-intensive grounding, and image editing.