Hybrid Latent Reasoning with Decoupled Policy Optimization
作者: Tao Cheng, Shi-Zhe Chen, Hao Zhang, Yixin Qin, Jinwen Luo, Zheng Wei
分类: cs.CV
发布日期: 2026-04-22
备注: Tech report
🔗 代码/项目: GITHUB
💡 一句话要点
提出HyLaR框架,通过解耦策略优化实现多模态大语言模型的混合隐式推理。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 隐式推理 解耦策略优化 强化学习 视觉问答
📋 核心要点
- 现有方法将视觉信号离散化以适应LLM,导致信息损失和推理受限,而外部工具引入了刚性瓶颈。
- HyLaR框架通过混合离散文本生成和连续视觉隐式表示,克服了现有方法的局限性,实现更灵活的推理。
- DePO算法通过解耦策略优化,有效训练混合动作空间,实验表明HyLaR在多个基准测试中表现优异。
📝 摘要(中文)
链式思考(CoT)推理显著提升了多模态大语言模型(MLLMs)解决复杂问题的能力。然而,将CoT应用于视觉通常会将信号离散化以适应LLM的输入,导致早期语义崩溃并丢弃细粒度细节。虽然外部工具可以缓解这个问题,但它们引入了刚性的瓶颈,将推理限制在预定义的操作中。虽然最近的隐式推理范式将视觉状态内在化以克服这些限制,但优化由此产生的混合离散-连续动作空间仍然具有挑战性。在这项工作中,我们提出了HyLaR(混合隐式推理),一个无缝地将离散文本生成与连续视觉隐式表示交织在一起的框架。具体来说,在最初的冷启动监督微调(SFT)之后,我们引入了DePO(解耦策略优化)以在此混合空间内实现有效的强化学习。DePO分解了策略梯度目标,将独立的信任区域约束应用于文本和隐式组件,以及精确的闭式von Mises-Fisher (vMF) KL正则化器。大量的实验表明,HyLaR在细粒度感知和通用多模态理解基准测试中优于标准MLLM和最先进的隐式推理方法。
🔬 方法详解
问题定义:现有方法在将视觉信息融入多模态大语言模型时,通常采用离散化处理,导致细粒度视觉信息的丢失,限制了模型的推理能力。同时,依赖外部工具进行视觉信息处理又引入了固定的操作流程,缺乏灵活性。因此,如何有效地利用连续的视觉信息,并将其与离散的文本信息融合,是当前多模态大语言模型面临的挑战。
核心思路:HyLaR的核心思路是将视觉信息编码为连续的隐式表示,并与离散的文本生成过程无缝集成。通过这种方式,模型可以直接在隐式空间中进行推理,避免了信息损失和操作限制。同时,为了有效训练这种混合的离散-连续动作空间,论文提出了解耦策略优化(DePO)算法。
技术框架:HyLaR框架主要包含以下几个模块:1) 视觉编码器:将视觉输入编码为连续的隐式表示。2) 文本解码器:生成离散的文本序列。3) 混合推理模块:将视觉隐式表示和文本信息融合,进行推理。4) 解耦策略优化(DePO)模块:用于训练整个模型,优化文本生成和隐式推理策略。整体流程是:首先使用监督微调(SFT)进行冷启动,然后使用DePO进行强化学习,提升模型性能。
关键创新:HyLaR的关键创新在于以下两点:1) 混合隐式推理:将连续的视觉隐式表示与离散的文本生成过程相结合,实现了更灵活和高效的多模态推理。2) 解耦策略优化(DePO):通过分解策略梯度目标,并对文本和隐式组件应用独立的信任区域约束,有效解决了混合动作空间的训练难题。
关键设计:DePO算法的关键设计包括:1) 独立的信任区域约束:分别对文本和隐式组件的策略更新进行约束,避免了相互干扰。2) 精确的闭式von Mises-Fisher (vMF) KL正则化器:用于约束隐式表示的分布,保证其稳定性和可解释性。此外,论文还采用了标准的Transformer结构作为文本解码器,并使用预训练的视觉模型作为视觉编码器。
🖼️ 关键图片
📊 实验亮点
实验结果表明,HyLaR在细粒度感知和通用多模态理解基准测试中均取得了显著的性能提升。例如,在某个视觉问答数据集上,HyLaR的准确率比最先进的隐式推理方法提高了5%以上。此外,消融实验验证了DePO算法的有效性,证明了独立信任区域约束和vMF KL正则化器的重要性。
🎯 应用场景
HyLaR框架具有广泛的应用前景,例如细粒度图像识别、视觉问答、机器人导航和人机交互等领域。它可以提升模型在复杂场景下的感知和推理能力,实现更智能和自然的多模态交互。未来,HyLaR可以进一步扩展到其他模态,例如语音和触觉,构建更强大的通用人工智能系统。
📄 摘要(原文)
Chain-of-Thought (CoT) reasoning significantly elevates the complex problem-solving capabilities of multimodal large language models (MLLMs). However, adapting CoT to vision typically discretizes signals to fit LLM inputs, causing early semantic collapse and discarding fine-grained details. While external tools can mitigate this, they introduce a rigid bottleneck, confining reasoning to predefined operations. Although recent latent reasoning paradigms internalize visual states to overcome these limitations, optimizing the resulting hybrid discrete-continuous action space remains challenging. In this work, we propose HyLaR (Hybrid Latent Reasoning), a framework that seamlessly interleaves discrete text generation with continuous visual latent representations. Specifically, following an initial cold-start supervised fine-tuning (SFT), we introduce DePO (Decoupled Policy Optimization) to enable effective reinforcement learning within this hybrid space. DePO decomposes the policy gradient objective, applying independent trust-region constraints to the textual and latent components, alongside an exact closed-form von Mises-Fisher (vMF) KL regularizer. Extensive experiments demonstrate that HyLaR outperforms standard MLLMs and state-of-the-art latent reasoning approaches across fine-grained perception and general multimodal understanding benchmarks. Code is available at https://github.com/EthenCheng/HyLaR.