Beyond Chain-of-Thought: Rewrite as a Universal Interface for Generative Multimodal Embeddings

📄 arXiv: 2604.22280v1 📥 PDF

作者: Peixi Wu, Ke Mei, Feipeng Ma, Bosong Chai, Zhibin Lan, Chenxi Zhao, Shannan Yan, Jie Chen, Zhangchi Hu, Yansong Peng, Bo Lin, Junjie Zhou, Dacheng Yin, Tianyi Wang, Fengyun Rao, Jing Lyu, Hebei Li, Xiaoyan Sun

分类: cs.CV

发布日期: 2026-04-24


💡 一句话要点

提出RIME框架,通过重写驱动的多模态嵌入,提升生成式多模态嵌入的检索性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态嵌入 生成式模型 重写驱动 跨模态对齐 强化学习 信息检索 大型语言模型

📋 核心要点

  1. 现有CoT方法在生成多模态嵌入时存在冗余步骤和语义模糊,影响检索效果。
  2. RIME框架通过检索友好的重写,联合优化生成和嵌入,减少冗余并提升语义清晰度。
  3. 引入CMA桥接生成式和判别式嵌入空间,并使用Refine-RL优化重写过程,提升性能。

📝 摘要(中文)

多模态大型语言模型(MLLM)已成为通用多模态嵌入的有希望的基础。最近的研究表明,推理驱动的生成式多模态嵌入在一些嵌入任务上优于判别式嵌入。然而,思维链(CoT)推理倾向于生成冗余的思考步骤,并在更广泛的检索场景中引入总结答案中的语义模糊性。为了解决这个限制,我们提出了重写驱动的多模态嵌入(RIME),一个统一的框架,通过检索友好的重写共同优化生成和嵌入。同时,我们提出了跨模态对齐(CMA)来桥接生成式和判别式嵌入空间,实现灵活的相互检索,以权衡效率和准确性。在此基础上,我们还引入了精炼强化学习(Refine-RL),将判别式嵌入视为稳定的语义锚点来指导重写优化。在MMEB-V2、MRMR和UVRB上的大量实验表明,RIME显著优于先前的生成式嵌入模型,同时显著减少了思考的长度。

🔬 方法详解

问题定义:现有基于Chain-of-Thought (CoT) 的生成式多模态嵌入方法,在生成用于检索的嵌入表示时,会产生冗余的思考步骤,并且在总结答案时引入语义模糊性,导致检索性能下降。尤其是在大规模检索场景下,这些问题会更加突出。

核心思路:论文的核心思路是通过“重写”(Rewrite)来替代CoT,作为生成式多模态嵌入的通用接口。通过优化重写过程,可以生成更简洁、更具检索友好性的文本描述,从而提升嵌入表示的质量和检索性能。同时,利用判别式嵌入的优势,辅助生成式嵌入的训练。

技术框架:RIME (Rewrite-driven Multimodal Embedding) 框架包含以下几个主要组成部分:1) 重写模块:负责将输入的多模态数据(例如图像和文本)重写为更适合检索的文本描述。2) 跨模态对齐 (CMA) 模块:用于桥接生成式嵌入空间和判别式嵌入空间,实现两种嵌入方式的相互检索。3) 精炼强化学习 (Refine-RL) 模块:利用判别式嵌入作为语义锚点,通过强化学习的方式优化重写模块的生成策略。整体流程是,首先使用重写模块生成文本描述,然后通过CMA进行跨模态对齐,最后使用Refine-RL优化重写模块。

关键创新:论文的关键创新在于提出了“重写”作为生成式多模态嵌入的通用接口,替代了传统的CoT方法。这种方法能够生成更简洁、更具检索友好性的文本描述,从而提升嵌入表示的质量。此外,引入CMA和Refine-RL,进一步提升了模型的性能。与CoT相比,RIME更注重生成文本的检索友好性,避免了冗余信息和语义模糊。

关键设计:CMA模块通过对比学习的方式,将生成式嵌入和判别式嵌入对齐。Refine-RL模块使用判别式嵌入作为奖励信号,指导重写模块的训练。具体的奖励函数设计未知。重写模块的具体网络结构未知,但可以推测使用了Transformer等常用的序列生成模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RIME在MMEB-V2、MRMR和UVRB等数据集上显著优于先前的生成式嵌入模型。尤其是在减少思考长度方面,RIME表现出色,这意味着它能够更高效地生成高质量的嵌入表示。具体的性能提升数据未知,但摘要中提到是“substantially outperforms”。

🎯 应用场景

该研究成果可应用于图像检索、视频检索、跨模态信息检索等领域。例如,用户可以通过输入一段文本描述,检索相关的图像或视频。该方法可以提升检索的准确性和效率,具有广泛的应用前景。未来可以进一步探索如何将该方法应用于更复杂的场景,例如多轮对话检索、个性化推荐等。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have emerged as a promising foundation for universal multimodal embeddings. Recent studies have shown that reasoning-driven generative multimodal embeddings can outperform discriminative embeddings on several embedding tasks. However, Chain-of-Thought (CoT) reasoning tends to generate redundant thinking steps and introduce semantic ambiguity in the summarized answers in broader retrieval scenarios. To address this limitation, we propose Rewrite-driven Multimodal Embedding (RIME), a unified framework that jointly optimizes generation and embedding through a retrieval-friendly rewrite. Meanwhile, we present the Cross-Mode Alignment (CMA) to bridge the generative and discriminative embedding spaces, enabling flexible mutual retrieval to trade off efficiency and accuracy. Based on this, we also introduce Refine Reinforcement Learning (Refine-RL) that treats discriminative embeddings as stable semantic anchors to guide the rewrite optimization. Extensive experiments on MMEB-V2, MRMR and UVRB demonstrate that RIME substantially outperforms prior generative embedding models while significantly reducing the length of thinking.