CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning
作者: Hao Yu, Zhuokai Zhao, Shen Yan, Lukasz Korycki, Jianyu Wang, Baosheng He, Jiayi Liu, Lizhu Zhang, Xiangjun Fan, Hanchao Yu
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-03-25
💡 一句话要点
CAFe:通过对比-自回归微调统一表征与生成任务
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 对比学习 自回归模型 多模态检索 图像文本生成 表征学习 对象幻觉
📋 核心要点
- 现有LVLMs在生成任务表现优异,但在高保真表征学习任务(如检索嵌入生成)中存在不足。
- CAFe框架通过结合对比学习和自回归语言建模,统一表征学习和生成任务,克服了传统方法的trade-off。
- CAFe在多模态检索和生成任务上取得了SOTA结果,有效缓解了对象幻觉问题,验证了其有效性。
📝 摘要(中文)
大型视觉语言模型(LVLMs)的快速发展推动了多模态任务的显著进步,使模型能够解释、推理和生成跨视觉和文本领域的输出。虽然现有的LVLMs在生成任务中表现出色,但在需要高保真表征学习的任务(例如生成用于检索的图像或文本嵌入)中面临局限性。最近的工作提出了对LVLMs进行微调以进行表征学习,但由于表征学习的训练范式,微调后的模型通常会失去其生成能力。为了解决这种权衡,我们引入了CAFe,一个对比-自回归微调框架,它增强了LVLMs的表征和生成任务能力。通过将对比目标与自回归语言建模相结合,我们的方法统一了这些传统上分离的任务,在多模态检索和多模态生成基准测试中都取得了最先进的结果,包括减轻对象幻觉(OH)。CAFe建立了一个新颖的框架,在一个模型中协同了嵌入和生成功能,为未来在检索精度和连贯输出生成方面表现出色的多模态模型奠定了基础。
🔬 方法详解
问题定义:现有的大型视觉语言模型(LVLMs)在生成任务上表现出色,但在需要高质量表征学习的任务(例如,生成用于检索的图像或文本嵌入)中存在局限性。为了提升表征能力,直接对LVLMs进行微调会导致其生成能力下降,形成一种trade-off。因此,如何让LVLMs同时具备优秀的表征能力和生成能力是一个关键问题。
核心思路:CAFe的核心思路是将对比学习和自回归语言建模两种方法结合起来,从而在一个统一的框架下同时优化模型的表征能力和生成能力。对比学习用于学习高质量的嵌入表示,而自回归语言建模则保持模型的生成能力。通过这种方式,CAFe能够克服传统方法中表征能力和生成能力之间的trade-off。
技术框架:CAFe框架主要包含两个部分:对比学习模块和自回归语言建模模块。对比学习模块负责学习图像和文本的联合嵌入表示,通过最大化正样本对之间的相似度,最小化负样本对之间的相似度来优化表征能力。自回归语言建模模块则利用标准的语言建模目标来保持模型的生成能力。这两个模块通过共享底层模型参数来实现知识的迁移和融合。
关键创新:CAFe的关键创新在于将对比学习和自回归语言建模有机地结合在一起,从而在一个统一的框架下同时优化模型的表征能力和生成能力。与之前的工作相比,CAFe不需要单独训练表征模型和生成模型,而是通过一个模型同时实现这两种能力。此外,CAFe还通过一些技术手段来缓解对比学习可能带来的负面影响,例如使用temperature scaling来调整对比损失的权重。
关键设计:CAFe的关键设计包括:1) 使用InfoNCE损失作为对比学习的目标函数;2) 使用temperature scaling来调整对比损失的权重,防止对比学习对生成能力造成过大的影响;3) 使用共享的底层模型参数来实现知识的迁移和融合;4) 在训练过程中,同时优化对比损失和语言建模损失,从而实现表征能力和生成能力的平衡。
🖼️ 关键图片
📊 实验亮点
CAFe在多模态检索和生成任务上取得了显著的性能提升。在多模态检索任务中,CAFe在多个数据集上取得了SOTA结果,相比之前的最佳方法提升了多个百分点。在生成任务中,CAFe有效缓解了对象幻觉问题,生成了更准确、更连贯的图像描述。这些实验结果表明,CAFe能够有效地统一表征学习和生成任务,提升模型的整体性能。
🎯 应用场景
CAFe框架具有广泛的应用前景,例如多模态信息检索、图像文本生成、视觉问答等。它可以用于构建更强大的搜索引擎,实现更自然的图像文本交互,以及提升视觉问答系统的准确率。此外,CAFe还可以应用于机器人领域,帮助机器人更好地理解和处理视觉和语言信息,从而实现更智能的自主导航和任务执行。
📄 摘要(原文)
The rapid advancement of large vision-language models (LVLMs) has driven significant progress in multimodal tasks, enabling models to interpret, reason, and generate outputs across both visual and textual domains. While excelling in generative tasks, existing LVLMs often face limitations in tasks requiring high-fidelity representation learning, such as generating image or text embeddings for retrieval. Recent work has proposed finetuning LVLMs for representational learning, but the fine-tuned model often loses its generative capabilities due to the representational learning training paradigm. To address this trade-off, we introduce CAFe, a contrastive-autoregressive fine-tuning framework that enhances LVLMs for both representation and generative tasks. By integrating a contrastive objective with autoregressive language modeling, our approach unifies these traditionally separate tasks, achieving state-of-the-art results in both multimodal retrieval and multimodal generative benchmarks, including object hallucination (OH) mitigation. CAFe establishes a novel framework that synergizes embedding and generative functionalities in a single model, setting a foundation for future multimodal models that excel in both retrieval precision and coherent output generation.