GRACE: Generative Representation Learning via Contrastive Policy Optimization

📄 arXiv: 2510.04506v1 📥 PDF

作者: Jiashuo Sun, Shixuan Liu, Zhaochen Su, Xianrui Zhong, Pengcheng Jiang, Bowen Jin, Peiran Li, Weijia Shi, Jiawei Han

分类: cs.CL, cs.AI, cs.IR

发布日期: 2025-10-06

备注: 23 pages, 7 figures, 7 tables

🔗 代码/项目: GITHUB


💡 一句话要点

GRACE:通过对比策略优化进行生成式表示学习,提升LLM文本编码能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式表示学习 对比策略优化 大型语言模型 文本编码 可解释性

📋 核心要点

  1. 现有LLM文本编码方法依赖对比损失,将模型视为黑盒,忽略了其生成和推理能力。
  2. GRACE将对比信号视为奖励,引导LLM生成可解释的理由,并将其编码为高质量嵌入。
  3. 实验表明,GRACE在MTEB基准测试中显著提升了文本表示性能,同时保持了通用能力。

📝 摘要(中文)

本文提出了一种名为GRACE(Generative Representation Learning via Contrastive Policy Optimization)的新框架,用于训练大型语言模型(LLMs)作为文本编码器。与将LLM视为黑盒函数并采用对比损失的传统方法不同,GRACE将对比信号重新定义为指导生成策略的奖励。在GRACE中,LLM充当策略,生成显式的、人类可解释的理由——对其语义理解的结构化自然语言解释。这些理由随后通过平均池化被编码成高质量的嵌入。利用策略梯度优化,使用多组件奖励函数训练模型,该函数最大化查询正例对之间的相似性,并最小化与负例的相似性。这使得LLM从不透明的编码器转变为可解释的代理,其推理过程是透明且可检查的。在MTEB基准测试中,GRACE在各个类别中都取得了广泛的收益:在四个backbone上的平均结果表明,有监督设置下的总体得分比基础模型提高了11.5%,无监督变体提高了6.9%,同时保持了一般能力。这项工作将对比目标视为对理由的奖励,统一了表示学习和生成,从而产生更强的嵌入和透明的理由。模型、数据和代码可在https://github.com/GasolSun36/GRACE 获得。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)作为文本编码器时,通常采用对比学习方法,将LLM视为一个黑盒函数,直接优化嵌入表示。这种方法忽略了LLM本身具有的生成和推理能力,导致模型的可解释性较差,且可能无法充分利用LLM的语义理解能力。因此,如何利用LLM的生成能力来提升文本表示的质量和可解释性是一个关键问题。

核心思路:GRACE的核心思路是将对比学习的目标转化为对LLM生成理由的奖励。具体来说,GRACE将LLM视为一个策略网络,其目标是生成能够解释输入文本语义的自然语言理由。通过优化策略网络,使得生成的理由能够更好地反映输入文本的语义信息,从而提升文本表示的质量。同时,由于理由是人类可读的,因此GRACE也提高了模型的可解释性。

技术框架:GRACE的整体框架包括以下几个主要模块:1) LLM策略网络:负责生成输入文本的理由。2) 理由编码器:将生成的理由编码为嵌入表示。3) 奖励函数:用于评估生成的理由的质量,并指导策略网络的优化。4) 策略梯度优化器:用于更新LLM策略网络的参数。整个流程如下:首先,给定一个输入文本,LLM策略网络生成一个理由。然后,理由编码器将理由编码为嵌入表示。接着,奖励函数评估理由的质量,并计算奖励值。最后,策略梯度优化器根据奖励值更新LLM策略网络的参数。

关键创新:GRACE最重要的技术创新点在于将对比学习的目标转化为对生成理由的奖励。与传统的对比学习方法不同,GRACE不是直接优化嵌入表示,而是通过优化LLM生成的理由来间接提升嵌入表示的质量。这种方法充分利用了LLM的生成能力,并提高了模型的可解释性。

关键设计:GRACE的关键设计包括:1) 多组件奖励函数:奖励函数由多个组件组成,包括相似性奖励、对比奖励和正则化奖励。相似性奖励用于鼓励生成的理由能够更好地反映输入文本的语义信息。对比奖励用于区分正例和负例。正则化奖励用于防止过拟合。2) 策略梯度优化:采用策略梯度优化算法来更新LLM策略网络的参数。策略梯度优化算法能够有效地处理离散动作空间的问题,并能够直接优化奖励函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GRACE在MTEB基准测试中取得了显著的性能提升。在有监督设置下,GRACE在四个backbone上的平均总体得分比基础模型提高了11.5%。在无监督变体中,GRACE的总体得分也提高了6.9%。这些结果表明,GRACE能够有效地提升文本表示的质量,并具有良好的泛化能力。此外,GRACE生成的理由具有很高的可解释性,可以帮助用户理解模型的推理过程。

🎯 应用场景

GRACE框架具有广泛的应用前景,例如语义搜索、文本分类、问答系统等。通过生成可解释的理由,GRACE可以提高模型的可信度和透明度,从而更容易被用户接受。此外,GRACE还可以用于知识发现和推理,通过分析生成的理由,可以发现隐藏在文本中的知识和关系。未来,GRACE有望成为一种通用的文本表示学习框架,并推动自然语言处理领域的发展。

📄 摘要(原文)

Prevailing methods for training Large Language Models (LLMs) as text encoders rely on contrastive losses that treat the model as a black box function, discarding its generative and reasoning capabilities in favor of static embeddings. We introduce GRACE (Generative Representation Learning via Contrastive Policy Optimization), a novel framework that reimagines contrastive signals not as losses to be minimized, but as rewards that guide a generative policy. In GRACE, the LLM acts as a policy that produces explicit, human-interpretable rationales--structured natural language explanations of its semantic understanding. These rationales are then encoded into high-quality embeddings via mean pooling. Using policy gradient optimization, we train the model with a multi-component reward function that maximizes similarity between query positive pairs and minimizes similarity with negatives. This transforms the LLM from an opaque encoder into an interpretable agent whose reasoning process is transparent and inspectable. On MTEB benchmark, GRACE yields broad cross category gains: averaged over four backbones, the supervised setting improves overall score by 11.5% over base models, and the unsupervised variant adds 6.9%, while preserving general capabilities. This work treats contrastive objectives as rewards over rationales, unifying representation learning with generation to produce stronger embeddings and transparent rationales. The model, data and code are available at https://github.com/GasolSun36/GRACE.