CRE-T1 Preview Technical Report: Beyond Contrastive Learning for Reasoning-Intensive Retrieval

📄 arXiv: 2603.17387v1 📥 PDF

作者: Guangzhi Wang, Yinghao Jiao, Zhi Liu

分类: cs.IR, cs.AI

发布日期: 2026-03-18


💡 一句话要点

提出Thought 1 (T1),通过动态推理生成提升推理密集型检索性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 推理密集型检索 生成式检索 动态推理 强化学习 对比学习 向量表示 BRIGHT基准

📋 核心要点

  1. 现有对比学习方法在推理密集型检索中,无法动态调整相关性判断,导致词汇不匹配或需要隐式推理时性能下降。
  2. T1模型通过动态生成中间推理轨迹桥接隐式推理关系,并将相关性建模从静态对齐转变为动态推理。
  3. T1-4B在BRIGHT基准测试中表现出色,超越了更大的对比学习模型,证明了动态推理生成在检索中的有效性。

📝 摘要(中文)

推理密集型检索的核心挑战在于识别查询和文档之间隐含的推理关系,而非表面的语义或词汇相似性。对比学习范式本质上是一种静态的表示巩固技术,它在训练期间将分层相关性概念编码到向量空间中的固定几何结构中,并且在推理时无法根据每个查询的特定推理需求动态调整相关性判断。因此,当查询和文档之间存在词汇不匹配或需要隐式推理来建立相关性时,性能会显著下降。本文提出了Thought 1 (T1),这是一种生成式检索模型,它将相关性建模从静态对齐转变为动态推理。在查询端,T1为每个查询动态生成中间推理轨迹,以桥接隐式推理关系,并使用作为推理输出的语义聚合点。在文档端,它采用instruction + text + 编码格式来支持高吞吐量索引。为了将动态推理能力内化到向量表示中,我们采用了三阶段训练课程,并在第三阶段引入了GRPO,使模型能够通过试错强化学习来学习不同查询的最佳推导策略。在BRIGHT基准测试中,T1-4B在原始查询设置下表现出强大的性能,总体上优于使用对比学习训练的更大模型,并且实现了与多阶段检索管道相当的性能。结果表明,用动态推理生成代替静态表示对齐可以有效地提高推理密集型检索性能。

🔬 方法详解

问题定义:论文旨在解决推理密集型检索中,由于查询和文档之间存在词汇不匹配或需要隐式推理而导致现有方法性能下降的问题。现有基于对比学习的方法依赖于静态的向量表示对齐,无法动态适应不同查询的推理需求。

核心思路:论文的核心思路是将相关性建模从静态表示对齐转变为动态推理生成。通过在查询端动态生成中间推理轨迹,模型能够更好地捕捉查询和文档之间的隐式关系,从而提高检索性能。

技术框架:T1模型采用生成式检索框架,主要包含查询端和文档端两个部分。查询端动态生成中间推理轨迹,并使用进行语义聚合。文档端采用instruction + text + 的编码格式,支持高吞吐量索引。模型训练分为三个阶段,第三阶段引入GRPO(未知)进行强化学习,优化推理策略。

关键创新:最重要的创新点在于使用动态推理生成来替代静态表示对齐。与传统的对比学习方法相比,T1模型能够更好地捕捉查询和文档之间的隐式关系,从而提高推理密集型检索的性能。

关键设计:论文采用了三阶段训练课程,并在第三阶段引入了GRPO(未知)进行强化学习,以优化模型的推理策略。具体的技术细节,如损失函数、网络结构等,文中没有详细描述,属于未知信息。

📊 实验亮点

T1-4B模型在BRIGHT基准测试中表现出强大的性能,在原始查询设置下,总体上优于使用对比学习训练的更大模型,并且实现了与多阶段检索管道相当的性能。这表明,使用动态推理生成代替静态表示对齐可以有效地提高推理密集型检索性能。

🎯 应用场景

该研究成果可应用于需要复杂推理的搜索场景,例如知识图谱问答、法律文档检索、医学文献检索等。通过提升推理密集型检索的性能,可以帮助用户更准确地找到所需信息,提高信息检索效率和质量。未来,该技术有望应用于智能客服、智能助手等领域。

📄 摘要(原文)

The central challenge of reasoning-intensive retrieval lies in identifying implicitreasoning relationships between queries and documents, rather than superficial se-mantic or lexical similarity. The contrastive learning paradigm is fundamentallya static representation consolidation technique: during training, it encodes hier-archical relevance concepts into fixed geometric structures in the vector space,and at inference time it cannot dynamically adjust relevance judgments accord-ing to the specific reasoning demands of each query. Consequently, performancedegrades noticeably when vocabulary mismatch exists between queries and doc-uments or when implicit reasoning is required to establish relevance. This pa-per proposes Thought 1 (T1), a generative retrieval model that shifts relevancemodeling from static alignment to dynamic reasoning. On the query side, T1 dy-namically generates intermediate reasoning trajectories for each query to bridgeimplicit reasoning relationships and uses as a semantic aggregationpoint for the reasoning output. On the document side, it employs an instruction+ text + encoding format to support high-throughput indexing. Tointernalize dynamic reasoning capabilities into vector representations, we adopt athree-stage training curriculum and introduce GRPO in the third stage, enablingthe model to learn optimal derivation strategies for different queries through trial-and-error reinforcement learning. On the BRIGHT benchmark, T1-4B exhibitsstrong performance under the original query setting, outperforming larger modelstrained with contrastive learning overall, and achieving performance comparableto multi-stage retrieval pipelines. The results demonstrate that replacing static rep-resentation alignment with dynamic reasoning generation can effectively improvereasoning-intensive retrieval performance.