UniNote: A Unified Embedding Model for Multimodal Representation and Ranking

作者: Jinghan Zhao, Wenwei Jin, Anqi Li, Jintao Tong, Luya Mo, Jiawei Li, Bin Li, Yao Hu

分类: cs.IR, cs.CV

发布日期: 2026-05-28

备注: Accepted by KDD Ads Track 2026

💡 一句话要点

提出UniNote，用于解决工业级Item-to-Item检索中多模态表征与排序的挑战。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Item-to-Item检索 多模态嵌入 对比学习 强化学习 表征学习 工业应用 内容推荐

📋 核心要点

现有I2I检索方法难以平衡全局内容表示与细粒度局部检索，且嵌入和排序流程解耦导致效率低下。
UniNote通过定制检索策略，支持对多粒度多模态内容进行表征学习，并采用两阶段训练范式。
实验表明，UniNote在多个I2I任务上达到SOTA性能，并在小红书大规模应用中显著提升检索质量和成本效率。

📝 摘要（中文）

Item-to-Item (I2I) 检索是现代内容平台的基础组成部分，为从推荐引擎到内容审核的关键工业工作流程提供支持。虽然多模态嵌入方法在通用检索方面取得了进展，但由于平衡全局内容表示与细粒度局部检索的挑战、解耦的嵌入和排序管道的系统性低效，以及模型精度和服务延迟之间的固有权衡，它们在 I2I 场景中经常失效。为了解决这些问题，我们提出了 UniNote，一种专为工业 I2I 检索设计的统一嵌入模型。引入定制的检索策略，以支持对不同粒度的复杂多模态内容进行表征学习。为了实施这些策略，UniNote 采用两阶段训练范式：第一阶段利用对比 SFT 建立强大的基础嵌入，而第二阶段通过强化学习 (RL) 过程优化排序质量，使模型与内容相关性对齐。我们的结果表明，UniNote 在各种 I2I 任务中实现了 SOTA 性能。UniNote 已在小红书部署，并与 Matryoshka Representation Learning (MRL) 集成，在大型应用中实现了检索质量和成本效率的显著提升。

🔬 方法详解

问题定义：论文旨在解决工业界Item-to-Item (I2I) 检索任务中，现有方法在处理多模态数据时面临的挑战。具体来说，现有方法难以同时兼顾全局内容理解和细粒度的局部检索，导致检索效果不佳。此外，传统的嵌入和排序流程是解耦的，效率较低，并且需要在模型精度和服务延迟之间进行权衡。

核心思路：UniNote的核心思路是提出一个统一的嵌入模型，能够同时学习多模态内容的全局表示和局部表示，并通过强化学习优化排序结果，从而提升I2I检索的精度和效率。该模型通过定制的检索策略，支持对不同粒度的复杂多模态内容进行表征学习。

技术框架：UniNote采用两阶段训练范式。第一阶段，使用对比SFT（Supervised Fine-Tuning）建立鲁棒的基础嵌入，旨在学习内容的基础表示。第二阶段，通过强化学习（RL）过程优化排序质量，使模型与内容相关性对齐，从而提升排序的准确性。整体框架包含多模态特征提取、嵌入生成、对比学习和强化学习排序等模块。

关键创新：UniNote的关键创新在于其统一的嵌入模型设计和两阶段训练范式。与传统的解耦方法不同，UniNote将嵌入和排序过程整合到一个模型中，并通过强化学习直接优化排序结果。此外，定制的检索策略能够更好地处理多模态内容，并支持不同粒度的表征学习。

关键设计：UniNote的关键设计包括：1) 多模态特征提取模块，用于提取文本、图像等多种模态的特征；2) 对比SFT损失函数，用于训练基础嵌入；3) 强化学习奖励函数，用于优化排序结果，奖励函数的设计需要与实际业务目标对齐；4) Matryoshka Representation Learning (MRL) 的集成，用于提升检索效率和降低成本。

🖼️ 关键图片

📊 实验亮点

UniNote在多个I2I检索任务上取得了SOTA性能。在小红书的实际部署中，UniNote与Matryoshka Representation Learning (MRL) 集成后，显著提升了检索质量和成本效率。具体的性能提升数据（例如，点击率、转化率等）未在摘要中明确给出，但强调了其在实际应用中的显著改进。

🎯 应用场景

UniNote可广泛应用于各种内容平台的Item-to-Item检索场景，例如推荐系统、内容审核、相似内容发现等。通过提升检索精度和效率，UniNote能够改善用户体验，提高平台运营效率，并降低服务成本。该研究对于工业界大规模多模态内容检索具有重要的实际价值和指导意义。

📄 摘要（原文）

Item-to-Item (I2I) retrieval is a fundamental part of modern content platforms, supporting critical industrial workflows from recommendation engines to content auditing. While multimodal embedding methods have advanced general retrieval, they often falter in I2I scenarios due to the challenges of balancing global content representation with fine-grained local retrieval, the systemic inefficiency of decoupled embedding-and-ranking pipelines, and the inherent trade-offs between model precision and serving latency. To solve these issues, we propose \textbf{UniNote}, a unified embedding model designed for industrial I2I retrieval. Tailored retrieval strategies are introduced to support representation learning over complex, multimodal content at varying granularities. To operationalize these strategies, UniNote employs a two-stage training paradigm: the first stage leverages contrastive SFT to establish robust base embeddings, while the second stage refines ranking quality through a reinforcement learning (RL) process that aligns the model with content relevance. Our results show that UniNote achieves SOTA performance across diverse I2I tasks. Deployed at Xiaohongshu and integrated with Matryoshka Representation Learning (MRL), UniNote achieved significant improvements in retrieval quality and cost efficiency in large-scale applications.

UniNote: A Unified Embedding Model for Multimodal Representation and Ranking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理