RAIR: A Rule-Aware Benchmark Uniting Challenging Long-Tail and Visual Salience Subset for E-commerce Relevance Assessment

📄 arXiv: 2512.24943v1 📥 PDF

作者: Chenji Lu, Zhuo Chen, Hui Zhao, Zhenyi Wang, Pengjie Wang, Jian Xu, Bo Zheng

分类: cs.IR, cs.AI, cs.CL, cs.LG

发布日期: 2025-12-31


💡 一句话要点

提出RAIR:一个面向电商相关性评估的规则感知、长尾和视觉显著性基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电商搜索 相关性评估 长尾数据 视觉显著性 基准数据集 语言模型 多模态学习

📋 核心要点

  1. 现有电商搜索相关性评估基准缺乏足够复杂性,难以全面评估模型,行业内缺乏标准化的评估指标。
  2. RAIR通过构建包含通用、长尾和视觉显著性子集的综合数据集,并建立标准化的评估框架和通用规则,来解决上述问题。
  3. 实验结果表明,即使是GPT-5在RAIR上也面临挑战,证明了RAIR的难度和区分度,可作为行业基准。

📝 摘要(中文)

本文提出Rule-Aware benchmark with Image for Relevance assessment(RAIR),一个源于真实电商场景的中文数据集,旨在解决现有相关性评估基准的复杂性不足问题。RAIR建立了一个标准化的相关性评估框架,并提供了一套通用规则,为标准化评估奠定了基础。RAIR分析了当前相关性模型所需的基本能力,并引入了一个包含三个子集的综合数据集:(1)一个具有行业平衡抽样的通用子集,用于评估基本模型能力;(2)一个专注于挑战性案例的长尾硬子集,用于评估性能极限;(3)一个用于评估多模态理解能力的视觉显著性子集。使用14个开源和闭源模型在RAIR上进行了实验。结果表明,即使对于表现最佳的GPT-5,RAIR也提出了足够的挑战。RAIR数据现已可用,可作为行业相关性评估的基准,同时为通用LLM和视觉语言模型(VLM)评估提供新的见解。

🔬 方法详解

问题定义:论文旨在解决电商搜索相关性评估中,现有基准数据集复杂度不足,无法充分评估模型能力,以及缺乏统一评估标准的问题。现有方法难以覆盖长尾query和视觉信息,导致模型在实际应用中表现不佳。

核心思路:论文的核心思路是构建一个更具挑战性和代表性的数据集RAIR,该数据集包含通用、长尾和视觉显著性三个子集,分别考察模型在不同场景下的相关性判断能力。同时,建立一套标准化的评估框架和通用规则,为行业提供统一的评估标准。

技术框架:RAIR数据集的构建流程包括:数据采集、数据清洗、子集划分和人工标注。其中,子集划分依据query的流行度和是否包含视觉信息。通用子集采用行业平衡抽样,长尾子集侧重于低频query,视觉显著性子集包含带有图像信息的query。人工标注遵循一套预定义的通用规则,确保标注质量和一致性。

关键创新:RAIR的关键创新在于其数据集的全面性和标准化。它不仅包含通用场景,还特别关注了长尾query和视觉信息,更贴近实际电商搜索场景。此外,RAIR提供的通用规则为相关性评估提供了一个标准化的框架,有助于不同模型之间的公平比较。

关键设计:RAIR数据集包含三个子集,每个子集的数据量和分布都经过精心设计,以保证评估的全面性和有效性。标注过程中,采用了多轮审核和一致性检查,以确保标注质量。评估指标包括准确率、召回率、F1值等,并针对不同子集采用不同的评估策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是当前性能最佳的GPT-5模型在RAIR上也面临挑战,这表明RAIR数据集具有足够的难度和区分度。不同模型在RAIR的不同子集上表现出差异,揭示了它们在处理长尾query和视觉信息方面的能力差异。RAIR为研究者提供了一个评估和改进相关性模型的有效平台。

🎯 应用场景

RAIR可应用于电商搜索、推荐系统等领域,用于评估和提升相关性模型的性能。该基准数据集和评估框架有助于推动相关技术的发展,提高用户搜索体验,并为电商平台带来更高的转化率和用户满意度。未来,RAIR可以扩展到其他语言和领域,例如新闻推荐、视频搜索等。

📄 摘要(原文)

Search relevance plays a central role in web e-commerce. While large language models (LLMs) have shown significant results on relevance task, existing benchmarks lack sufficient complexity for comprehensive model assessment, resulting in an absence of standardized relevance evaluation metrics across the industry. To address this limitation, we propose Rule-Aware benchmark with Image for Relevance assessment(RAIR), a Chinese dataset derived from real-world scenarios. RAIR established a standardized framework for relevance assessment and provides a set of universal rules, which forms the foundation for standardized evaluation. Additionally, RAIR analyzes essential capabilities required for current relevance models and introduces a comprehensive dataset consists of three subset: (1) a general subset with industry-balanced sampling to evaluate fundamental model competencies; (2) a long-tail hard subset focus on challenging cases to assess performance limits; (3) a visual salience subset for evaluating multimodal understanding capabilities. We conducted experiments on RAIR using 14 open and closed-source models. The results demonstrate that RAIR presents sufficient challenges even for GPT-5, which achieved the best performance. RAIR data are now available, serving as an industry benchmark for relevance assessment while providing new insights into general LLM and Visual Language Model(VLM) evaluation.