From Unstructured to Structured: LLM-Guided Attribute Graphs for Entity Search and Ranking
作者: Yilun Zhu, Nikhita Vedula, Shervin Malmasi
分类: cs.IR, cs.CL
发布日期: 2026-04-30
💡 一句话要点
提出LLM驱动的属性图方法,用于提升电商场景下的实体搜索与排序。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 实体搜索 属性图 大型语言模型 电商 排序 零样本学习 知识图谱
📋 核心要点
- 电商实体搜索面临产品相似性因类别和上下文而异的挑战,传统嵌入方法难以捕捉细微的属性相关性。
- 利用LLM构建类别感知的属性图,将非结构化文本转化为结构化表示,用于后续的排序任务。
- 实验表明,该方法在零样本场景下优于多个基线,平均精度提升超过5%,且具有良好的泛化能力。
📝 摘要(中文)
实体搜索,即寻找与查询实体最相似的实体,在电子商务中面临独特的挑战,因为产品相似性因类别和上下文而异。传统的基于嵌入的方法通常难以捕捉细微的、特定于上下文的属性相关性。本文提出了一种两阶段方法,将大型语言模型(LLM)驱动的属性图构建与图感知的LLM排序相结合。在离线阶段,我们从非结构化文本中提取结构化的产品属性,并构建具有类别感知模式的可重用属性图。在在线阶段,我们通过推理这种结构化表示而不是原始文本来对检索到的候选对象进行排序,从而将每个产品的token使用量减少了57%,同时提高了排序精度。实验表明,我们的方法在零样本场景下优于多个基线,在平均精度上实现了超过5%的提升,无需训练数据,在不同的产品类别中具有鲁棒的泛化能力,并显示出巨大的实际部署潜力。
🔬 方法详解
问题定义:论文旨在解决电商场景下实体搜索中,传统方法难以有效捕捉产品属性之间复杂关系的问题。现有方法,如基于嵌入的方法,无法充分利用上下文信息,导致搜索结果不准确,尤其是在产品类别繁多、属性各异的情况下。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大语义理解能力,从非结构化文本中提取结构化的产品属性,并构建一个类别感知的属性图。该图能够显式地表示产品属性之间的关系,从而为后续的排序任务提供更丰富的信息。
技术框架:该方法包含两个主要阶段:离线阶段和在线阶段。在离线阶段,首先利用LLM从产品描述等非结构化文本中提取产品属性,然后根据产品类别构建属性图。在在线阶段,对于给定的查询实体,首先检索候选实体,然后利用LLM在属性图上进行推理,对候选实体进行排序。
关键创新:该方法的关键创新在于将LLM与属性图相结合,利用LLM的语义理解能力构建结构化的知识表示,并利用属性图来显式地表示产品属性之间的关系。这种结合使得模型能够更好地理解产品之间的相似性,从而提高搜索和排序的准确性。与直接使用LLM进行排序相比,该方法显著减少了token的使用量。
关键设计:论文中,属性图的构建方式是关键。具体来说,针对每个产品类别,定义一个类别感知的模式(schema),用于指导LLM提取属性。此外,在在线排序阶段,如何有效地利用属性图的信息也是一个重要的设计考虑。论文中使用了图感知的LLM排序方法,具体的技术细节未知。
📊 实验亮点
实验结果表明,该方法在零样本场景下优于多个基线方法,平均精度提升超过5%。同时,该方法在不同的产品类别中表现出良好的泛化能力,并且能够显著减少token的使用量(57%),这对于实际部署具有重要意义。这些结果表明,该方法具有很强的实用价值。
🎯 应用场景
该研究成果可广泛应用于电商平台的商品搜索、推荐系统和智能客服等领域。通过更准确地理解用户需求和产品属性,可以显著提升用户体验,提高销售转化率,并降低运营成本。未来,该方法还可以扩展到其他领域,如知识图谱构建、信息检索和自然语言理解等。
📄 摘要(原文)
Entity search, i.e., finding the most similar entities to a query entity, faces unique challenges in e-commerce, where product similarity varies across categories and contexts. Traditional embedding-based approaches often struggle to capture nuanced context-specific attribute relevance. In this paper, we present a two-stage approach combining Large Language Model (LLM)-driven attribute graph construction with graph-aware LLM ranking. In the offline stage, we extract structured product attributes from unstructured text, and construct a reusable attribute graph with category-aware schemas. In the online stage, we rank retrieved candidates by reasoning over this structured representation rather than raw text, reducing per-product token usage by 57% while improving ranking precision. Experiments show that our approach outperforms multiple baselines under zero-shot scenarios, achieving a over 5% improvement in average precision without requiring training data, generalizes robustly across diverse product categories, and shows immense potential for real-world deployment.