AI Agent-Driven Framework for Automated Product Knowledge Graph Construction in E-Commerce
作者: Dimitar Peshevski, Riste Stojanov, Dimitar Trajanov
分类: cs.AI
发布日期: 2025-11-14
备注: Proceedings of the 1st GOBLIN Workshop on Knowledge Graph Technologies
期刊: The 1st GOBLIN Workshop on Knowledge Graph Technologies, June 12, 2025 in Leipzig, Germany
💡 一句话要点
提出AI Agent驱动的电商产品知识图谱自动构建框架,解决非结构化数据难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 知识图谱构建 AI Agent 大型语言模型 电商产品 自动化 非结构化数据 本体构建
📋 核心要点
- 电商平台产品数据量巨大且非结构化,传统知识图谱构建方法依赖人工,效率低下且难以扩展。
- 提出基于AI Agent的自动化框架,利用LLM进行本体构建、细化和知识图谱填充,无需预定义模式。
- 在空调产品数据集上验证,属性覆盖率超过97%,冗余度低,证明了框架的有效性和实用性。
📝 摘要(中文)
电子商务平台的快速扩张产生了大量的非结构化产品数据,给信息检索、推荐系统和数据分析带来了巨大的挑战。知识图谱(KGs)提供了一种结构化、可解释的格式来组织这些数据,但构建特定于产品的KGs仍然是一个复杂的手动过程。本文介绍了一种完全自动化的、AI Agent驱动的框架,用于直接从非结构化产品描述中构建产品知识图谱。该方法利用大型语言模型(LLMs),使用专用Agent分三个阶段运行:本体创建和扩展、本体细化和知识图谱填充。这种基于Agent的方法确保了语义连贯性、可扩展性和高质量的输出,而无需依赖预定义的模式或手工制作的提取规则。我们在空调产品描述的真实数据集上评估了该系统,在本体生成和KG填充方面都表现出强大的性能。该框架实现了超过97%的属性覆盖率和最小的冗余,验证了其有效性和实际适用性。我们的工作突出了LLMs在零售业自动化结构化知识提取方面的潜力,为智能产品数据集成和利用提供了一条可扩展的途径。
🔬 方法详解
问题定义:电子商务领域存在海量的非结构化产品描述数据,如何从中高效、准确地提取知识并构建产品知识图谱是一个关键问题。传统方法依赖人工标注和规则制定,成本高昂且难以适应产品信息的快速变化。现有方法在处理大规模、多样化的产品数据时,面临可扩展性和维护性的挑战。
核心思路:利用大型语言模型(LLMs)的强大语义理解和生成能力,设计一个由多个AI Agent协同工作的框架,实现产品知识图谱的自动化构建。通过Agent的协作,将复杂的知识提取任务分解为更小、更易于管理的子任务,从而提高效率和准确性。
技术框架:该框架包含三个主要阶段,每个阶段由一个或多个Agent负责:1) 本体创建和扩展:Agent负责从产品描述中提取关键概念和属性,构建初始本体。2) 本体细化:Agent对初始本体进行审查和修正,消除冗余和歧义,确保语义一致性。3) 知识图谱填充:Agent利用已构建的本体,从产品描述中提取实体和关系,填充知识图谱。整个流程无需人工干预,实现端到端的自动化。
关键创新:该方法的核心创新在于利用AI Agent驱动的架构,将知识图谱构建过程分解为多个可独立执行的任务,并利用LLM的强大能力自动化执行这些任务。与传统方法相比,该方法无需预定义的模式或手工规则,具有更高的灵活性和可扩展性。
关键设计:框架的关键设计包括:1) 使用特定的prompt工程来指导LLM Agent的行为,确保输出的质量和一致性。2) 设计了Agent之间的协作机制,例如,本体细化Agent依赖于本体创建Agent的输出。3) 采用了适当的评估指标,例如属性覆盖率和冗余度,来衡量知识图谱的质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在空调产品数据集上实现了超过97%的属性覆盖率,同时保持了较低的冗余度。这表明该方法能够有效地从非结构化产品描述中提取知识,并构建高质量的知识图谱。与传统方法相比,该框架无需人工干预,大大降低了构建知识图谱的成本和时间。
🎯 应用场景
该研究成果可广泛应用于电商平台的产品信息管理、智能推荐系统、产品搜索优化和数据分析等领域。通过自动构建高质量的产品知识图谱,可以提升用户体验,提高销售转化率,并为企业决策提供数据支持。未来,该技术还可扩展到其他领域,例如金融、医疗等,实现更广泛的知识自动化。
📄 摘要(原文)
The rapid expansion of e-commerce platforms generates vast amounts of unstructured product data, creating significant challenges for information retrieval, recommendation systems, and data analytics. Knowledge Graphs (KGs) offer a structured, interpretable format to organize such data, yet constructing product-specific KGs remains a complex and manual process. This paper introduces a fully automated, AI agent-driven framework for constructing product knowledge graphs directly from unstructured product descriptions. Leveraging Large Language Models (LLMs), our method operates in three stages using dedicated agents: ontology creation and expansion, ontology refinement, and knowledge graph population. This agent-based approach ensures semantic coherence, scalability, and high-quality output without relying on predefined schemas or handcrafted extraction rules. We evaluate the system on a real-world dataset of air conditioner product descriptions, demonstrating strong performance in both ontology generation and KG population. The framework achieves over 97\% property coverage and minimal redundancy, validating its effectiveness and practical applicability. Our work highlights the potential of LLMs to automate structured knowledge extraction in retail, providing a scalable path toward intelligent product data integration and utilization.