EComStage: Stage-wise and Orientation-specific Benchmarking for Large Language Models in E-commerce

📄 arXiv: 2601.02752v1 📥 PDF

作者: Kaiyan Zhao, Zijie Meng, Zheyong Xie, Jin Duan, Yao Hu, Zuozhu Liu, Shaosheng Cao

分类: cs.CL

发布日期: 2026-01-06

备注: preprint


💡 一句话要点

EComStage:电商大语言模型分阶段、面向场景的综合评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电商Agent 大语言模型 评估基准 分阶段评估 面向场景 推理过程 人工标注

📋 核心要点

  1. 现有电商Agent评估侧重最终任务完成度,忽略中间推理阶段,无法有效指导模型优化。
  2. EComStage基准通过分阶段评估(感知、计划、行动)和场景区分(客户、商家)来全面评估LLM。
  3. 实验评估了30多个不同规模的LLM,揭示了它们在电商任务不同阶段和场景下的优劣势。

📝 摘要(中文)

本文提出了EComStage,一个统一的基准,用于评估具备Agent能力的大语言模型在电商场景下端到端的推理过程。现有基准主要评估Agent是否成功完成最终任务,忽略了中间推理阶段,而这些阶段对于有效的决策至关重要。EComStage通过七个独立的、具有代表性的任务来评估LLM,这些任务涵盖了不同的电商场景,所有样本都经过人工标注和质量检查。与以往只关注面向客户交互的基准不同,EComStage还评估面向商家的场景,包括促销管理、内容审核和运营支持等。本文评估了30多个LLM,参数规模从1B到200B以上,包括开源模型和闭源API,揭示了模型在不同阶段和场景下的优势和劣势。研究结果为在实际电商环境中设计和优化基于LLM的Agent提供了细粒度、可操作的见解。

🔬 方法详解

问题定义:现有的大语言模型在电商领域的应用评估,主要集中在最终任务的完成情况,缺乏对中间推理过程的细致评估。这种评估方式无法有效诊断模型在哪些环节存在不足,从而难以进行针对性的优化。此外,现有基准大多只关注面向客户的交互场景,忽略了面向商家的业务需求,使得评估结果与实际应用存在偏差。

核心思路:EComStage的核心思路是将电商Agent的任务分解为三个关键阶段:感知(Perception)、计划(Planning)和行动(Action)。通过对每个阶段进行独立评估,可以更清晰地了解模型在理解用户意图、制定行动计划和执行决策方面的能力。同时,EComStage还区分了面向客户和面向商家的不同场景,以更全面地反映实际应用需求。

技术框架:EComStage基准包含七个具有代表性的电商任务,涵盖了产品咨询、推荐、订单管理、促销管理、内容审核和运营支持等场景。每个任务都包含多个样本,这些样本经过人工标注和质量检查,确保评估的准确性和可靠性。评估过程针对每个阶段(感知、计划、行动)分别进行,并根据预定义的指标进行评分。

关键创新:EComStage的关键创新在于其分阶段和面向场景的评估方法。与以往只关注最终结果的评估方式不同,EComStage能够深入分析模型在每个推理阶段的表现,从而更准确地诊断问题并指导优化。同时,EComStage对面向客户和面向商家场景的区分,使得评估结果更贴近实际应用,更具参考价值。

关键设计:EComStage的关键设计包括任务的选择、样本的标注和评估指标的定义。任务的选择需要覆盖电商领域的主要应用场景,样本的标注需要保证准确性和一致性,评估指标需要能够有效反映模型在每个阶段的表现。具体的技术细节包括:使用人工标注确保数据质量,设计合理的提示工程(prompt engineering)以引导模型进行推理,以及定义清晰的评估指标来量化模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EComStage评估了30多个LLM,参数规模从1B到200B以上,包括开源模型和闭源API,揭示了模型在不同阶段和场景下的优势和劣势。例如,某些模型在感知阶段表现出色,但在计划阶段存在不足;某些模型更擅长处理面向客户的交互,而另一些模型则更适合处理面向商家的任务。这些结果为实际应用中选择合适的LLM提供了重要参考。

🎯 应用场景

EComStage可用于指导电商领域大语言模型Agent的设计与优化,提升客户服务质量、优化商家运营效率。通过细粒度的评估结果,开发者可以针对性地改进模型在特定阶段或场景下的表现,例如提升用户意图理解的准确性、优化行动计划的合理性等。该基准还有助于推动电商领域AI技术的创新与发展。

📄 摘要(原文)

Large Language Model (LLM)-based agents are increasingly deployed in e-commerce applications to assist customer services in tasks such as product inquiries, recommendations, and order management. Existing benchmarks primarily evaluate whether these agents successfully complete the final task, overlooking the intermediate reasoning stages that are crucial for effective decision-making. To address this gap, we propose EComStage, a unified benchmark for evaluating agent-capable LLMs across the comprehensive stage-wise reasoning process: Perception (understanding user intent), Planning (formulating an action plan), and Action (executing the decision). EComStage evaluates LLMs through seven separate representative tasks spanning diverse e-commerce scenarios, with all samples human-annotated and quality-checked. Unlike prior benchmarks that focus only on customer-oriented interactions, EComStage also evaluates merchant-oriented scenarios, including promotion management, content review, and operational support relevant to real-world applications. We evaluate a wide range of over 30 LLMs, spanning from 1B to over 200B parameters, including open-source models and closed-source APIs, revealing stage/orientation-specific strengths and weaknesses. Our results provide fine-grained, actionable insights for designing and optimizing LLM-based agents in real-world e-commerce settings.