ProductResearch: Training E-Commerce Deep Research Agents via Multi-Agent Synthetic Trajectory Distillation

作者: Jiangyuan Wang, Kejun Xiao, Huaipeng Zhao, Tao Luo, Xiaoyi Zeng

分类: cs.AI

发布日期: 2026-02-27

💡 一句话要点

提出ProductResearch框架，通过多智能体合成轨迹蒸馏训练电商深度研究Agent

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 电商Agent 多智能体 合成数据 轨迹蒸馏 深度研究 LLM 对话式购物

📋 核心要点

现有电商LLM Agent缺乏复杂产品研究所需的交互深度和上下文广度，限制了其应用。
ProductResearch框架通过多智能体协作生成高质量的购物轨迹，用于训练更强大的电商Agent。
实验表明，在合成数据上微调的模型性能显著提升，接近前沿系统水平，验证了框架的有效性。

📝 摘要（中文）

本文提出ProductResearch框架，旨在解决电商对话式购物中LLM Agent缺乏交互深度和上下文广度的问题。该框架利用多智能体生成高质量、长时程的工具使用轨迹，用于训练鲁棒的电商购物Agent。框架包含用户Agent（推断购物意图）、监督Agent（协调迭代）和研究Agent（生成研究报告）。通过反射内化过程过滤和提炼轨迹，将多智能体交互转化为单角色训练样本，有效微调LLM Agent。实验表明，在合成数据上微调的MoE模型在响应全面性、研究深度和用户感知效用方面显著优于基线模型，接近前沿深度研究系统的性能，验证了多智能体合成轨迹训练在增强LLM购物助手方面的有效性和可扩展性。

🔬 方法详解

问题定义：现有电商对话式购物Agent在进行复杂产品研究时，缺乏足够的交互深度和上下文广度，难以满足用户深入了解产品的需求。直接将Web搜索中的深度研究方法迁移到电商领域存在领域差异问题。

核心思路：利用多智能体协作模拟用户购物行为，生成高质量的购物轨迹数据。通过用户Agent模拟用户意图，监督Agent协调研究Agent进行产品研究，最终生成包含全面信息的报告。然后，通过蒸馏将多智能体的交互过程转化为单智能体的训练数据，从而提升Agent的性能。

技术框架：ProductResearch框架包含三个主要Agent：用户Agent、监督Agent和研究Agent。用户Agent负责根据用户行为历史推断购物意图。监督Agent负责协调研究Agent进行迭代式产品研究，并评估研究质量。研究Agent负责使用各种工具（如搜索引擎、电商平台API）进行信息收集和分析，最终生成产品研究报告。整个流程模拟了用户在电商平台上的购物和研究过程。

关键创新：该方法的核心创新在于利用多智能体协作生成合成数据，并使用蒸馏技术将多智能体的交互过程转化为单智能体的训练数据。这种方法能够有效地解决电商领域数据稀缺的问题，并提升Agent的泛化能力。

关键设计：框架的关键设计包括：1) 用户Agent的意图推断模型，需要准确捕捉用户的购物意图；2) 监督Agent的协调策略，需要有效地引导研究Agent进行信息收集和分析；3) 研究Agent的工具使用策略，需要能够灵活地使用各种工具获取所需信息；4) 反射内化过程，将多智能体交互提炼成高质量的单智能体训练样本。具体参数设置、损失函数和网络结构等细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在ProductResearch框架下训练的MoE模型在响应全面性、研究深度和用户感知效用方面均取得了显著提升，性能接近前沿的专有深度研究系统。具体提升幅度未在摘要中给出，属于未知信息。该结果验证了多智能体合成轨迹训练在增强LLM购物助手方面的有效性。

🎯 应用场景

该研究成果可应用于电商平台的智能购物助手，帮助用户更高效地进行产品研究和决策。通过提供更全面、深入的产品信息，提升用户购物体验，并提高电商平台的销售额。未来，该技术还可扩展到其他需要深度信息检索和分析的领域，如金融、医疗等。

📄 摘要（原文）

Large Language Model (LLM)-based agents show promise for e-commerce conversational shopping, yet existing implementations lack the interaction depth and contextual breadth required for complex product research. Meanwhile, the Deep Research paradigm, despite advancing information synthesis in web search, suffers from domain gaps when transferred to e-commerce. We propose ProductResearch, a multi-agent framework that synthesizes high-fidelity, long-horizon tool-use trajectories for training robust e-commerce shopping agents. The framework employs a User Agent to infer nuanced shopping intents from behavioral histories, and a Supervisor Agent that orchestrates iterative collaboration with a Research Agent to generate synthetic trajectories culminating in comprehensive, insightful product research reports. These trajectories are rigorously filtered and distilled through a reflective internalization process that consolidates multi-agent supervisory interactions into coherent single-role training examples, enabling effective fine-tuning of LLM agents for complex shopping inquiries. Extensive experiments show that a compact MoE model fine-tuned on our synthetic data achieves substantial improvements over its base model in response comprehensiveness, research depth, and user-perceived utility, approaching the performance of frontier proprietary deep research systems and establishing multi-agent synthetic trajectory training as an effective and scalable paradigm for enhancing LLM-based shopping assistance.

ProductResearch: Training E-Commerce Deep Research Agents via Multi-Agent Synthetic Trajectory Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理