MindFlow: Revolutionizing E-commerce Customer Support with Multimodal LLM Agents

📄 arXiv: 2507.05330v1 📥 PDF

作者: Ming Gong, Xucheng Huang, Chenghan Yang, Xianhan Peng, Haoxin Wang, Yang Liu, Ling Jiang

分类: cs.CL, cs.AI

发布日期: 2025-07-07


💡 一句话要点

MindFlow:利用多模态LLM Agent革新电商客户支持

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态LLM 电商客服 智能Agent 视觉-文本推理 CoALA框架

📋 核心要点

  1. 电商客户服务面临复杂多模态场景的挑战,现有大语言模型(LLM)能力受限。
  2. MindFlow采用“MLLM-as-Tool”策略,将多模态LLM作为工具,结合记忆、决策和行动模块。
  3. 在线A/B测试表明,MindFlow显著提升了用户满意度,降低了运营成本,实际部署提升93.53%。

📝 摘要(中文)

本文提出MindFlow,首个专为电商定制的开源多模态LLM Agent。它基于CoALA框架,集成了记忆、决策和行动模块,并采用模块化的“MLLM-as-Tool”策略,以实现有效的视觉-文本推理。通过在线A/B测试和基于仿真的消融实验评估,MindFlow在处理复杂查询、提高用户满意度和降低运营成本方面表现出显著优势,在实际部署中观察到93.53%的相对改进。

🔬 方法详解

问题定义:电商客户支持场景中,用户经常提出涉及图像和文本的复杂问题,例如“这件衬衫搭配哪条裤子好看?”。现有方法难以有效处理这种多模态信息,导致用户体验差,人工客服成本高。

核心思路:将多模态大语言模型(MLLM)视为工具,通过模块化的方式,赋予其记忆、决策和行动能力。这种“MLLM-as-Tool”策略能够更好地利用MLLM的视觉-文本推理能力,解决复杂的多模态问题。

技术框架:MindFlow基于CoALA框架构建,包含以下主要模块:1) 记忆模块:用于存储和检索历史对话信息;2) 决策模块:根据用户查询和历史信息,决定下一步行动;3) 行动模块:执行具体的操作,例如搜索商品、生成回复等。MLLM作为行动模块中的一个工具,负责处理视觉-文本推理任务。

关键创新:核心创新在于“MLLM-as-Tool”的模块化设计。与直接使用MLLM进行端到端对话不同,MindFlow将MLLM嵌入到更完善的Agent框架中,使其能够更好地与其他模块协同工作,从而更有效地解决复杂问题。

关键设计:具体的技术细节包括:1) 记忆模块采用向量数据库存储历史对话信息,并使用相似度搜索进行信息检索;2) 决策模块使用强化学习训练,以优化Agent的决策策略;3) 行动模块中,MLLM采用预训练模型,并通过微调来适应电商客户支持场景。损失函数包括对话流畅度损失和用户满意度损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在线A/B测试结果表明,MindFlow在处理复杂查询方面表现出显著优势,用户满意度得到显著提升,运营成本有效降低。在实际部署中,MindFlow实现了93.53%的相对改进,证明了其在真实电商环境中的有效性。

🎯 应用场景

MindFlow可广泛应用于电商平台的智能客服系统,能够自动处理用户提出的复杂多模态问题,提高用户满意度,降低人工客服成本。此外,该技术还可以扩展到其他需要视觉-文本推理能力的场景,例如智能家居、自动驾驶等。

📄 摘要(原文)

Recent advances in large language models (LLMs) have enabled new applications in e-commerce customer service. However, their capabilities remain constrained in complex, multimodal scenarios. We present MindFlow, the first open-source multimodal LLM agent tailored for e-commerce. Built on the CoALA framework, it integrates memory, decision-making, and action modules, and adopts a modular "MLLM-as-Tool" strategy for effect visual-textual reasoning. Evaluated via online A/B testing and simulation-based ablation, MindFlow demonstrates substantial gains in handling complex queries, improving user satisfaction, and reducing operational costs, with a 93.53% relative improvement observed in real-world deployments.