Empowering Real-World: A Survey on the Technology, Practice, and Evaluation of LLM-driven Industry Agents

📄 arXiv: 2510.17491v1 📥 PDF

作者: Yihong Tang, Kehai Chen, Liang Yue, Jinxin Fan, Caishen Zhou, Xiaoguang Li, Yuyang Zhang, Mingming Zhao, Shixiong Kai, Kaiyang Guo, Xingshan Zeng, Wenjing Cun, Lifeng Shang, Min Zhang

分类: cs.CL

发布日期: 2025-10-20


💡 一句话要点

综述LLM驱动的工业Agent技术、实践与评估,赋能真实世界应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工业Agent 自主Agent 能力成熟度框架 行业应用

📋 核心要点

  1. 现有通用Agent研究难以转化为实际工业生产力,面临着应用场景适配和能力评估的挑战。
  2. 本文构建工业Agent能力成熟度框架,从技术、应用和评估三个维度系统性地分析了LLM驱动的工业Agent。
  3. 综述探讨了工业Agent在不同领域的应用,并分析了现有评估体系在真实性、安全性和行业特异性方面存在的不足。

📝 摘要(中文)

随着大型语言模型(LLMs)的兴起,具备自主推理、规划和执行复杂任务能力的LLM Agent已成为人工智能领域的前沿。然而,如何将通用Agent的研究转化为推动产业变革的生产力仍然是一个重大挑战。为了解决这个问题,本文系统地回顾了基于LLM的工业Agent的技术、应用和评估方法。通过一个工业Agent能力成熟度框架,概述了Agent在工业应用中的演变,从“流程执行系统”到“自适应社会系统”。首先,我们研究了支持Agent能力提升的三个关键技术支柱:记忆、规划和工具使用。我们讨论了这些技术如何从早期支持简单任务发展到支持复杂自主系统和集体智能。然后,我们概述了工业Agent在数字工程、科学发现、具身智能、协同业务执行和复杂系统仿真等实际领域的应用。此外,本文还回顾了基础和专业能力的评估基准和方法,识别了现有评估系统在真实性、安全性和行业特异性方面面临的挑战。最后,我们关注工业Agent面临的实际挑战,探讨了它们在各种场景中的能力边界、发展潜力和治理问题,同时为未来的发展方向提供了见解。通过将技术演进与行业实践相结合,本综述旨在阐明当前状态,并为理解和构建下一代工业Agent提供清晰的路线图和理论基础。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)Agent在通用任务上表现出色,但将其应用于实际工业场景时,面临着诸多挑战。这些挑战包括:如何有效地利用LLM的推理和规划能力来解决特定行业的复杂问题;如何保证Agent在工业环境中的安全性和可靠性;以及如何针对不同行业的特点,设计合适的评估指标和方法。现有方法往往缺乏对行业特性的深入理解,导致Agent在实际应用中表现不佳。

核心思路:本文的核心思路是构建一个工业Agent能力成熟度框架,从技术、应用和评估三个维度系统性地分析LLM驱动的工业Agent。通过分析Agent在不同行业中的应用案例,总结出Agent能力发展的演进路径,并识别出当前面临的挑战和未来的发展方向。这种框架性的分析有助于研究人员和工程师更好地理解和构建下一代工业Agent。

技术框架:本文的技术框架主要包括三个部分:技术支柱、应用领域和评估方法。技术支柱包括记忆、规划和工具使用,这些是Agent实现自主推理和执行任务的关键能力。应用领域涵盖数字工程、科学发现、具身智能、协同业务执行和复杂系统仿真等多个行业。评估方法则包括基础能力评估和专业能力评估,旨在全面评估Agent的性能和可靠性。

关键创新:本文的关键创新在于提出了一个工业Agent能力成熟度框架,该框架将Agent的能力发展划分为不同的阶段,并分析了每个阶段的关键技术和应用场景。此外,本文还深入探讨了现有评估体系在真实性、安全性和行业特异性方面存在的不足,并提出了改进建议。

关键设计:本文并没有提出具体的算法或模型,而是一个综述性的研究。关键设计体现在对工业Agent的分类和分析框架上,例如,将Agent的能力发展划分为“流程执行系统”到“自适应社会系统”等不同阶段,并针对每个阶段的关键技术和应用场景进行深入分析。此外,本文还强调了在评估Agent性能时,需要考虑真实性、安全性和行业特异性等因素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

本文系统性地回顾了LLM驱动的工业Agent的技术、应用和评估方法,并提出了一个工业Agent能力成熟度框架。该框架有助于研究人员和工程师更好地理解和构建下一代工业Agent。此外,本文还深入探讨了现有评估体系在真实性、安全性和行业特异性方面存在的不足,为未来的研究提供了重要的参考。

🎯 应用场景

该研究成果可应用于多个工业领域,例如智能制造、智慧城市、智能交通等。通过构建LLM驱动的工业Agent,可以实现生产流程的自动化、资源配置的优化和决策效率的提升。未来,随着LLM技术的不断发展,工业Agent将在推动产业升级和经济发展方面发挥更大的作用。

📄 摘要(原文)

With the rise of large language models (LLMs), LLM agents capable of autonomous reasoning, planning, and executing complex tasks have become a frontier in artificial intelligence. However, how to translate the research on general agents into productivity that drives industry transformations remains a significant challenge. To address this, this paper systematically reviews the technologies, applications, and evaluation methods of industry agents based on LLMs. Using an industry agent capability maturity framework, it outlines the evolution of agents in industry applications, from "process execution systems" to "adaptive social systems." First, we examine the three key technological pillars that support the advancement of agent capabilities: Memory, Planning, and Tool Use. We discuss how these technologies evolve from supporting simple tasks in their early forms to enabling complex autonomous systems and collective intelligence in more advanced forms. Then, we provide an overview of the application of industry agents in real-world domains such as digital engineering, scientific discovery, embodied intelligence, collaborative business execution, and complex system simulation. Additionally, this paper reviews the evaluation benchmarks and methods for both fundamental and specialized capabilities, identifying the challenges existing evaluation systems face regarding authenticity, safety, and industry specificity. Finally, we focus on the practical challenges faced by industry agents, exploring their capability boundaries, developmental potential, and governance issues in various scenarios, while providing insights into future directions. By combining technological evolution with industry practices, this review aims to clarify the current state and offer a clear roadmap and theoretical foundation for understanding and building the next generation of industry agents.