A Context Engineering Framework for Improving Enterprise AI Agents based on Digital-Twin MDP

作者: Xi Yang, Aurelie Lozano, Naoki Abe, Bhavya, Saurabh Jha, Noah Zheutlin, Rohan R. Arora, Yu Deng, Daby M. Sow

分类: cs.AI

发布日期: 2026-03-23

💡 一句话要点

提出基于数字孪生MDP的上下文工程框架，提升企业AI Agent性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 企业AI Agent 离线强化学习 数字孪生 逆强化学习 上下文工程 IT自动化 马尔可夫决策过程

📋 核心要点

企业AI Agent受限于数据质量和数量、复杂推理需求、自博弈困难和可靠反馈信号的缺乏。
提出DT-MDP-CE框架，利用数字孪生MDP和对比逆强化学习，从离线数据中学习并优化Agent的决策上下文。
在IT自动化任务上的实验表明，该框架能显著提升Agent性能，并具备推广到其他企业Agent的潜力。

📝 摘要（中文）

本文提出了一种轻量级的、模型无关的框架，用于通过离线强化学习（RL）改进基于LLM的企业Agent。该框架名为DT-MDP-CE，即基于数字孪生MDP的上下文工程。它包含三个关键组成部分：（1）数字孪生马尔可夫决策过程（DT-MDP），将Agent的推理行为抽象为有限MDP；（2）稳健的对比逆强化学习，利用DT-MDP高效估计合理的奖励函数，并从混合质量的离线轨迹中诱导策略；（3）RL引导的上下文工程，利用从（1）和（2）的集成过程中获得的策略来改进Agent的决策行为。作为一个案例研究，我们将该框架应用于面向企业的IT自动化领域中的代表性任务。广泛的实验结果表明，在各种评估设置下，该框架相对于基线Agent具有一致且显著的改进，表明该框架可以推广到企业环境中具有相似特征的其他Agent。

🔬 方法详解

问题定义：企业AI Agent在实际部署中面临数据质量低、数据量不足的问题，导致Agent难以进行复杂的推理和决策。此外，缺乏有效的自博弈机制和可靠的反馈信号也限制了Agent性能的进一步提升。现有方法难以有效利用有限的、质量参差不齐的离线数据来提升Agent的决策能力。

核心思路：本文的核心思路是将Agent的推理过程建模为数字孪生马尔可夫决策过程（DT-MDP），从而将复杂的Agent行为抽象为一个可控的MDP。然后，利用对比逆强化学习，从混合质量的离线轨迹中学习一个合理的奖励函数，并诱导出一个策略。最后，利用该策略来指导上下文工程，从而改进Agent的决策行为。这种方法的核心在于利用DT-MDP来简化Agent的推理过程，并利用逆强化学习来从离线数据中学习有用的信息。

技术框架：DT-MDP-CE框架包含三个主要模块：（1）数字孪生MDP（DT-MDP）：将Agent的推理行为抽象为有限MDP，定义状态空间、动作空间和转移概率。（2）对比逆强化学习：利用DT-MDP，从混合质量的离线轨迹中学习奖励函数和策略。采用对比学习的方法，区分高质量和低质量的轨迹，从而学习更鲁棒的奖励函数。（3）RL引导的上下文工程：利用学习到的策略，改进Agent的决策上下文，例如，通过调整Agent的输入特征或修改Agent的决策规则。

关键创新：该框架的关键创新在于将数字孪生技术与逆强化学习相结合，从而能够有效地从有限的、质量参差不齐的离线数据中学习Agent的决策策略。与传统的强化学习方法相比，该框架不需要大量的在线交互，因此更适合于企业环境。此外，该框架采用对比学习的方法来学习奖励函数，从而提高了奖励函数的鲁棒性。

关键设计：DT-MDP的设计需要仔细考虑状态空间和动作空间的定义，以确保能够准确地反映Agent的推理过程。对比逆强化学习需要选择合适的对比损失函数，以区分高质量和低质量的轨迹。RL引导的上下文工程需要设计有效的上下文改进策略，例如，通过调整Agent的输入特征或修改Agent的决策规则。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DT-MDP-CE框架在IT自动化任务上显著优于基线Agent。在各种评估设置下，该框架都取得了持续的改进，证明了其有效性和泛化能力。具体的性能提升数据（例如，任务完成率、错误率等）在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于各种企业AI Agent的优化，例如IT自动化、客户服务、供应链管理等领域。通过利用离线数据和数字孪生技术，可以显著提升Agent的决策能力和自动化水平，从而提高企业效率和降低成本。该框架还可用于训练新的Agent，或对现有Agent进行微调，以适应新的任务和环境。

📄 摘要（原文）

Despite rapid progress in AI agents for enterprise automation and decision-making, their real-world deployment and further performance gains remain constrained by limited data quality and quantity, complex real-world reasoning demands, difficulties with self-play, and the lack of reliable feedback signals. To address these challenges, we propose a lightweight, model-agnostic framework for improving LLM-based enterprise agents via offline reinforcement learning (RL). The proposed Context Engineering via DT-MDP (DT-MDP-CE) framework comprises three key components: (1) A Digital-Twin Markov Decision Process (DT-MDP), which abstracts the agent's reasoning behavior as a finite MDP; (2) A robust contrastive inverse RL, which, armed with the DT-MDP, to efficiently estimate a well-founded reward function and induces policies from mixed-quality offline trajectories; and (3) RL-guided context engineering, which uses the policy obtained from the integrated process of (1) and (2), to improve the agent's decision-making behavior. As a case study, we apply the framework to a representative task in the enterprise-oriented domain of IT automation. Extensive experimental results demonstrate consistent and significant improvements over baseline agents across a wide range of evaluation settings, suggesting that the framework can generalize to other agents sharing similar characteristics in enterprise environments.

A Context Engineering Framework for Improving Enterprise AI Agents based on Digital-Twin MDP

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理