No Action Without a NOD: A Heterogeneous Multi-Agent Architecture for Reliable Service Agents

📄 arXiv: 2605.12240v1 📥 PDF

作者: Zixu Yang, Hang Zheng, Nan Jiang, Zhiyang Tang, Situo Zhang, Xiaobao Wu, Lu Chen, Kai Yu

分类: cs.AI

发布日期: 2026-05-12


💡 一句话要点

提出NOD异构多Agent架构,提升服务Agent在长程任务中的可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多Agent系统 大型语言模型 服务Agent 任务规划 可靠性

📋 核心要点

  1. 现有LLM服务Agent在长程任务中可靠性不足,易出现策略违规、工具幻觉等问题,阻碍实际应用。
  2. NOD架构通过外化全局状态进行显式任务跟踪,并引入Director Agent进行外部监督,从而提升可靠性。
  3. 实验表明,NOD在任务成功率和关键操作精度上优于基线,并有效减少了策略违规和工具幻觉。

📝 摘要(中文)

大型语言模型(LLM) Agent在服务应用中日益普及,例如预订机票。然而,这些服务Agent在长程任务中存在不可靠性问题,常常产生策略违规、工具幻觉和行为错位,严重阻碍了它们的实际部署。为了解决这些挑战,我们提出了NOD(Navigator-Operator-Director),一种用于服务Agent的异构多Agent架构。与先前工作在对话上下文中隐式维护任务状态不同,我们外化了一个结构化的全局状态,以实现显式的任务状态跟踪和Navigator的一致决策。此外,我们在关键操作之前引入选择性的外部监督,允许独立的Director Agent验证执行并在必要时进行干预。因此,NOD有效地缓解了长程任务中的错误传播和不安全行为。在$τ^2$-Bench上的实验表明,NOD比基线方法实现了更高的任务成功率和关键操作精度。更重要的是,NOD通过减少策略违规、工具幻觉和用户意图错位,提高了服务Agent的可靠性。

🔬 方法详解

问题定义:现有的大型语言模型服务Agent在处理需要长期规划和执行的任务时,容易出现不可靠的问题。具体表现为:策略违规(违反预设的规则或约束)、工具幻觉(错误地使用或想象不存在的工具)以及用户意图错位(未能准确理解用户的需求)。这些问题导致任务失败,降低用户体验,并限制了这些Agent在实际场景中的应用。

核心思路:NOD的核心思路是将Agent的决策过程分解为三个不同的角色:Navigator(导航者)、Operator(执行者)和Director(指导者)。Navigator负责维护全局状态,进行任务规划和决策;Operator负责执行具体的动作;Director负责监督Operator的执行,并在必要时进行干预。通过这种角色分离和外部监督,可以有效地减少错误传播,提高Agent的可靠性。

技术框架:NOD架构包含三个主要模块:Navigator、Operator和Director。Navigator负责维护一个结构化的全局状态,该状态包含了任务的当前状态、目标和约束。Navigator根据全局状态和用户输入,生成下一步要执行的动作。Operator接收Navigator的指令,并执行相应的动作。Director在关键动作执行前进行监督,验证Operator的执行是否符合预期,并在必要时进行干预,例如纠正错误或阻止不安全的操作。整个流程是一个迭代的过程,Navigator不断更新全局状态,并指导Operator执行动作,直到任务完成。

关键创新:NOD的关键创新在于引入了异构多Agent架构,并将任务状态显式地外化为一个结构化的全局状态。与以往隐式地在对话上下文中维护任务状态的方法不同,NOD的全局状态可以更清晰地跟踪任务的进展,并支持Navigator做出更一致的决策。此外,Director的外部监督机制可以有效地防止错误传播,提高Agent的安全性。

关键设计:NOD的关键设计包括:全局状态的结构化表示(例如,使用键值对或图结构来表示任务状态),Navigator的决策策略(例如,使用强化学习或规划算法来选择下一步动作),以及Director的监督策略(例如,使用规则或机器学习模型来判断Operator的执行是否正确)。论文中可能还涉及一些超参数的设置,例如Director的干预阈值,以及各个Agent所使用的语言模型的选择。

📊 实验亮点

实验结果表明,NOD在$τ^2$-Bench基准测试中,相比于基线方法,显著提高了任务成功率和关键操作的精度。具体来说,NOD在任务成功率方面提升了X%(具体数值未知),在关键操作精度方面提升了Y%(具体数值未知)。更重要的是,NOD有效地减少了策略违规、工具幻觉和用户意图错位等问题,从而提高了服务Agent的整体可靠性。

🎯 应用场景

NOD架构具有广泛的应用前景,可以应用于各种需要长期规划和执行的服务场景,例如:智能客服、自动化流程管理、智能家居控制、自动驾驶等。通过提高Agent的可靠性和安全性,NOD可以促进这些Agent在实际场景中的部署和应用,从而提高生产效率和用户体验。此外,NOD的架构设计也可以为其他多Agent系统的设计提供借鉴。

📄 摘要(原文)

Large language model (LLM) agents have increasingly advanced service applications, such as booking flight tickets. However, these service agents suffer from unreliability in long-horizon tasks, as they often produce policy violations, tool hallucinations, and misaligned actions, which greatly impedes their real-world deployment. To address these challenges, we propose NOD (Navigator-Operator-Director), a heterogeneous multi-agent architecture for service agents. Instead of maintaining task state implicitly in dialogue context as in prior work, we externalize a structured Global State to enable explicit task state tracking and consistent decision-making by the Navigator. Besides, we introduce selective external oversight before critical actions, allowing an independent Director agent to verify execution and intervene when necessary. As such, NOD effectively mitigates error propagation and unsafe behavior in long-horizon tasks. Experiments on $τ^2$-Bench demonstrate that NOD achieves higher task success rates and critical action precision over baselines. More importantly, NOD improves the reliability of service agents by reducing policy violations, tool hallucinations, and user-intent misalignment.