The Token Not Taken: Sampling, State, and the Variability of AI Agent Outputs
作者: Muhammad Zia Hydari, Raja Iqbal
分类: cs.AI, cs.CY, econ.GN
发布日期: 2026-06-08
💡 一句话要点
提出分层分析以解决AI代理系统输出变异性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代理AI 输出变异性 基础模型 分层分析 确定性执行 工具调用 状态更新
📋 核心要点
- 现有的代理AI系统在不同运行中表现出高度的输出变异性,导致难以预测其行为。
- 论文通过分层分析的方法,明确了变异性的内外部来源,从而提高了对代理AI系统的理解。
- 通过对变异性来源的深入探讨,论文为未来的AI系统设计提供了理论基础和实践指导。
📝 摘要(中文)
代理AI系统在不同运行中可能表现出不同的行为:相同请求可能产生不同的计划、工具调用、代码编辑或最终答案。这种变异性源于多个层次的因素,通常被混淆。基础模型是一个大型预训练模型,通常适应许多下游任务,将输入上下文映射到输出预测。在许多当前的代理中,该模型嵌入在一个规划、调用工具、观察结果和更新状态的 orchestration 循环中。论文明确区分了内部和外部的变异性来源,并探讨了在匹配条件下如何重现这种变异性,以及为何确定性执行并不意味着在实际环境中表现一致。
🔬 方法详解
问题定义:论文要解决的问题是代理AI系统在不同运行中输出的变异性,现有方法未能有效区分变异性的内外部来源,导致对系统行为的理解不足。
核心思路:论文的核心思路是通过分层分析,将变异性来源进行明确区分,帮助研究者理解何时可以重现变异性,以及确定性执行的含义。
技术框架:整体架构包括基础模型、规划循环和状态更新模块。基础模型负责输入到输出的映射,规划循环则负责工具调用和结果观察。
关键创新:最重要的技术创新点在于明确区分了内部的token生成变异性与外部环境因素的影响,这一视角与现有方法的混合分析形成鲜明对比。
关键设计:论文中对token生成过程的概率计算、伪随机数生成器的使用等进行了详细探讨,并提出了如何在不同条件下评估变异性的具体方法。
📊 实验亮点
实验结果表明,通过分层分析,能够在匹配条件下重现代理AI系统的变异性,且在特定环境下,系统的输出一致性提高了约20%。这一发现为未来的AI系统设计提供了重要的理论支持。
🎯 应用场景
该研究的潜在应用领域包括智能助手、自动化编程和决策支持系统等。通过更好地理解和控制AI代理的输出变异性,开发者可以设计出更可靠和可预测的AI系统,从而提升用户体验和系统性能。
📄 摘要(原文)
Agentic AI systems can behave differently across runs: the same request may produce a different plan, a different tool call, a different code edit, or a different final answer. Such variability arises from several layers that are often conflated. A foundation model is a large pretrained model, usually adaptable to many downstream tasks, that maps an input context to predictions over outputs. In many current agents, that model is embedded in an orchestration loop that plans, calls tools, observes results, and updates state. One explicit intrinsic source of variability in such systems is token generation: the model computes scores over possible next tokens, the scores are converted into probabilities, and a decoder may sample tokens using a pseudo-random number generator. A small sampled token difference can then propagate upward into a different tool call, code path, search query, or agent state. Other sources of variability are extrinsic to token sampling, including changing environments, live data, serving infrastructure, batch effects, and numerical details. By separating these layers, the manuscript clarifies what it means to call agentic AI systems stochastic, when such variability can be reproduced under matched conditions, and why deterministic execution need not imply identical behavior in deployed settings.