Kairos: A Scalable Serving System for Physical AI

📄 arXiv: 2605.11381v1 📥 PDF

作者: Yinwei Dai, Ganesh Ananthanarayanan, Landon Cox, Xenofon Foukas, Bozidar Radunovic, Ravi Netravali

分类: cs.RO, cs.DC

发布日期: 2026-05-12


💡 一句话要点

Kairos:一种可扩展的物理人工智能服务系统,优化生成-执行循环。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 物理人工智能 机器人服务系统 生成-执行循环 多机器人系统 任务延迟优化

📋 核心要点

  1. 现有数字AI服务系统难以满足物理AI任务多轮推理、异步执行的特点,导致效率低下。
  2. Kairos将生成-执行循环作为核心,主动参与执行阶段,优化推理和执行的交错过程。
  3. 实验表明,Kairos在多种物理AI任务和机器人上,显著降低了端到端任务延迟,提升幅度可达31.8%-66.5%。

📝 摘要(中文)

物理人工智能正经历快速增长,前沿基础模型不断提升其在通用环境中的能力。物理人工智能任务的推理特性与数字人工智能显著不同,包括多轮推理和动作执行,每轮推理生成一批动作,并异步交错进行推理和执行。这使得现有的数字人工智能服务系统不适用于物理人工智能,考虑到它们的大小以及必须服务的机器人 fleet 的规模,这是一个严重缺陷,阻碍了它们的广泛采用。为了填补这一空白,我们设计了 Kairos,这是第一个多机器人服务系统,它将生成-执行循环作为一等公民,并积极参与执行阶段。在广泛的物理人工智能模型和机器人中,Kairos 将平均端到端任务延迟比最先进的数字人工智能服务实践降低了 31.8%--66.5%,并且增益随着机器人 fleet 规模的扩大而增加。

🔬 方法详解

问题定义:论文旨在解决物理人工智能(Physical AI)任务中,现有数字人工智能服务系统无法有效支持其特有的推理和执行模式的问题。物理AI任务通常包含多轮推理和动作执行,并且推理和执行是异步交错进行的。现有的数字AI服务系统主要为单次推理设计,无法高效处理这种循环模式,导致延迟增加,资源利用率低。

核心思路:Kairos的核心思路是将“生成-执行”循环作为服务系统的核心组成部分,而不仅仅是简单的推理请求。通过主动参与执行阶段,Kairos能够更好地协调推理和执行,减少不必要的等待和延迟。这种设计允许系统根据执行状态动态调整推理策略,从而提高整体效率。

技术框架:Kairos的整体架构包含多个关键模块,包括:1) 请求调度器:负责接收来自多个机器人的推理请求,并根据资源可用性和优先级进行调度。2) 推理引擎:执行实际的AI模型推理,生成动作序列。3) 执行管理器:监控机器人的执行状态,并根据执行结果反馈给推理引擎,以便进行下一轮推理。4) 资源管理器:负责管理计算资源,并根据需求动态分配给不同的机器人。

关键创新:Kairos最重要的创新在于其对“生成-执行”循环的显式建模和优化。与传统的数字AI服务系统不同,Kairos不仅关注推理速度,还关注执行效率和推理-执行之间的协同。通过主动参与执行阶段,Kairos能够更好地适应物理AI任务的动态性和不确定性。

关键设计:Kairos的关键设计包括:1) 基于优先级的调度策略,允许系统优先处理对整体任务延迟影响最大的机器人请求。2) 动态资源分配机制,根据机器人的执行状态和推理需求,动态调整计算资源的分配。3) 基于反馈的推理策略调整,根据机器人的执行结果,动态调整推理参数和模型,以提高执行成功率。

📊 实验亮点

实验结果表明,Kairos在多种物理AI模型和机器人平台上,相比于最先进的数字AI服务系统,能够将端到端任务延迟降低31.8%到66.5%。更重要的是,随着机器人fleet规模的增加,Kairos的性能优势更加明显,这表明其具有良好的可扩展性,能够满足大规模物理AI应用的需求。

🎯 应用场景

Kairos可广泛应用于机器人、自动驾驶、智能制造等领域。通过优化物理AI任务的推理和执行流程,Kairos能够显著提高机器人的工作效率和智能化水平,降低运营成本,并为更复杂的物理AI应用提供支持。例如,在仓库自动化中,Kairos可以帮助机器人更高效地完成拣货和搬运任务;在自动驾驶中,Kairos可以提高车辆的决策速度和安全性。

📄 摘要(原文)

Physical AI is experiencing rapid growth with frontier foundation models increasing its capabilities across general environments. Physical AI tasks are characterized by inference properties that are markedly different from digital AI. They consist of multiple rounds of inference and action execution, generating a chunk of actions in each inference round, and asynchronously interleaving inference and execution. This makes existing digital AI serving systems unsuited for physical AI; a shortcoming that is critical for enabling their wide adoption, considering their size and the scale of the robot fleets they have to serve. To fill this gap, we design Kairos, the first multi-robot serving system that makes the generate-execute loop a first-class citizen, with active involvement in the execution phase. Across a wide range of physical AI models and robots, Kairos reduces the average end-to-end task latency by 31.8--66.5% over state-of-the-art digital AI serving practices, with gains scaling with the robot fleet size.