[Emerging Ideas] Artificial Tripartite Intelligence: A Bio-Inspired, Sensor-First Architecture for Physical AI

📄 arXiv: 2604.13959v1 📥 PDF

作者: You Rim Choi, Subeom Park, Hyung-Sin Kim

分类: cs.AI

发布日期: 2026-04-15

DOI: 10.1145/3745756.3809242


💡 一句话要点

提出人工三方智能ATI架构,解决物理AI中传感器与推理协同优化问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 物理AI 具身智能 传感器融合 自适应感知 边缘计算

📋 核心要点

  1. 物理AI面临延迟、能耗和隐私等约束,传统方法侧重模型规模,忽略了传感器信号获取的重要性。
  2. 论文提出人工三方智能(ATI)架构,模仿生物神经系统,实现传感器控制、自适应感知和推理的协同进化。
  3. 实验表明,ATI通过自适应感知显著提升了端到端准确率,并降低了远程推理的调用频率,验证了感知与推理协同设计的价值。

📝 摘要(中文)

随着人工智能从数据中心走向机器人和可穿戴设备,仅仅扩展更大的模型是不够的。物理人工智能在严格的延迟、能量、隐私和可靠性约束下运行,其性能不仅取决于模型容量,还取决于如何在动态环境中通过可控传感器获取信号。我们提出了人工三方智能(ATI),这是一种受生物学启发的、传感器优先的物理人工智能架构约定。ATI在系统层面是三方的:脑干(L1)提供反射安全和信号完整性控制,小脑(L2)执行连续传感器校准,大脑推理子系统(L3/L4)支持例行技能选择和执行、协调和深度推理。这种模块化组织允许传感器控制、自适应感知、边缘-云执行和基础模型推理在同一个闭环架构中共同进化,同时保持时间关键的感知和控制在设备上,仅在需要时调用更高级别的推理。我们在动态光照和运动下的移动相机原型中实例化了ATI。在我们的路由评估(L3-L4拆分推理)中,与默认的自动曝光设置相比,ATI(L1/L2自适应感知)将端到端准确率从53.8%提高到88%,同时减少了远程L4调用的43.3%。这些结果表明了为具身人工智能共同设计感知和推理的价值。

🔬 方法详解

问题定义:物理AI需要在资源受限的环境中运行,现有方法通常只关注模型规模的扩展,而忽略了传感器信号获取和处理的重要性。在动态环境中,传感器数据质量会严重影响最终的推理结果,因此需要一种能够自适应调整传感器参数并进行有效推理的架构。

核心思路:论文的核心思路是模仿生物神经系统的结构,将物理AI系统分解为三个层次:脑干(L1)、小脑(L2)和大脑(L3/L4)。这种分层结构允许系统在不同层次上进行不同的处理,从而实现传感器控制、自适应感知和推理的协同优化。通过将时间敏感的任务放在边缘设备上处理,可以降低延迟并提高系统的可靠性。

技术框架:ATI架构包含以下三个主要模块: 1. 脑干(L1):负责提供反射安全和信号完整性控制,确保传感器数据的质量。 2. 小脑(L2):负责执行连续传感器校准,根据环境变化自适应调整传感器参数。 3. 大脑推理子系统(L3/L4):负责例行技能选择和执行、协调和深度推理。L3/L4可以部署在边缘或云端,根据任务的复杂程度进行选择。

关键创新:ATI的关键创新在于其传感器优先的设计理念和三方分层架构。与传统方法不同,ATI将传感器控制和自适应感知放在首位,通过L1和L2层来保证传感器数据的质量。这种设计允许系统在动态环境中自适应调整,从而提高整体性能。此外,ATI的三方分层架构使得系统可以灵活地在边缘和云端之间分配计算任务,从而实现最佳的性能和能效。

关键设计:在移动相机原型中,L1负责控制相机的曝光和增益,以确保图像的亮度适中。L2使用强化学习算法来训练一个自适应感知模型,该模型可以根据环境光照和运动情况自动调整相机参数。L3/L4使用深度学习模型进行图像分类和目标检测。论文采用了一种路由策略,根据任务的复杂程度将推理任务分配到边缘或云端。具体的技术细节包括强化学习算法的选择、深度学习模型的结构以及路由策略的实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在移动相机原型实验中,ATI通过L1/L2自适应感知,将端到端准确率从默认自动曝光设置的53.8%提高到88%,提升显著。同时,ATI还减少了43.3%的远程L4推理调用,表明其在边缘设备上进行更多处理的能力,从而降低了延迟和网络带宽需求。

🎯 应用场景

ATI架构可应用于各种需要实时感知和推理的物理AI场景,如自动驾驶、机器人导航、智能监控和可穿戴设备。通过优化传感器控制和自适应感知,ATI可以提高这些应用在复杂环境中的性能和可靠性,并降低能耗。未来,ATI有望成为物理AI系统设计的重要参考架构。

📄 摘要(原文)

As AI moves from data centers to robots and wearables, scaling ever-larger models becomes insufficient. Physical AI operates under tight latency, energy, privacy, and reliability constraints, and its performance depends not only on model capacity but also on how signals are acquired through controllable sensors in dynamic environments. We present Artificial Tripartite Intelligence (ATI), a bio-inspired, sensor-first architectural contract for physical AI. ATI is tripartite at the systems level: a Brainstem (L1) provides reflexive safety and signal-integrity control, a Cerebellum (L2) performs continuous sensor calibration, and a Cerebral Inference Subsystem spanning L3/L4 supports routine skill selection and execution, coordination, and deep reasoning. This modular organization allows sensor control, adaptive sensing, edge-cloud execution, and foundation model reasoning to co-evolve within one closed-loop architecture, while keeping time-critical sensing and control on device and invoking higher-level inference only when needed. We instantiate ATI in a mobile camera prototype under dynamic lighting and motion. In our routed evaluation (L3-L4 split inference), compared to the default auto-exposure setting, ATI (L1/L2 adaptive sensing) improves end-to-end accuracy from 53.8% to 88% while reducing remote L4 invocations by 43.3%. These results show the value of co-designing sensing and inference for embodied AI.