ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

作者: Alejandro D. Mousist

分类: cs.RO, cs.AI, cs.LG, cs.MA, eess.SY

发布日期: 2025-09-16 (更新: 2025-10-11)

备注: Accepted for presentation at the European Space Agency's AI Start 2025 Conference (see https://atpi.eventsair.com/ai-star-2025/)

💡 一句话要点

ASTREA：面向轨道热自主性的Agentic智能系统

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 航天器热控制 自主系统 大型语言模型 强化学习 在轨验证

📋 核心要点

现有航天器热控制系统对地面指令依赖性强，缺乏自主适应轨道环境变化的能力。
ASTREA提出了一种基于LLM Agent和强化学习控制器的混合架构，利用LLM进行语义推理和决策。
在国际空间站的在轨实验验证了ASTREA的有效性，提高了热稳定性，减少了违规情况，并优化了资源利用率。

📝 摘要（中文）

本文介绍了ASTREA，这是首个在飞行验证硬件（TRL 9）上执行的、用于自主航天器操作的Agentic系统，已在国际空间站（ISS）上进行在轨运行。以热控制作为代表性用例，我们将资源受限的大型语言模型（LLM）Agent与强化学习控制器集成在一个为空间合格平台定制的异步架构中。地面实验表明，LLM引导的监督提高了热稳定性并减少了违规情况，证实了在硬件约束下将语义推理与自适应控制相结合的可行性。在国际空间站上的在轨验证最初面临挑战，原因是推理延迟与近地轨道（LEO）卫星的快速热循环不匹配。与轨道长度同步后，成功超越了基线，减少了违规情况，延长了episode持续时间，并提高了CPU利用率。这些发现证明了未来自主航天器中可扩展的Agentic监督架构的潜力。

🔬 方法详解

问题定义：论文旨在解决航天器热控制系统中自主性不足的问题。传统的热控制系统依赖于地面人员的指令，难以快速响应轨道环境的变化，导致热稳定性下降和资源浪费。现有方法缺乏将高级语义推理与自适应控制相结合的能力。

核心思路：论文的核心思路是将大型语言模型（LLM）Agent引入热控制系统，利用LLM的语义推理能力来指导强化学习控制器。LLM Agent可以根据环境状态和任务目标生成高级指令，从而实现更智能、更自主的热控制。这种混合架构旨在克服传统方法的局限性，提高系统的鲁棒性和适应性。

技术框架：ASTREA的整体架构是一个异步系统，包含以下主要模块：1) 环境感知模块：收集航天器的温度、姿态等数据。2) LLM Agent：接收环境数据，进行语义推理，生成控制指令。3) 强化学习控制器：根据LLM的指令和环境状态，执行具体的控制动作。4) 执行器：调整加热器、散热器等设备，实现热控制。这些模块以异步方式运行，以适应空间平台的资源约束。

关键创新：最重要的技术创新点是将LLM Agent引入航天器热控制系统，实现语义推理与自适应控制的结合。与传统的基于规则或模型的控制方法相比，ASTREA能够更好地理解环境变化，并做出更智能的决策。此外，该系统采用异步架构，降低了对计算资源的要求，使其能够在空间合格平台上运行。

关键设计：LLM Agent使用资源受限的LLM，并针对热控制任务进行了微调。强化学习控制器采用深度Q网络（DQN）算法，并根据实际硬件的特性进行了优化。为了解决推理延迟问题，论文提出了与轨道长度同步的策略，确保LLM Agent的指令能够及时生效。此外，论文还设计了奖励函数，鼓励系统保持热稳定性并减少违规情况。

🖼️ 关键图片

📊 实验亮点

地面实验表明，LLM引导的监督提高了热稳定性并减少了违规情况。在国际空间站的在轨验证中，与轨道长度同步后，ASTREA成功超越了基线，减少了违规情况，延长了episode持续时间，并提高了CPU利用率。这些结果证明了ASTREA在实际空间环境中的有效性。

🎯 应用场景

ASTREA技术可应用于各类航天器，实现自主热控制、电源管理、姿态控制等功能。该研究成果有助于降低航天器运行成本，提高任务执行效率，并为深空探测等复杂任务提供更可靠的保障。未来，该技术有望推广到其他资源受限的嵌入式系统中，例如无人机、机器人等。

📄 摘要（原文）

This paper presents ASTREA, the first agentic system executed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations, with on-orbit operation aboard the International Space Station (ISS). Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility of combining semantic reasoning with adaptive control under hardware constraints. On-orbit validation aboard the ISS initially faced challenges due to inference latency misaligned with the rapid thermal cycles of Low Earth Orbit (LEO) satellites. Synchronization with the orbit length successfully surpassed the baseline with reduced violations, extended episode durations, and improved CPU utilization. These findings demonstrate the potential for scalable agentic supervision architectures in future autonomous spacecraft.

ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理