Can LLMs Do Rocket Science? Exploring the Limits of Complex Reasoning with GTOC 12
作者: Iñaki del Campo, Pablo Cuervo, Victor Rodriguez-Fernandez, Roberto Armellin, Jack Yarndley
分类: cs.AI
发布日期: 2026-02-03
备注: Extended version of the paper presented at AIAA SciTech 2026 Forum. Includes futher experiments, corrections and new appendix
期刊: Proceedings of the AIAA SciTech 2026 Forum, January 2026
DOI: 10.2514/6.2026-2379
💡 一句话要点
评估LLM在复杂航天任务中的能力:GTOC 12挑战
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 航天动力学 轨迹优化 GTOC 12 小行星采矿 自主规划 LLM评估
📋 核心要点
- 现有LLM在复杂物理约束环境中自主多阶段规划能力不足,尤其是在航天领域。
- 利用MLE-Bench框架和AIDE架构,结合LLM-as-a-Judge评估方法,测试LLM在GTOC 12中的表现。
- 实验表明LLM在战略层面可行性得分显著提升,但在具体执行层面仍存在较大差距。
📝 摘要(中文)
大型语言模型(LLM)在代码生成和通用推理方面表现出卓越的能力,但它们在具有高维度和物理约束的环境中进行自主多阶段规划的能力仍然是一个开放的研究问题。本研究通过评估LLM在第12届全球轨迹优化竞赛(GTOC 12)中的表现来研究当前AI智能体的局限性,GTOC 12是一个复杂的航天动力学挑战,需要设计大规模的小行星采矿活动。我们调整了MLE-Bench框架以适应轨道力学领域,并部署了基于AIDE的智能体架构来自主生成和改进任务解决方案。为了评估超出二元有效性的性能,我们采用了一种“LLM-as-a-Judge”方法,利用领域专家开发的评分标准来评估五个结构类别中的战略可行性。对GPT-4-Turbo到Gemini 2.5 Pro等模型的比较分析表明,战略可行性平均得分在过去两年几乎翻了一番(从9.3分上升到17.2分,总分26分)。然而,我们发现战略和执行之间存在关键的能力差距。虽然先进的模型表现出复杂的概念理解,正确地构建目标函数和任务架构,但由于物理单位不一致、边界条件错误和低效的调试循环,它们始终无法实现。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在解决复杂航天动力学问题,特别是GTOC 12挑战中的能力。现有方法,即人工设计的解决方案,耗时且依赖专家知识。LLM在代码生成和推理方面展现潜力,但其在高维度、物理约束环境下的自主规划能力仍待考察。现有LLM在处理物理单位、边界条件等方面存在不足,导致执行失败。
核心思路:论文的核心思路是利用LLM的知识和推理能力,辅助解决GTOC 12挑战。通过将问题分解为战略规划和具体执行两个阶段,评估LLM在不同阶段的表现。采用“LLM-as-a-Judge”方法,利用专家知识对LLM生成的解决方案进行评估,从而更全面地了解LLM的能力。
技术框架:整体框架包括以下几个主要模块:1) MLE-Bench框架的适配,使其适用于轨道力学领域;2) 基于AIDE的智能体架构,用于自主生成和改进任务解决方案;3) LLM(如GPT-4-Turbo, Gemini 2.5 Pro)作为问题求解器;4) “LLM-as-a-Judge”模块,利用领域专家设计的评分标准,对LLM生成的方案进行战略可行性评估。
关键创新:论文的关键创新在于:1) 将LLM应用于GTOC 12这一复杂的航天问题,探索LLM在航天领域的应用潜力;2) 采用“LLM-as-a-Judge”方法,对LLM生成的方案进行战略可行性评估,弥补了传统二元评估方法的不足;3) 揭示了LLM在战略规划和具体执行之间的能力差距,为后续研究提供了方向。
关键设计:论文的关键设计包括:1) MLE-Bench框架的适配,需要将轨道力学相关的知识和约束融入到框架中;2) AIDE智能体架构的设计,需要考虑如何有效地利用LLM的知识和推理能力;3) “LLM-as-a-Judge”评分标准的设计,需要确保评分标准能够准确反映方案的战略可行性;4) 实验中,对不同LLM(如GPT-4-Turbo, Gemini 2.5 Pro)进行对比,评估不同模型的性能。
📊 实验亮点
实验结果表明,LLM在GTOC 12挑战中的战略可行性平均得分在过去两年几乎翻了一番(从9.3分上升到17.2分,总分26分)。这表明LLM在战略规划方面取得了显著进展。然而,实验也揭示了LLM在具体执行方面存在明显不足,例如物理单位不一致、边界条件错误等,导致任务执行失败。
🎯 应用场景
该研究成果可应用于航天任务设计、小行星探测、空间资源利用等领域。通过利用LLM的知识和推理能力,可以辅助工程师进行任务规划和方案设计,提高任务效率和降低成本。未来的研究可以进一步探索如何弥补LLM在具体执行方面的不足,使其能够真正成为自主的航天工程师。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated remarkable proficiency in code generation and general reasoning, yet their capacity for autonomous multi-stage planning in high-dimensional, physically constrained environments remains an open research question. This study investigates the limits of current AI agents by evaluating them against the 12th Global Trajectory Optimization Competition (GTOC 12), a complex astrodynamics challenge requiring the design of a large-scale asteroid mining campaign. We adapt the MLE-Bench framework to the domain of orbital mechanics and deploy an AIDE-based agent architecture to autonomously generate and refine mission solutions. To assess performance beyond binary validity, we employ an "LLM-as-a-Judge" methodology, utilizing a rubric developed by domain experts to evaluate strategic viability across five structural categories. A comparative analysis of models, ranging from GPT-4-Turbo to reasoning-enhanced architectures like Gemini 2.5 Pro, and o3, reveals a significant trend: the average strategic viability score has nearly doubled in the last two years (rising from 9.3 to 17.2 out of 26). However, we identify a critical capability gap between strategy and execution. While advanced models demonstrate sophisticated conceptual understanding, correctly framing objective functions and mission architectures, they consistently fail at implementation due to physical unit inconsistencies, boundary condition errors, and inefficient debugging loops. We conclude that, while current LLMs often demonstrate sufficient knowledge and intelligence to tackle space science tasks, they remain limited by an implementation barrier, functioning as powerful domain facilitators rather than fully autonomous engineers.