LexiCon: a Benchmark for Planning under Temporal Constraints in Natural Language

作者: Periklis Mantenoglou, Rishi Hazra, Pedro Zuidberg Dos Martires, Luc De Raedt

分类: cs.CL, cs.AI

发布日期: 2025-10-07

💡 一句话要点

LexiCon：一个用于评估LLM在自然语言时序约束下规划能力的基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 时序约束 规划任务 自然语言处理 基准测试 LLM评估 约束规划

📋 核心要点

现有LLM在规划任务中表现出色，但缺乏在时序约束下的评估，限制了其在现实场景中的应用。
LexiCon通过引入时序约束，并将问题转化为自然语言，来评估LLM在复杂约束下的规划能力。
实验表明，随着约束程度的增加，即使是最先进的LLM，如GPT-5，性能也会显著下降。

📝 摘要（中文）

大型语言模型（LLMs）因其推理能力，已在自然语言描述的规划任务中得到评估。然而，LLMs主要在没有约束的规划领域进行测试。为了将它们部署到对约束（特别是安全约束）的遵守至关重要的现实环境中，我们需要评估它们在受约束的规划任务中的性能。我们引入了LexiCon——一个基于自然语言（Lexi）的受约束（Con）规划基准，它由一系列环境组成，可以以一种原则性的方式评估LLMs的规划能力。LexiCon的核心思想是采用现有的规划环境，并对状态施加时间约束。然后，这些受约束的问题被翻译成自然语言，并交给LLM来解决。LexiCon的一个关键特性是它的可扩展性。也就是说，支持的环境集合可以通过新的（无约束）环境生成器来扩展，这些生成器可以自动构建时间约束。这使得LexiCon具有面向未来的能力：随着LLMs的规划能力提高，可以增加生成的规划问题的难度。我们的实验表明，随着规划任务的约束程度增加，包括GPT-5、o3和R1等推理模型在内的最先进LLMs的性能会下降。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在具有时间约束的规划任务中的性能评估问题。现有方法主要集中在无约束的规划领域，无法有效评估LLMs在现实世界中需要满足各种约束条件下的规划能力。因此，需要一个能够系统地评估LLMs在时序约束下规划能力的基准。

核心思路：论文的核心思路是构建一个名为LexiCon的基准，该基准通过在现有的规划环境中引入时间约束，并将这些受约束的问题转化为自然语言，然后交给LLMs解决。通过这种方式，可以评估LLMs在处理自然语言描述的、具有时间约束的规划问题时的能力。LexiCon的设计目标是可扩展的，允许添加新的无约束环境生成器，并自动构建相应的时间约束。

技术框架：LexiCon的整体框架包括以下几个主要步骤：1) 选择或创建无约束的规划环境；2) 在这些环境中引入时间约束，例如，某些动作必须在特定时间范围内完成；3) 将这些受约束的规划问题转化为自然语言描述；4) 将自然语言描述的问题输入到LLM中；5) 评估LLM生成的规划方案的有效性和对约束的满足程度。该框架的关键在于能够自动生成时间约束，并将其转化为自然语言。

关键创新：LexiCon的主要创新在于它提供了一个可扩展的、基于自然语言的、用于评估LLMs在时序约束下规划能力的基准。与以往主要关注无约束规划任务的评估方法不同，LexiCon强调了在现实世界中至关重要的时间约束。此外，LexiCon的可扩展性允许随着LLMs能力的提升，不断增加规划问题的难度。

关键设计：LexiCon的关键设计包括：1) 时间约束的自动生成机制，需要根据不同的规划环境设计不同的约束生成策略；2) 自然语言描述的生成方式，需要保证描述的清晰性和准确性，以便LLMs能够理解问题；3) 评估指标的设计，需要综合考虑规划方案的有效性和对时间约束的满足程度。具体的参数设置和损失函数取决于所使用的LLM和评估指标。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最先进的LLM，如GPT-5、o3和R1，在面对具有较高约束程度的规划任务时，性能也会显著下降。这表明现有LLM在处理复杂时序约束方面仍存在不足，LexiCon可以作为评估和改进LLM在此方面能力的有效工具。

🎯 应用场景

该研究成果可应用于机器人、自动化生产、智能交通等领域，帮助LLM在具有时序约束的实际场景中进行任务规划和决策。例如，在机器人任务中，可以规划机器人在特定时间窗口内完成一系列动作，从而提高任务效率和安全性。该基准的提出将促进LLM在约束规划方面的研究和应用。

📄 摘要（原文）

Owing to their reasoning capabilities, large language models (LLMs) have been evaluated on planning tasks described in natural language. However, LLMs have largely been tested on planning domains without constraints. In order to deploy them in real-world settings where adherence to constraints, in particular safety constraints, is critical, we need to evaluate their performance on constrained planning tasks. We introduce LexiCon -- a natural language-based (Lexi) constrained (Con) planning benchmark, consisting of a suite of environments, that can be used to evaluate the planning capabilities of LLMs in a principled fashion. The core idea behind LexiCon is to take existing planning environments and impose temporal constraints on the states. These constrained problems are then translated into natural language and given to an LLM to solve. A key feature of LexiCon is its extensibility. That is, the set of supported environments can be extended with new (unconstrained) environment generators, for which temporal constraints are constructed automatically. This renders LexiCon future-proof: the hardness of the generated planning problems can be increased as the planning capabilities of LLMs improve. Our experiments reveal that the performance of state-of-the-art LLMs, including reasoning models like GPT-5, o3, and R1, deteriorates as the degree of constrainedness of the planning tasks increases.

LexiCon: a Benchmark for Planning under Temporal Constraints in Natural Language

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理