ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

作者: Tianlong Wang, Pinqiao Wang, Weili Shi, Sheng li

分类: cs.AI

发布日期: 2026-03-19

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

ItinBench：利用大语言模型在多认知维度上进行规划的基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 基准测试 认知维度 旅行规划 空间推理

📋 核心要点

现有LLM评估侧重于特定推理任务，缺乏对多认知维度综合能力的考察，难以反映真实场景。
ItinBench将空间推理（路线优化）融入旅行规划，与传统语言推理任务结合，实现多维度认知能力的综合评估。
实验表明，LLM在同时处理多个认知维度时性能下降，ItinBench为构建更全面的推理测试平台提供新思路。

📝 摘要（中文）

本文提出ItinBench，一个用于评估大语言模型（LLMs）在多认知维度上规划能力的基准测试。现有评估方法通常侧重于受控环境下的特定推理或规划问题。最近的研究探索了旅行规划，以将各种语言推理任务整合到现实环境中。然而，推理任务不仅限于语言推理，对LLM的全面评估需要一个包含来自多个认知领域的任务的测试平台。ItinBench通过将空间推理（即路线优化）任务引入到行程规划中，同时保留了传统的语言推理任务，从而填补了这一空白。ItinBench同时评估各种LLM，包括Llama 3.1 8B、Mistral Large、Gemini 1.5 Pro和GPT系列。研究结果表明，LLM在同时处理多个认知维度时，难以保持高且一致的性能。通过整合来自不同人类认知领域的任务，ItinBench为构建更全面的推理测试平台提供了新的见解，从而更好地反映现实世界的挑战。

🔬 方法详解

问题定义：现有的大语言模型评估方法主要集中在单一的推理或规划任务上，或者仅关注语言推理能力。在现实世界的应用中，智能体需要同时处理多种认知任务，例如空间推理、逻辑推理和语言理解等。因此，如何全面评估大语言模型在多认知维度上的综合规划能力是一个重要的挑战。现有方法的痛点在于缺乏一个能够同时测试多种认知能力的基准测试。

核心思路：本文的核心思路是构建一个包含多种认知任务的综合性基准测试，即ItinBench。ItinBench将旅行行程规划作为载体，将空间推理（路线优化）任务与传统的语言推理任务相结合。通过这种方式，可以同时评估大语言模型在不同认知维度上的表现，从而更全面地了解其能力。

技术框架：ItinBench的整体框架围绕旅行行程规划展开，主要包含以下几个阶段：1) 任务定义：定义具体的旅行行程规划任务，包括起点、终点、途经地点、时间限制等。2) 认知任务集成：将空间推理（路线优化）任务与语言推理任务整合到行程规划中。3) 模型评估：使用不同的LLM（如Llama 3.1 8B、Mistral Large、Gemini 1.5 Pro和GPT系列）解决行程规划问题，并评估其在不同认知任务上的表现。4) 性能分析：分析LLM在不同认知维度上的性能，找出其优势和不足。

关键创新：ItinBench最重要的技术创新点在于它将空间推理任务（路线优化）融入到旅行行程规划中，从而构建了一个能够同时评估多种认知能力的综合性基准测试。与现有方法相比，ItinBench能够更全面地评估大语言模型在现实世界场景中的表现。此外，ItinBench还提供了一个标准化的评估平台，方便研究人员比较不同LLM的性能。

关键设计：ItinBench的关键设计包括：1) 任务的多样性：行程规划任务包含多种约束条件，例如时间限制、预算限制、交通方式选择等，从而增加了任务的复杂性。2) 评估指标：使用多种评估指标来衡量LLM在不同认知任务上的表现，例如路线优化效率、语言推理准确率等。3) 数据集构建：构建包含大量旅行行程规划案例的数据集，用于训练和评估LLM。具体参数设置和损失函数取决于所使用的LLM模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的大语言模型在同时处理多个认知维度时，性能会显著下降。例如，在路线优化任务中表现良好的模型，在语言推理任务中可能表现不佳。ItinBench的评估结果揭示了现有LLM在多认知能力方面的不足，为未来的研究方向提供了指导。

🎯 应用场景

ItinBench的研究成果可应用于智能交通、旅游规划、智能助手等领域。通过更全面地评估和提升大语言模型的多认知能力，可以开发出更智能、更实用的应用。例如，智能交通系统可以利用多认知能力进行路线优化和交通流量预测，旅游规划助手可以根据用户的偏好和约束条件生成个性化的行程方案。

📄 摘要（原文）

Large language models (LLMs) with advanced cognitive capabilities are emerging as agents for various reasoning and planning tasks. Traditional evaluations often focus on specific reasoning or planning questions within controlled environments. Recent studies have explored travel planning as a medium to integrate various verbal reasoning tasks into real-world contexts. However, reasoning tasks extend beyond verbal reasoning alone, and a comprehensive evaluation of LLMs requires a testbed that incorporates tasks from multiple cognitive domains. To address this gap, we introduce ItinBench, a benchmark that features one task of spatial reasoning, i.e., route optimization, into trip itinerary planning while keeping the traditional verbal reasoning tasks. ItinBench evaluates various LLMs across diverse tasks simultaneously, including Llama 3.1 8B, Mistral Large, Gemini 1.5 Pro, and GPT family. Our findings reveal that LLMs struggle to maintain high and consistent performance when concurrently handling multiple cognitive dimensions. By incorporating tasks from distinct human-level cognitive domains, ItinBench provides new insights into building more comprehensive reasoning testbeds that better reflect real-world challenges. The code and dataset: https://ethanwtl.github.io/IBweb/

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理