TripCraft: A Benchmark for Spatio-Temporally Fine Grained Travel Planning

作者: Soumyabrata Chaudhuri, Pranav Purkar, Ritwik Raghav, Shubhojit Mallick, Manish Gupta, Abhik Jana, Shreya Ghosh

分类: cs.CL, cs.AI

发布日期: 2025-02-27

备注: 27 pages, 18 Tables and 6 Figures

💡 一句话要点

TripCraft：提出一个时空细粒度的旅行规划基准，解决现有基准的局限性。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 旅行规划 大型语言模型 数据集 时空推理 个性化推荐

📋 核心要点

现有旅行规划基准依赖半合成数据，缺乏空间一致性和关键约束，无法满足实际应用需求。
TripCraft通过整合真实世界的约束，包括交通时刻表、活动可用性和用户画像，构建时空连贯的旅行规划数据集。
论文提出五个连续评估指标，全面评估LLM生成的行程质量，实验表明参数化设置显著提升用餐安排效果。

📝 摘要（中文）

本文提出了TripCraft，一个时空连贯的旅行规划数据集，旨在解决现有基准在实际应用中的局限性。现有的数据集，如TravelPlanner和TravelPlanner+，存在半合成数据依赖、空间不一致以及缺乏关键旅行约束等问题，使其不足以用于实际的行程生成。TripCraft集成了真实世界的约束，包括公共交通时刻表、活动可用性、多样化的景点类别和用户画像，以增强个性化。为了评估大型语言模型（LLM）生成的计划，本文提出了五个连续评估指标，即时间用餐得分、时间景点得分、空间得分、排序得分和人物角色得分，这些指标可以跨多个维度评估行程质量。参数化的设置显著增强了用餐安排，在7天场景中将时间用餐得分从61%提高到80%。TripCraft为LLM驱动的个性化旅行规划建立了一个新的基准，为行程生成提供了一个更现实、更注重约束的框架。数据集和代码库将在接收后公开。

🔬 方法详解

问题定义：现有旅行规划数据集（如TravelPlanner和TravelPlanner+）主要存在三个问题：一是依赖半合成数据，真实性不足；二是空间一致性较差，生成的行程可能在地理上不可行；三是缺乏关键的旅行约束，如公共交通时刻表、活动可用性等，导致生成的行程不切实际。这些问题限制了LLM在实际旅行规划中的应用。

核心思路：TripCraft的核心思路是构建一个更贴近真实世界的旅行规划数据集，并提供更全面的评估指标。通过整合真实世界的约束条件，如公共交通时刻表、活动可用性、多样化的景点类别和用户画像，使得数据集更具实用性。同时，设计了五个连续评估指标，从时间、空间、排序和个性化等多个维度评估LLM生成的行程质量。

技术框架：TripCraft数据集的构建流程未知。评估LLM生成行程的框架主要包含以下几个模块：1) LLM行程生成模块：使用LLM生成旅行行程；2) 时间用餐得分评估模块：评估行程中用餐时间安排的合理性；3) 时间景点得分评估模块：评估行程中景点游览时间安排的合理性；4) 空间得分评估模块：评估行程中景点之间的空间距离和交通方式的合理性；5) 排序得分评估模块：评估行程中景点游览顺序的合理性；6) 人物角色得分评估模块：评估行程是否符合用户画像的偏好。

关键创新：TripCraft的关键创新在于：1) 构建了一个更贴近真实世界的旅行规划数据集，考虑了更多的实际约束条件；2) 提出了五个连续评估指标，可以更全面地评估LLM生成的行程质量，而不仅仅是二元验证；3) 通过参数化的设置，显著提升了用餐安排的合理性。

关键设计：论文中提到参数化的设置显著增强了用餐安排，但具体参数设置细节未知。五个连续评估指标的设计细节未知，但它们分别从时间、空间、排序和个性化等多个维度评估行程质量。

🖼️ 关键图片

📊 实验亮点

TripCraft数据集的参数化设置显著提升了用餐安排的合理性，在7天旅行场景中，时间用餐得分从61%提高到80%。这表明，通过引入更细致的约束条件和评估指标，可以有效提升LLM在旅行规划任务中的性能。

🎯 应用场景

TripCraft可应用于开发更智能、更个性化的旅行规划助手。通过利用该数据集训练的LLM，可以生成更符合用户需求、更贴近实际情况的旅行行程。该研究有助于提升旅行规划的效率和用户体验，并为旅游行业的智能化升级提供技术支持。

📄 摘要（原文）

Recent advancements in probing Large Language Models (LLMs) have explored their latent potential as personalized travel planning agents, yet existing benchmarks remain limited in real world applicability. Existing datasets, such as TravelPlanner and TravelPlanner+, suffer from semi synthetic data reliance, spatial inconsistencies, and a lack of key travel constraints, making them inadequate for practical itinerary generation. To address these gaps, we introduce TripCraft, a spatiotemporally coherent travel planning dataset that integrates real world constraints, including public transit schedules, event availability, diverse attraction categories, and user personas for enhanced personalization. To evaluate LLM generated plans beyond existing binary validation methods, we propose five continuous evaluation metrics, namely Temporal Meal Score, Temporal Attraction Score, Spatial Score, Ordering Score, and Persona Score which assess itinerary quality across multiple dimensions. Our parameter informed setting significantly enhances meal scheduling, improving the Temporal Meal Score from 61% to 80% in a 7 day scenario. TripCraft establishes a new benchmark for LLM driven personalized travel planning, offering a more realistic, constraint aware framework for itinerary generation. Dataset and Codebase will be made publicly available upon acceptance.

TripCraft: A Benchmark for Spatio-Temporally Fine Grained Travel Planning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理