TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware Travel Planning

作者: Hang Ni, Fan Liu, Xinyu Ma, Lixin Su, Shuaiqiang Wang, Dawei Yin, Hui Xiong, Hao Liu

分类: cs.CL

发布日期: 2025-04-11

期刊: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing

DOI: 10.18653/v1/2025.emnlp-main.626

💡 一句话要点

TP-RAG：提出时空感知旅行规划的检索增强大语言模型基准测试与EvoRAG优化框架

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 旅行规划 检索增强生成 大语言模型 时空推理 进化算法 基准测试 EvoRAG

📋 核心要点

现有旅行规划基准测试忽略了路线效率、POI吸引力及实时适应性等时空合理性关键因素。
提出EvoRAG框架，通过进化算法融合检索到的多样化轨迹，提升LLM在旅行规划中的推理能力。
实验表明，EvoRAG在时空合规性方面优于现有方法，并减少了常识性错误。

📝 摘要（中文）

大型语言模型（LLMs）在自动化旅行规划方面展现了潜力，但常常在处理细致的时空合理性方面存在不足。现有基准测试侧重于基本的计划有效性，忽略了路线效率、POI吸引力和实时适应性等关键方面。本文提出了TP-RAG，这是首个专为检索增强、时空感知旅行规划定制的基准。我们的数据集包含2,348个真实世界的旅行查询，85,575个细粒度标注的POI，以及来自在线旅游文档的18,784个高质量的旅行轨迹参考，从而实现动态和上下文感知的规划。通过广泛的实验，我们发现整合参考轨迹显著提高了旅行计划的空间效率和POI合理性，但由于冲突的参考和噪声数据，在通用性和鲁棒性方面仍然存在挑战。为了解决这些问题，我们提出了EvoRAG，一个进化框架，有效地将不同的检索轨迹与LLM的内在推理相结合。EvoRAG实现了最先进的性能，与自下而上和检索增强的基线相比，提高了时空合规性并减少了常识违规。我们的工作强调了将Web知识与LLM驱动的优化相结合的潜力，为更可靠和自适应的旅行规划代理铺平了道路。

🔬 方法详解

问题定义：论文旨在解决现有旅行规划方法在时空合理性方面的不足，特别是路线效率、POI选择和实时适应性。现有方法要么依赖于LLM的固有知识，要么简单地进行检索增强，无法有效利用外部知识来生成高质量的旅行计划。这些方法在处理复杂的时空约束和用户偏好时表现不佳，导致生成的计划可能不合理或不切实际。

核心思路：论文的核心思路是利用检索增强生成（RAG）框架，结合进化算法，从海量旅游数据中检索相关的旅行轨迹，并利用这些轨迹来指导LLM生成更合理的旅行计划。通过进化算法，可以有效地融合不同的检索轨迹，从而提高计划的时空合理性和鲁棒性。这种方法旨在弥合LLM的固有知识与外部世界知识之间的差距，从而生成更符合用户需求和实际情况的旅行计划。

技术框架：整体框架包含以下几个主要模块：1) 数据收集与预处理：收集真实世界的旅行查询、POI信息和旅行轨迹数据，并进行清洗和标注。2) 检索模块：根据用户查询，从数据库中检索相关的旅行轨迹。3) 进化模块（EvoRAG）：使用进化算法融合不同的检索轨迹，生成候选旅行计划。4) LLM生成模块：利用LLM根据融合后的轨迹生成最终的旅行计划。5) 评估模块：评估生成的旅行计划的时空合理性、POI吸引力等指标。

关键创新：最重要的技术创新点是EvoRAG进化框架，它能够有效地融合不同的检索轨迹，从而提高旅行计划的时空合理性和鲁棒性。与传统的RAG方法相比，EvoRAG能够更好地处理冲突的参考和噪声数据，从而生成更可靠的旅行计划。此外，TP-RAG基准测试的提出也为评估和比较不同的旅行规划方法提供了一个标准化的平台。

关键设计：EvoRAG框架使用遗传算法进行轨迹融合。关键设计包括：1) 染色体编码：将每个检索到的轨迹表示为一个染色体。2) 适应度函数：根据轨迹的时空合理性、POI吸引力等指标来评估染色体的适应度。3) 选择算子：使用轮盘赌选择等方法选择优秀的染色体。4) 交叉算子：将不同染色体的部分信息进行交换，生成新的染色体。5) 变异算子：对染色体的部分信息进行随机修改，增加多样性。通过迭代进化，最终选择出最优的轨迹组合，用于指导LLM生成旅行计划。

🖼️ 关键图片

📊 实验亮点

实验结果表明，EvoRAG框架在TP-RAG基准测试上取得了最先进的性能。与自下而上的基线相比，EvoRAG在时空合规性方面提高了显著的百分比（具体数值未知），并减少了常识违规。此外，实验还验证了整合参考轨迹能够显著提高旅行计划的空间效率和POI合理性。

🎯 应用场景

该研究成果可应用于智能旅行助手、旅游推荐系统、个性化行程规划等领域。通过结合Web知识和LLM的推理能力，可以为用户提供更可靠、更个性化的旅行规划服务，提升用户体验。未来，该技术还可以扩展到其他时空相关的规划任务，如物流配送、城市交通管理等。

📄 摘要（原文）

Large language models (LLMs) have shown promise in automating travel planning, yet they often fall short in addressing nuanced spatiotemporal rationality. While existing benchmarks focus on basic plan validity, they neglect critical aspects such as route efficiency, POI appeal, and real-time adaptability. This paper introduces TP-RAG, the first benchmark tailored for retrieval-augmented, spatiotemporal-aware travel planning. Our dataset includes 2,348 real-world travel queries, 85,575 fine-grain annotated POIs, and 18,784 high-quality travel trajectory references sourced from online tourist documents, enabling dynamic and context-aware planning. Through extensive experiments, we reveal that integrating reference trajectories significantly improves spatial efficiency and POI rationality of the travel plan, while challenges persist in universality and robustness due to conflicting references and noisy data. To address these issues, we propose EvoRAG, an evolutionary framework that potently synergizes diverse retrieved trajectories with LLMs' intrinsic reasoning. EvoRAG achieves state-of-the-art performance, improving spatiotemporal compliance and reducing commonsense violation compared to ground-up and retrieval-augmented baselines. Our work underscores the potential of hybridizing Web knowledge with LLM-driven optimization, paving the way for more reliable and adaptive travel planning agents.

TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware Travel Planning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理