TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

作者: Yinuo Wang, Mining Tan, Wenxiang Jiao, Xiaoxi Li, Hao Wang, Xuanyu Zhang, Yuan Lu, Weiming Dong

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-01-08

💡 一句话要点

提出TourPlanner，用约束门控强化学习解决旅行规划问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 旅行规划 强化学习 多路径推理 约束优化 个性化推荐

📋 核心要点

现有旅行规划方法难以在高召回率下筛选POI，限制了可行解空间的探索。
TourPlanner提出多路径推理的竞争共识链式思考(CCoT)来探索可行解空间。
TourPlanner使用约束门控强化学习，在满足硬约束后优化软约束，提升性能。

📝 摘要（中文）

旅行规划是一个复杂决策过程，需要综合多方面信息来构建行程。现有方法面临挑战：(1)如何在保持高召回率的同时筛选候选兴趣点(POI)；(2)单一推理路径限制了旅行规划可行解空间的探索能力；(3)同时优化硬约束和软约束仍然非常困难。为解决这些问题，我们提出了TourPlanner，一个具有多路径推理和约束门控强化学习的综合框架。具体来说，我们首先引入个性化召回和空间优化(PReSO)工作流程来构建具有空间感知能力的候选POI集合。随后，我们提出竞争共识链式思考(CCoT)，一种多路径推理范式，提高探索可行解空间的能力。为了进一步优化方案，我们将基于sigmoid的门控机制集成到强化学习阶段，该机制仅在满足硬约束后才动态地优先考虑软约束的满足。在旅行规划基准上的实验结果表明，TourPlanner实现了最先进的性能，在可行性和用户偏好对齐方面显著超越了现有方法。

🔬 方法详解

问题定义：论文旨在解决旅行规划中POI选择、路径探索和约束优化的问题。现有方法在POI召回、解空间探索和约束处理方面存在不足，导致规划结果不理想。具体痛点包括：难以在高召回率下筛选POI，单一推理路径限制了探索能力，以及难以同时优化硬约束和软约束。

核心思路：论文的核心思路是结合多路径推理和约束门控强化学习，从而更有效地探索可行解空间，并同时满足硬约束和软约束。通过多路径推理，可以避免单一路径的局限性，提高解的多样性。约束门控强化学习则可以确保在满足基本约束的前提下，进一步优化用户偏好等软约束。

技术框架：TourPlanner框架包含三个主要模块：(1)个性化召回和空间优化(PReSO)：用于构建具有空间感知能力的候选POI集合；(2)竞争共识链式思考(CCoT)：一种多路径推理范式，用于探索可行解空间；(3)约束门控强化学习：用于在满足硬约束的前提下，优化软约束。整体流程是先通过PReSO生成候选POI，然后使用CCoT进行多路径推理，最后通过约束门控强化学习进行优化。

关键创新：论文的关键创新在于：(1)提出PReSO工作流程，用于构建空间感知的候选POI集合；(2)提出CCoT多路径推理范式，提高解空间探索能力；(3)提出约束门控强化学习，实现硬约束和软约束的协同优化。与现有方法相比，TourPlanner能够更有效地探索解空间，并更好地满足用户偏好。

关键设计：PReSO模块使用个性化信息和空间信息来提高POI召回率。CCoT模块使用多个推理路径，并通过竞争和共识机制来选择最优路径。约束门控强化学习模块使用sigmoid函数作为门控机制，动态调整硬约束和软约束的权重。具体参数设置和网络结构在论文中有详细描述，但摘要中未提供具体数值。

📊 实验亮点

实验结果表明，TourPlanner在旅行规划基准上实现了最先进的性能，显著超越了现有方法。具体而言，TourPlanner在可行性和用户偏好对齐方面均取得了显著提升，表明其能够生成更合理、更符合用户需求的旅行规划方案。具体的性能数据和对比基线在论文中详细给出，摘要中未提供具体数值。

🎯 应用场景

TourPlanner可应用于智能旅游助手、个性化行程推荐、城市规划等领域。通过提供更可行、更符合用户偏好的旅行规划方案，可以提升用户体验，促进旅游产业发展，并为城市规划提供数据支持。

📄 摘要（原文）

Travel planning is a sophisticated decision-making process that requires synthesizing multifaceted information to construct itineraries. However, existing travel planning approaches face several challenges: (1) Pruning candidate points of interest (POIs) while maintaining a high recall rate; (2) A single reasoning path restricts the exploration capability within the feasible solution space for travel planning; (3) Simultaneously optimizing hard constraints and soft constraints remains a significant difficulty. To address these challenges, we propose TourPlanner, a comprehensive framework featuring multi-path reasoning and constraint-gated reinforcement learning. Specifically, we first introduce a Personalized Recall and Spatial Optimization (PReSO) workflow to construct spatially-aware candidate POIs' set. Subsequently, we propose Competitive consensus Chain-of-Thought (CCoT), a multi-path reasoning paradigm that improves the ability of exploring the feasible solution space. To further refine the plan, we integrate a sigmoid-based gating mechanism into the reinforcement learning stage, which dynamically prioritizes soft-constraint satisfaction only after hard constraints are met. Experimental results on travel planning benchmarks demonstrate that TourPlanner achieves state-of-the-art performance, significantly surpassing existing methods in both feasibility and user-preference alignment.

TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册