AMAP Agentic Planning Technical Report
作者: AMAP AI Agent Team, Yulan Hu, Xiangwen Zhang, Sheng Ouyang, Hao Yi, Lu Xu, Qinglin Lang, Lide Tan, Xiang Cheng, Tianchen Ye, Zhicong Li, Ge Chen, Wenjin Yang, Zheng Pan, Shaopan Xiong, Siran Yang, Ju Huang, Yan Zhang, Jiamang Wang, Yong Liu, Yinfeng Huang, Ning Wang, Tucheng Lin, Xin Li, Ning Guo
分类: cs.AI
发布日期: 2025-12-31 (更新: 2026-01-08)
💡 一句话要点
提出STAgent,一个用于时空理解的Agentic大语言模型,解决复杂POI发现和行程规划任务。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agentic模型 时空理解 大语言模型 行程规划 兴趣点发现 工具交互 分层数据管理
📋 核心要点
- 现有方法在复杂时空推理任务中,难以有效利用外部工具进行探索、验证和优化,导致性能受限。
- STAgent通过构建可交互的工具环境、分层数据管理和级联训练方案,提升模型在时空理解任务中的性能。
- 实验表明,STAgent在TravelBench上表现出色,同时保持了通用能力,验证了所提出Agentic模型的有效性。
📝 摘要(中文)
本文介绍STAgent,一个专为时空理解设计的Agentic大语言模型,旨在解决受约束的兴趣点发现和行程规划等复杂任务。STAgent是一个专门的模型,能够与时空场景中的十种不同的工具进行交互,使其能够在复杂推理过程中探索、验证和改进中间步骤。值得注意的是,STAgent有效地保留了其通用能力。我们通过三个关键贡献赋予STAgent这些能力:(1)一个稳定的工具环境,支持十多个特定领域的工具,实现异步推出和训练;(2)一个分层数据管理框架,像大海捞针一样识别高质量数据,通过保留不到1%的原始数据来管理高质量查询,强调多样性和难度;(3)一个级联训练方案,从作为守门员的种子SFT阶段开始,以衡量查询难度,然后是在具有高确定性的查询上进行微调的第二个SFT阶段,以及利用低确定性数据的最终RL阶段。STAgent使用Qwen3-30B-A3B初始化,以建立强大的SFT基础并利用对样本难度的洞察力,在TravelBench上产生了有希望的性能,同时保持了其在各种通用基准测试中的通用能力,从而证明了我们提出的Agentic模型的有效性。
🔬 方法详解
问题定义:论文旨在解决复杂时空场景下的任务,例如受约束的兴趣点(POI)发现和行程规划。现有方法通常难以有效地利用外部工具进行探索、验证和优化,导致在复杂推理任务中性能受限。此外,如何从海量数据中筛选出高质量的训练数据也是一个挑战。
核心思路:论文的核心思路是构建一个Agentic大语言模型STAgent,使其能够与多个领域特定的工具进行交互,从而在复杂推理过程中探索、验证和改进中间步骤。通过分层数据管理和级联训练方案,提升模型在时空理解任务中的性能,同时保持其通用能力。
技术框架:STAgent的技术框架主要包含三个部分:1)稳定的工具环境,支持十多个领域特定的工具,实现异步推出和训练;2)分层数据管理框架,用于识别和筛选高质量的训练数据,强调数据的多样性和难度;3)级联训练方案,包括种子SFT阶段、高确定性SFT阶段和低确定性RL阶段。
关键创新:论文的关键创新在于:1)构建了一个可交互的工具环境,允许模型与多个外部工具进行交互,从而提升了模型在复杂时空推理任务中的能力;2)提出了分层数据管理框架,能够从海量数据中筛选出高质量的训练数据,提升了模型的训练效率和性能;3)设计了级联训练方案,通过不同阶段的训练,逐步提升模型的性能和泛化能力。
关键设计:级联训练方案中,种子SFT阶段作为“守门员”,用于评估查询的难度;第二个SFT阶段在高确定性的查询上进行微调;最终的RL阶段则利用低确定性的数据进行训练。模型使用Qwen3-30B-A3B进行初始化,以建立强大的SFT基础。具体参数设置和损失函数等细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
STAgent在TravelBench上取得了有希望的性能,同时保持了其在各种通用基准测试中的通用能力。具体性能数据和对比基线未在摘要中详细说明,属于未知信息。但结果表明,所提出的Agentic模型是有效的。
🎯 应用场景
该研究成果可应用于智能出行、旅游规划、城市导航等领域。STAgent能够根据用户需求,结合实时交通信息、POI数据等,提供个性化的行程规划和推荐服务,提升用户体验,具有广阔的应用前景。
📄 摘要(原文)
We present STAgent, an agentic large language model tailored for spatio-temporal understanding, designed to solve complex tasks such as constrained point-of-interest discovery and itinerary planning. STAgent is a specialized model capable of interacting with ten distinct tools within spatio-temporal scenarios, enabling it to explore, verify, and refine intermediate steps during complex reasoning. Notably, STAgent effectively preserves its general capabilities. We empower STAgent with these capabilities through three key contributions: (1) a stable tool environment that supports over ten domain-specific tools, enabling asynchronous rollout and training; (2) a hierarchical data curation framework that identifies high-quality data like a needle in a haystack, curating high-quality queries by retaining less than 1\% of the raw data, emphasizing both diversity and difficulty; and (3) a cascaded training recipe that starts with a seed SFT stage acting as a guardian to measure query difficulty, followed by a second SFT stage fine-tuned on queries with high certainty, and an ultimate RL stage that leverages data of low certainty. Initialized with Qwen3-30B-A3B to establish a strong SFT foundation and leverage insights into sample difficulty, STAgent yields promising performance on TravelBench while maintaining its general capabilities across a wide range of general benchmarks, thereby demonstrating the effectiveness of our proposed agentic model.