Target-Bench: Can World Models Achieve Mapless Path Planning with Semantic Targets?

作者: Dingrui Wang, Hongyuan Ye, Zhihao Liang, Zhexiao Sun, Zhaowei Lu, Yuchen Zhang, Yuyu Zhao, Yuan Gao, Marvin Seegert, Finn Schäfer, Haotong Qin, Wei Li, Luigi Palmieri, Felix Jahncke, Mattia Piccinini, Johannes Betz

分类: cs.CV, cs.RO

发布日期: 2025-11-21

备注: 10 pages

💡 一句话要点

Target-Bench：评估世界模型在语义目标下的无地图路径规划能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界模型 路径规划 机器人导航 语义目标 基准测试

📋 核心要点

现有世界模型在视频生成方面表现出色，但其在机器人路径规划方面的能力尚不明确，缺乏量化评估。
Target-Bench基准测试通过提供真实环境下的语义目标路径规划任务，评估世界模型在机器人领域的应用潜力。
实验结果表明，现有世界模型在路径规划方面存在局限性，但通过微调可以在Target-Bench上显著提升性能。

📝 摘要（中文）

本文提出了Target-Bench，这是一个专门用于评估世界模型在真实环境中，针对语义目标的无地图路径规划能力的基准。Target-Bench提供了450个机器人采集的视频序列，涵盖45个语义类别，并具有基于SLAM的真值轨迹。评估流程从生成的视频中恢复相机运动，并使用五个互补指标来衡量规划性能，这些指标量化了目标到达能力、轨迹准确性和方向一致性。论文评估了包括Sora 2、Veo 3.1和Wan系列在内的最先进模型。最佳的现成模型(Wan2.2-Flash)仅获得0.299的总体得分，表明当前世界模型在机器人规划任务中存在显著局限性。通过在数据集中的325个场景上微调一个开源的50亿参数模型，总体得分达到0.345，比其基础版本(0.066)提高了400%以上，并且比最佳现成模型高出15%。代码和数据集将开源。

🔬 方法详解

问题定义：论文旨在解决如何评估世界模型在真实环境中，针对语义目标的无地图路径规划能力的问题。现有方法缺乏专门的基准测试和评估指标，难以量化世界模型在机器人领域的应用潜力。

核心思路：论文的核心思路是构建一个包含真实世界数据的基准测试集，并设计一套评估指标，用于衡量世界模型生成的视频在路径规划任务中的有效性。通过分析模型生成的视频，恢复相机运动，并与真值轨迹进行比较，从而评估模型的规划能力。

技术框架：Target-Bench的整体框架包括数据收集、视频生成、相机运动恢复和性能评估四个主要阶段。首先，使用机器人收集真实环境中的视频序列，并利用SLAM技术获取真值轨迹。然后，使用世界模型生成视频。接着，从生成的视频中恢复相机运动。最后，使用五个互补指标来评估规划性能，包括目标到达能力、轨迹准确性和方向一致性。

关键创新：Target-Bench的关键创新在于：1) 它是第一个专门针对世界模型在语义目标下的无地图路径规划能力进行评估的基准测试。2) 它提供了一套全面的评估指标，可以量化目标到达能力、轨迹准确性和方向一致性。3) 它揭示了现有世界模型在机器人规划任务中的局限性，并为未来的研究方向提供了指导。

关键设计：Target-Bench的关键设计包括：1) 数据集包含450个机器人采集的视频序列，涵盖45个语义类别，保证了数据的多样性和真实性。2) 评估指标包括目标到达率、轨迹长度误差、动态时间规整距离、方向一致性得分和总体得分，全面衡量了规划性能。3) 实验中，使用开源的50亿参数模型进行微调，并取得了显著的性能提升，验证了Target-Bench的有效性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的Sora 2、Veo 3.1和Wan系列等世界模型在Target-Bench上的表现不佳，最佳模型Wan2.2-Flash的总体得分仅为0.299。然而，通过在Target-Bench数据集上微调一个开源的50亿参数模型，总体得分从0.066提升到0.345，提高了400%以上，并且比最佳现成模型高出15%，证明了Target-Bench的有效性和微调的潜力。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实等领域。通过评估和改进世界模型在路径规划方面的能力，可以提高机器人在复杂环境中的自主导航能力，降低对地图的依赖，并为虚拟现实应用提供更真实的交互体验。未来，该研究可以推动世界模型在机器人领域的更广泛应用。

📄 摘要（原文）

While recent world models generate highly realistic videos, their ability to perform robot path planning remains unclear and unquantified. We introduce Target-Bench, the first benchmark specifically designed to evaluate world models on mapless path planning toward semantic targets in real-world environments. Target-Bench provides 450 robot-collected video sequences spanning 45 semantic categories with SLAM-based ground truth trajectories. Our evaluation pipeline recovers camera motion from generated videos and measures planning performance using five complementary metrics that quantify target-reaching capability, trajectory accuracy, and directional consistency. We evaluate state-of-the-art models including Sora 2, Veo 3.1, and the Wan series. The best off-the-shelf model (Wan2.2-Flash) achieves only 0.299 overall score, revealing significant limitations in current world models for robotic planning tasks. We show that fine-tuning an open-source 5B-parameter model on only 325 scenarios from our dataset achieves 0.345 overall score -- an improvement of more than 400% over its base version (0.066) and 15% higher than the best off-the-shelf model. We will open-source the code and dataset.

Target-Bench: Can World Models Achieve Mapless Path Planning with Semantic Targets?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理