Seeing Isn't Orienting: A Cognitively Grounded Benchmark Reveals Systematic Orientation Failures in MLLMs Supplementary
作者: Nazia Tasnim, Keanu Nichols, Yuting Yang, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan A. Plummer
分类: cs.CV
发布日期: 2026-03-12
💡 一句话要点
DORI:一个认知驱动的基准测试,揭示MLLM在物体朝向理解上的系统性失败
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 物体朝向理解 基准测试 认知驱动 多模态学习
📋 核心要点
- 现有视觉-语言基准测试混淆了物体朝向与位置、场景理解等因素,缺乏对朝向理解的针对性评估。
- DORI基准测试通过认知驱动的分层设计,将物体朝向分解为多个维度,并提供粗细粒度的评估。
- 实验表明,现有模型在通用空间任务表现良好,但在DORI基准测试中表现接近随机,揭示了模型在朝向理解上的不足。
📝 摘要(中文)
人类逐步学习物体朝向,从识别物体朝向哪个方向,到在脑海中旋转它,再到推理物体之间的朝向关系。现有的视觉-语言基准测试在很大程度上将朝向与位置和一般场景理解混为一谈。我们引入了判别性朝向推理智能(DORI),这是一个认知驱动的分层基准测试,它使物体朝向成为主要目标。受人类朝向认知阶段的启发,DORI将朝向分解为四个维度,每个维度都在粗略(分类)和精细(度量)级别进行评估。DORI由来自14个来源的13,652张图像组成,提供33,656个多项选择题,涵盖真实世界和合成环境中的67个物体类别。其由粗到精的设计通过边界框隔离、标准化空间参考系和结构化提示,将朝向与物体识别难度、场景杂乱和语言歧义等混淆因素隔离开来。对24个最先进的视觉-语言模型的评估显示出一个清晰的模式:在一般空间基准测试中表现良好的模型在以物体为中心的朝向任务中接近随机。最好的模型在粗略判断中仅达到54.2%,在精细判断中仅达到45.0%,最大的失败出现在复合旋转和物体间参考系的变化上。大的粗略到精细的差距揭示了对分类启发式的依赖,而不是几何推理,这是现有基准测试所隐藏的局限性。这些结果表明,朝向理解是多模态系统尚未解决的挑战,对机器人操作、3D场景重建和人机交互具有重要意义。
🔬 方法详解
问题定义:现有视觉-语言模型在理解物体朝向方面存在不足,现有基准测试往往将朝向与位置、场景理解等因素混淆,无法有效评估模型对物体朝向的理解能力。这限制了模型在机器人操作、3D场景重建等领域的应用。
核心思路:论文的核心思路是构建一个专门针对物体朝向理解的基准测试DORI,该基准测试的设计受到人类认知过程的启发,将朝向理解分解为多个维度,并提供粗细粒度的评估。通过这种方式,可以更准确地评估模型对物体朝向的理解能力,并揭示模型在朝向理解方面的局限性。
技术框架:DORI基准测试包含以下几个关键组成部分:1) 数据集:包含来自14个来源的13,652张图像,涵盖真实世界和合成环境中的67个物体类别。2) 评估维度:将朝向分解为四个维度,包括绝对朝向、相对朝向、旋转和翻转。3) 评估粒度:每个维度都在粗略(分类)和精细(度量)级别进行评估。4) 评估方法:采用多项选择题的形式,要求模型根据图像判断物体的朝向。
关键创新:DORI基准测试的关键创新在于其认知驱动的设计和分层评估方法。通过模仿人类认知过程,将朝向理解分解为多个维度,并提供粗细粒度的评估,可以更准确地评估模型对物体朝向的理解能力。此外,DORI基准测试还通过边界框隔离、标准化空间参考系和结构化提示,将朝向与物体识别难度、场景杂乱和语言歧义等混淆因素隔离开来。
关键设计:DORI基准测试的关键设计包括:1) 数据集的选择:选择包含各种物体类别和场景的图像,以保证基准测试的泛化能力。2) 评估维度的划分:根据人类认知过程,将朝向分解为四个维度,以更全面地评估模型对朝向的理解。3) 评估粒度的设置:提供粗略和精细两种粒度的评估,以评估模型在不同层次上的朝向理解能力。4) 评估方法的选择:采用多项选择题的形式,简单易懂,方便评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有最先进的视觉-语言模型在DORI基准测试中表现不佳,最好的模型在粗略判断中仅达到54.2%,在精细判断中仅达到45.0%。这表明现有模型在物体朝向理解方面存在显著不足,尤其是在复合旋转和物体间参考系变化的情况下。大的粗略到精细的差距揭示了模型对分类启发式的依赖,而不是几何推理。
🎯 应用场景
该研究成果对机器人操作、3D场景重建和人机交互等领域具有重要意义。更准确的物体朝向理解能力可以帮助机器人更好地进行物体抓取和操作,提高3D场景重建的精度,并改善人机交互的自然性和流畅性。未来,该基准测试可以促进视觉-语言模型在朝向理解方面的研究,推动相关技术的发展。
📄 摘要(原文)
Humans learn object orientation progressively, from recognizing which way an object faces, to mentally rotating it, to reasoning about orientations between objects. Current vision-language benchmarks largely conflate orientation with position and general scene understanding. We introduce Discriminative Orientation Reasoning Intelligence (DORI), a cognitively grounded hierarchical benchmark that makes object orientation the primary target. Inspired by stages of human orientation cognition, DORI decomposes orientation into four dimensions, each evaluated at coarse (categorical) and granular (metric) levels. Composed from 13,652 images across 14 sources, DORI provides 33,656 multiple-choice questions covering 67 object categories in real-world and synthetic settings. Its coarse-to-granular design isolates orientation from confounds such as object recognition difficulty, scene clutter, and linguistic ambiguity via bounding-box isolation, standardized spatial reference frames, and structured prompts. Evaluating 24 state-of-the-art vision-language models shows a clear pattern: models that perform well on general spatial benchmarks are near-random on object-centric orientation tasks. The best models reach only 54.2% on coarse and 45.0% on granular judgments, with largest failures on compound rotations and shifts in inter-object reference frames. Large coarse-to-granular gaps reveal reliance on categorical heuristics rather than geometric reasoning, a limitation hidden by existing benchmarks. These results identify orientation understanding as an unsolved challenge for multimodal systems, with implications for robotic manipulation, 3D scene reconstruction, and human-AI interaction.