Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks
作者: Keanu Nichols, Nazia Tasnim, Yuting Yan, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan A. Plummer
分类: cs.CV
发布日期: 2025-05-27 (更新: 2025-06-04)
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
DORI:提出细粒度多轴感知基准,解耦多模态大模型中的方向理解能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 方向理解 多模态学习 视觉-语言模型 基准测试 3D空间表示
📋 核心要点
- 现有视觉-语言基准测试难以有效评估模型对物体方向的理解能力,常常与其他视觉属性和场景理解能力混淆。
- DORI基准通过精心设计的任务,从正面校准、旋转变换等四个维度,全面评估多模态模型对物体方向的感知能力。
- 实验结果表明,现有模型在精确角度估计、跨视角方向跟踪和复合旋转理解方面存在显著不足,揭示了模型内部3D空间表示的局限性。
📝 摘要(中文)
物体方向理解是视觉感知中的一项基本挑战,对于机器人操作和增强现实等应用至关重要。现有的视觉-语言基准测试未能分离出这种能力,常常将其与位置关系和一般场景理解混淆。我们提出了DORI(判别方向推理智能),这是一个全面的基准,将物体方向感知确立为主要评估目标。DORI评估了方向理解的四个维度:正面校准、旋转变换、相对方向关系和规范方向理解。通过来自11个数据集的精心策划的任务,涵盖了合成和真实场景中的67个物体类别,DORI提供了关于多模态系统如何理解物体方向的见解。我们对15个最先进的视觉-语言模型的评估揭示了关键的局限性:即使是最好的模型在粗略任务上的准确率也只有54.2%,在细粒度方向判断上的准确率只有33.0%,而对于需要参考系转换或复合旋转的任务,性能会下降。这些发现表明需要专门的方向表示机制,因为模型显示出系统性地无法执行精确的角度估计、跟踪跨视点的方向变化以及理解复合旋转——这表明它们的内部3D空间表示存在局限性。作为第一个专门为多模态系统中的方向感知而设计的诊断框架,DORI为改进机器人控制、3D场景重建以及物理环境中的人机交互提供了启示。DORI数据:https://huggingface.co/datasets/appledora/DORI-Benchmark
🔬 方法详解
问题定义:现有视觉-语言模型在理解物体方向方面存在不足,而现有的基准测试又无法有效分离和评估这种能力。模型常常将方向理解与位置关系、场景理解等其他视觉属性混淆,导致无法准确评估模型对方向的感知能力。这阻碍了模型在机器人操作、增强现实等需要精确方向理解的应用中的发展。
核心思路:DORI的核心思路是构建一个专门用于评估物体方向理解能力的基准测试。通过设计一系列细粒度的任务,从多个维度考察模型对物体方向的感知能力,从而更准确地评估模型的方向理解能力。DORI旨在揭示现有模型在方向理解方面的局限性,并为未来的研究提供指导。
技术框架:DORI基准测试包含11个数据集,涵盖67个物体类别,包括合成和真实场景。DORI从四个维度评估方向理解能力:1) 正面校准:判断物体是否正面朝向;2) 旋转变换:理解物体旋转后的方向变化;3) 相对方向关系:理解物体之间的方向关系;4) 规范方向理解:理解物体的标准方向。每个维度都包含多个任务,例如判断物体是否“倒置”,或者判断两个物体哪个“更靠左”。
关键创新:DORI的关键创新在于其细粒度的多轴评估方法。与以往的基准测试不同,DORI不是简单地评估模型是否能够识别物体,而是深入评估模型对物体方向的理解程度。通过从多个维度考察模型对方向的感知能力,DORI能够更准确地评估模型的方向理解能力,并揭示模型在不同方向理解任务上的表现差异。
关键设计:DORI的任务设计考虑了多种因素,例如物体类别、场景复杂度和方向变化的幅度。为了确保评估的公平性,DORI对所有模型使用相同的输入格式和评估指标。DORI使用准确率作为主要的评估指标,并对不同任务的难度进行加权,以确保评估结果的可靠性。
🖼️ 关键图片
📊 实验亮点
DORI对15个最先进的视觉-语言模型进行了评估,结果表明现有模型在方向理解方面存在显著不足。即使是最好的模型在粗略任务上的准确率也只有54.2%,在细粒度方向判断上的准确率只有33.0%。对于需要参考系转换或复合旋转的任务,性能会进一步下降。这些结果表明,现有模型缺乏专门的方向表示机制,无法准确地执行角度估计、跟踪跨视点的方向变化和理解复合旋转。
🎯 应用场景
DORI基准测试的潜在应用领域包括机器人控制、3D场景重建和人机交互。通过提高模型对物体方向的理解能力,可以使机器人更准确地抓取和操作物体,提高3D场景重建的精度,并改善人机交互的自然性和流畅性。DORI的研究成果将有助于推动这些领域的发展,并为未来的研究提供指导。
📄 摘要(原文)
Object orientation understanding represents a fundamental challenge in visual perception critical for applications like robotic manipulation and augmented reality. Current vision-language benchmarks fail to isolate this capability, often conflating it with positional relationships and general scene understanding. We introduce DORI (Discriminative Orientation Reasoning Intelligence), a comprehensive benchmark establishing object orientation perception as a primary evaluation target. DORI assesses four dimensions of orientation comprehension: frontal alignment, rotational transformations, relative directional relationships, and canonical orientation understanding. Through carefully curated tasks from 11 datasets spanning 67 object categories across synthetic and real-world scenarios, DORI provides insights on how multi-modal systems understand object orientations. Our evaluation of 15 state-of-the-art vision-language models reveals critical limitations: even the best models achieve only 54.2% accuracy on coarse tasks and 33.0% on granular orientation judgments, with performance deteriorating for tasks requiring reference frame shifts or compound rotations. These findings demonstrate the need for dedicated orientation representation mechanisms, as models show systematic inability to perform precise angular estimations, track orientation changes across viewpoints, and understand compound rotations - suggesting limitations in their internal 3D spatial representations. As the first diagnostic framework specifically designed for orientation awareness in multimodal systems, DORI offers implications for improving robotic control, 3D scene reconstruction, and human-AI interaction in physical environments. DORI data: https://huggingface.co/datasets/appledora/DORI-Benchmark