NUMINA: A Natural Understanding Benchmark for Multi-dimensional Intelligence and Numerical Reasoning Abilities

📄 arXiv: 2509.16656v2 📥 PDF

作者: Changyu Zeng, Yifan Wang, Zimu Wang, Wei Wang, Zhengni Yang, Muyi Bao, Jiming Xiao, Anh Nguyen, Yutao Yue

分类: cs.AI

发布日期: 2025-09-20 (更新: 2025-10-01)

期刊: Findings of the Association for Computational Linguistics: EMNLP 2025, pages 22575--22590

DOI: 0.18653/v1/2025.findings-emnlp.1229

🔗 代码/项目: GITHUB


💡 一句话要点

提出NUMINA:一个多维度智能与数值推理能力的自然理解基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D场景理解 数值推理 多模态学习 自然语言处理 基准数据集

📋 核心要点

  1. 现有3D基准缺乏细粒度的数值推理标注,限制了MLLMs在3D场景中进行精确空间测量和复杂数值推理的能力。
  2. NUMINA通过构建包含多尺度标注和多样化问答对的基准,促进多模态室内场景下数值推理能力的提升。
  3. 实验表明,现有LLMs在NUMINA基准上进行精确计算(如距离和体积估计)时表现不佳,亟需进一步改进。

📝 摘要(中文)

二维多模态大语言模型(MLLMs)在视觉-语言任务中取得了显著进展。然而,由于空间推理的复杂性,将这些能力扩展到三维环境仍然是一个独特的挑战。现有的3D基准通常缺乏细粒度的数值推理任务标注,限制了MLLMs执行精确空间测量和复杂数值推理的能力。为了解决这个问题,我们引入了NUMINA,这是第一个用于多维度智能和数值推理能力的自然理解基准,旨在增强多模态室内感知理解。NUMINA具有多尺度标注和各种问答对,这些问答对是使用NUMINA-Flow自动标注流程生成的,该流程集成了LLM重写和基于规则的自验证。我们按照Chat-Scene框架评估了各种最先进的LLM在NUMINA上的性能,结果表明,当前的LLM在多模态数值推理方面存在困难,尤其是在执行精确计算(如距离和体积估计)时,这突出了对3D模型进行进一步改进的必要性。数据集和源代码可从https://github.com/fengshun124/NUMINA获取。

🔬 方法详解

问题定义:论文旨在解决现有3D视觉-语言模型在室内场景下缺乏细粒度数值推理能力的问题。现有3D基准数据集通常缺乏对空间距离、体积等数值信息的精确标注,导致模型难以进行精确的空间测量和复杂的数值计算,限制了其在实际场景中的应用。

核心思路:论文的核心思路是构建一个包含丰富数值推理标注的3D室内场景数据集NUMINA,并设计相应的评估框架,以促进多模态大语言模型在3D场景下的数值推理能力。通过高质量的标注和多样化的问答对,NUMINA能够更全面地评估模型的空间理解和数值计算能力。

技术框架:NUMINA的构建主要包含以下几个阶段:1)数据收集:收集包含丰富室内场景的3D点云数据;2)多尺度标注:对点云数据进行多尺度标注,包括物体类别、位置、尺寸等信息,并特别关注数值信息的精确标注;3)问答对生成:利用NUMINA-Flow自动生成问答对,该流程集成了LLM重写和基于规则的自验证,确保问答对的多样性和准确性;4)评估框架:设计Chat-Scene框架,用于评估不同LLM在NUMINA上的性能。

关键创新:NUMINA的关键创新在于:1)它是首个专注于多维度智能和数值推理能力的自然理解基准;2)它采用了NUMINA-Flow自动标注流程,能够高效地生成高质量的问答对;3)它提供了多尺度的标注,能够更全面地评估模型的空间理解能力。

关键设计:NUMINA-Flow流程的关键设计包括:1)LLM重写:利用LLM对初始问题进行重写,以生成更多样化的问答对;2)基于规则的自验证:设计一系列规则,用于验证生成的问答对是否符合逻辑和常识,以确保标注的准确性。此外,NUMINA还采用了多尺度标注策略,包括物体级别的标注、场景级别的标注等,以适应不同粒度的数值推理任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的LLM在NUMINA基准上表现不佳,尤其是在执行精确计算(如距离和体积估计)时。例如,在距离估计任务中,模型的平均误差较高,表明其对空间信息的理解和数值计算能力仍有待提高。这些结果突出了对3D模型进行进一步改进的必要性,为未来的研究方向提供了指导。

🎯 应用场景

NUMINA的研究成果可应用于机器人导航、智能家居、虚拟现实等领域。通过提升模型在3D场景下的数值推理能力,可以使机器人更好地理解和操作周围环境,例如,精确测量物体之间的距离,规划最优路径,以及进行复杂的空间推理。此外,该研究也有助于开发更智能的虚拟现实应用,提供更逼真的用户体验。

📄 摘要(原文)

Recent advancements in 2D multimodal large language models (MLLMs) have significantly improved performance in vision-language tasks. However, extending these capabilities to 3D environments remains a distinct challenge due to the complexity of spatial reasoning. Nevertheless, existing 3D benchmarks often lack fine-grained numerical reasoning task annotations, limiting MLLMs' ability to perform precise spatial measurements and complex numerical reasoning. To address this gap, we introduce NUMINA, the first Natural Understanding benchmark for Multi-dimensional Intelligence and Numerical reasoning Abilities to enhance multimodal indoor perceptual understanding. NUMINA features multi-scale annotations and various question-answer pairs, generated using NUMINA-Flow, an automated annotation pipeline that integrates LLM rewriting and rule-based self-verification. We evaluate the performance of various state-of-the-art LLMs on NUMINA following the Chat-Scene framework, demonstrating that current LLMs struggle with multimodal numerical reasoning, particularly in performing precise computations such as distance and volume estimation, highlighting the need for further advancements in 3D models. The dataset and source codes can be obtained from https://github.com/fengshun124/NUMINA.