Image Quality Assessment for Embodied AI

📄 arXiv: 2505.16815v2 📥 PDF

作者: Chunyi Li, Jiaohao Xiao, Jianbo Zhang, Farong Wen, Zicheng Zhang, Yuan Tian, Xiangyang Zhu, Xiaohong Liu, Zhengxue Cheng, Weisi Lin, Guangtao Zhai

分类: cs.CV, cs.RO

发布日期: 2025-05-22 (更新: 2025-10-14)

🔗 代码/项目: GITHUB


💡 一句话要点

提出Embodied-IQA数据集与评估体系,用于评估具身智能在真实场景下的图像质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 图像质量评估 机器人感知 视觉语言模型 数据集构建

📋 核心要点

  1. 现有IQA方法无法有效评估图像在具身智能任务中的可用性,缺乏针对机器人感知的质量评估标准。
  2. 构建感知-认知-决策-执行流程,并结合视觉语言模型、动作模型和真实机器人,定义全面的主观评分收集过程。
  3. 构建包含3.6万图像对的Embodied-IQA数据库,并验证主流IQA方法在该数据集上的性能,揭示其局限性。

📝 摘要(中文)

近年来,具身智能发展迅速,但主要部署在实验室中,现实世界的各种失真限制了其应用。传统的图像质量评估(IQA)方法用于预测人类对失真图像的偏好;然而,目前还没有IQA方法来评估图像在具身任务中的可用性,即机器人感知的质量。为了为未来的具身场景提供准确可靠的质量指标,我们首次提出了“具身人工智能的IQA”这一主题。具体来说,我们(1)基于默顿体系和元认知理论,构建了一个感知-认知-决策-执行的流程,并定义了一个全面的主观评分收集过程;(2)建立了Embodied-IQA数据库,包含超过3.6万个参考/失真图像对,以及由视觉语言模型/视觉语言动作模型/真实世界机器人提供的超过500万个细粒度标注;(3)在Embodied-IQA上训练并验证了主流IQA方法的性能,证明了开发更准确的具身人工智能质量指标的必要性。我们真诚地希望通过评估,能够促进具身人工智能在现实世界复杂失真下的应用。

🔬 方法详解

问题定义:论文旨在解决具身智能在真实世界应用中,由于图像质量下降导致性能受限的问题。现有的图像质量评估方法主要关注人类视觉感知,无法准确反映图像对于机器人执行具身任务的可用性。因此,需要一种新的IQA方法,能够评估图像对于具身智能系统的感知质量。

核心思路:论文的核心思路是构建一个专门针对具身智能的图像质量评估体系。该体系不仅考虑图像的视觉质量,更重要的是评估图像对于机器人执行任务的有效性。通过模拟机器人的感知、认知、决策和执行过程,来评估图像质量。

技术框架:论文构建了一个感知-认知-决策-执行的流程,作为评估图像质量的基础。该流程包含以下主要模块:1) 感知模块:模拟机器人对图像的感知过程;2) 认知模块:利用视觉语言模型对图像内容进行理解;3) 决策模块:基于图像理解,做出相应的决策;4) 执行模块:模拟机器人执行决策后的动作。通过这个流程,可以评估图像质量对机器人任务完成的影响。

关键创新:论文的关键创新在于提出了“具身人工智能的IQA”这一概念,并构建了相应的评估体系和数据集。与传统的IQA方法相比,该方法更关注图像对于机器人任务的可用性,而不是单纯的视觉质量。此外,论文还利用视觉语言模型和真实机器人进行标注,提高了数据集的质量和可靠性。

关键设计:论文的关键设计包括:1) 基于默顿体系和元认知理论构建的感知-认知-决策-执行流程;2) 利用视觉语言模型、视觉语言动作模型和真实世界机器人进行细粒度标注;3) Embodied-IQA数据库的构建,包含多种失真类型和场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了包含超过3.6万个参考/失真图像对的Embodied-IQA数据库,并提供了超过500万个细粒度标注。实验结果表明,主流IQA方法在Embodied-IQA数据集上的性能表现不佳,验证了开发更准确的具身人工智能质量指标的必要性。该数据集和评估体系为后续研究提供了重要的基准。

🎯 应用场景

该研究成果可应用于提升具身智能系统在真实环境中的鲁棒性和可靠性。例如,可以用于优化机器人视觉系统的参数,提高机器人导航、物体识别和操作等任务的性能。此外,该研究还可以促进具身智能在工业自动化、智能家居、医疗健康等领域的应用。

📄 摘要(原文)

Embodied AI has developed rapidly in recent years, but it is still mainly deployed in laboratories, with various distortions in the Real-world limiting its application. Traditionally, Image Quality Assessment (IQA) methods are applied to predict human preferences for distorted images; however, there is no IQA method to assess the usability of an image in embodied tasks, namely, the perceptual quality for robots. To provide accurate and reliable quality indicators for future embodied scenarios, we first propose the topic: IQA for Embodied AI. Specifically, we (1) based on the Mertonian system and meta-cognitive theory, constructed a perception-cognition-decision-execution pipeline and defined a comprehensive subjective score collection process; (2) established the Embodied-IQA database, containing over 36k reference/distorted image pairs, with more than 5m fine-grained annotations provided by Vision Language Models/Vision Language Action-models/Real-world robots; (3) trained and validated the performance of mainstream IQA methods on Embodied-IQA, demonstrating the need to develop more accurate quality indicators for Embodied AI. We sincerely hope that through evaluation, we can promote the application of Embodied AI under complex distortions in the Real-world. Project page: https://github.com/lcysyzxdxc/EmbodiedIQA