RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation

作者: Enguang Liu, Siyuan Liang, Liming Lu, Xiyu Zeng, Xiaochun Cao, Aishan Liu, Shuchao Pang

分类: cs.RO, cs.CV

发布日期: 2025-09-26

💡 一句话要点

提出RoboView-Bias基准，用于量化具身智能体在机器人操作中的视觉偏差

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 具身智能体 视觉偏差 机器人操作 基准测试 感知公平性

📋 核心要点

现有具身智能体基准缺乏对视觉偏差的系统量化，限制了对感知如何影响决策稳定性的理解。
RoboView-Bias通过因子隔离原则，构建结构化的变体生成框架和感知公平性验证协议，量化视觉偏差。
实验表明，所有智能体都存在显著视觉偏差，相机视角影响最大，且视觉偏差存在非对称耦合。

📝 摘要（中文）

具身智能体的安全性和可靠性依赖于准确且无偏的视觉感知。然而，现有的基准主要强调泛化性和在扰动下的鲁棒性，而对视觉偏差的系统量化仍然不足。这种差距限制了对感知如何影响决策稳定性的更深理解。为了解决这个问题，我们提出了RoboView-Bias，这是第一个专门设计用于系统量化机器人操作中视觉偏差的基准，遵循因子隔离原则。利用结构化的变体生成框架和感知公平性验证协议，我们创建了2127个任务实例，能够稳健地测量由单个视觉因素及其相互作用引起的偏差。使用这个基准，我们系统地评估了两种主流范式中的三个代表性具身智能体，并报告了三个关键发现：（i）所有智能体都表现出显著的视觉偏差，其中相机视角是最关键的因素；（ii）智能体在高度饱和的颜色上实现了最高的成功率，表明它们继承了底层VLM的视觉偏好；（iii）视觉偏差表现出很强的非对称耦合，视角强烈放大了与颜色相关的偏差。最后，我们证明了基于语义 grounding 层的缓解策略在 MOKA 上将视觉偏差显著降低了约 54.5%。我们的结果表明，对视觉偏差的系统分析是开发安全可靠的通用具身智能体的先决条件。

🔬 方法详解

问题定义：现有具身智能体在机器人操作任务中，其视觉感知存在偏差，导致决策不稳定和安全性问题。现有的基准测试主要关注泛化性和鲁棒性，缺乏对视觉偏差的系统性量化分析，难以评估和改进智能体的公平性。

核心思路：通过构建一个可控的、结构化的环境，隔离并操纵不同的视觉因素（如颜色、视角、光照等），系统地评估具身智能体在不同视觉条件下的表现差异。核心在于量化这些视觉因素对智能体决策的影响程度，从而揭示其视觉偏差。

技术框架：RoboView-Bias基准包含以下几个主要模块：1) 场景生成模块：基于因子隔离原则，生成包含不同视觉因素组合的场景变体。2) 任务执行模块：在生成的场景中运行具身智能体，执行预定义的机器人操作任务。3) 性能评估模块：量化智能体在不同场景下的成功率，并分析视觉因素与性能之间的关系。4) 感知公平性验证协议：用于验证智能体在不同视觉条件下的表现是否公平。

关键创新：RoboView-Bias是第一个专门针对具身智能体视觉偏差进行系统量化的基准。其创新之处在于：1) 提出了因子隔离的场景生成方法，能够精确控制和操纵视觉因素。2) 设计了感知公平性验证协议，用于评估智能体在不同视觉条件下的表现是否公平。3) 提供了一个全面的评估框架，能够系统地分析视觉因素对智能体决策的影响。

关键设计：场景生成模块采用参数化的方式控制视觉因素，例如，颜色通过HSV颜色空间进行调整，视角通过相机位置和姿态进行控制，光照通过调整光源强度和方向进行控制。感知公平性验证协议采用统计学方法，例如，计算不同视觉条件下的成功率差异，并进行显著性检验。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所有被评估的具身智能体都表现出显著的视觉偏差，其中相机视角是最关键的因素。智能体在高度饱和的颜色上表现更好，表明其继承了底层VLM的视觉偏好。通过引入基于语义 grounding 层的缓解策略，在MOKA数据集上，视觉偏差降低了约54.5%。

🎯 应用场景

该研究成果可应用于提升具身智能体在机器人操作任务中的可靠性和公平性。例如，在工业自动化、家庭服务机器人等领域，通过降低视觉偏差，可以提高机器人在复杂环境中的适应性和安全性。此外，该基准也可用于评估和改进现有的视觉感知算法，促进更鲁棒和公平的AI系统的发展。

📄 摘要（原文）

The safety and reliability of embodied agents rely on accurate and unbiased visual perception. However, existing benchmarks mainly emphasize generalization and robustness under perturbations, while systematic quantification of visual bias remains scarce. This gap limits a deeper understanding of how perception influences decision-making stability. To address this issue, we propose RoboView-Bias, the first benchmark specifically designed to systematically quantify visual bias in robotic manipulation, following a principle of factor isolation. Leveraging a structured variant-generation framework and a perceptual-fairness validation protocol, we create 2,127 task instances that enable robust measurement of biases induced by individual visual factors and their interactions. Using this benchmark, we systematically evaluate three representative embodied agents across two prevailing paradigms and report three key findings: (i) all agents exhibit significant visual biases, with camera viewpoint being the most critical factor; (ii) agents achieve their highest success rates on highly saturated colors, indicating inherited visual preferences from underlying VLMs; and (iii) visual biases show strong, asymmetric coupling, with viewpoint strongly amplifying color-related bias. Finally, we demonstrate that a mitigation strategy based on a semantic grounding layer substantially reduces visual bias by approximately 54.5\% on MOKA. Our results highlight that systematic analysis of visual bias is a prerequisite for developing safe and reliable general-purpose embodied agents.

RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理