The Impact of VR and 2D Interfaces on Human Feedback in Preference-Based Robot Learning

作者: Jorge de Heuvel, Daniel Marta, Simon Holk, Iolanda Leite, Maren Bennewitz

分类: cs.HC, cs.RO

发布日期: 2025-03-11 (更新: 2025-10-18)

💡 一句话要点

研究VR与2D界面对基于人类反馈机器人学习中偏好收集的影响

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 人机交互 机器人学习 偏好学习 虚拟现实 用户界面

📋 核心要点

现有基于人类反馈的机器人学习方法依赖于偏好收集，但不同界面（如2D和VR）对偏好表达的影响尚不明确。
该研究通过对比VR和2D界面，分析其对人类偏好收集和机器人导航策略对齐的影响，旨在优化人机交互界面设计。
实验构建了包含2325个偏好查询的数据集，揭示了VR和2D界面在用户体验、偏好一致性和策略结果上的显著差异。

📝 摘要（中文）

为了使机器人在共享空间中的导航舒适且可预测，将机器人导航与人类偏好对齐至关重要。基于偏好的学习方法，如基于人类反馈的强化学习(RLHF)，能够实现这种对齐，但偏好收集界面的选择可能会影响整个过程。传统的2D界面提供结构化视图，但缺乏空间深度，而沉浸式VR提供更丰富的感知，可能影响偏好的表达。本研究系统地考察了界面模态如何影响人类偏好收集和导航策略对齐。我们引入了一个包含2325个人类偏好查询的新数据集，这些查询通过VR和2D界面收集，揭示了用户体验、偏好一致性和策略结果的显著差异。我们的发现强调了沉浸感、感知和偏好可靠性之间的权衡，强调了界面选择在基于偏好的机器人学习中的重要性。该数据集可用于支持未来的研究。

🔬 方法详解

问题定义：论文旨在解决在基于人类反馈的机器人学习中，如何选择合适的界面（2D或VR）来收集人类偏好，从而更有效地训练机器人导航策略的问题。现有方法通常直接采用某种界面，而忽略了不同界面对人类偏好表达和最终策略性能的潜在影响。痛点在于缺乏对不同界面优劣势的系统性分析，导致界面选择的随意性，进而影响学习效果。

核心思路：论文的核心思路是通过对比VR和2D两种界面，研究它们在人类偏好收集过程中的差异，并分析这些差异如何影响最终学习到的机器人导航策略。通过实验数据，揭示不同界面在用户体验、偏好一致性和策略结果上的权衡，为界面选择提供指导。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 设计VR和2D两种界面，用于收集人类对机器人导航轨迹的偏好。2) 通过实验收集大量人类偏好数据，构建包含2325个查询的数据集。3) 分析不同界面下人类偏好的统计特性，例如偏好一致性、用户体验等。4) 使用收集到的偏好数据训练机器人导航策略。5) 评估不同界面下训练得到的策略性能，并进行对比分析。

关键创新：该研究的关键创新在于系统性地对比了VR和2D界面在基于人类反馈的机器人学习中的影响。以往研究较少关注界面选择对偏好收集和策略学习的影响，而该研究通过实验数据揭示了不同界面之间的权衡，为界面选择提供了实证依据。此外，该研究还构建了一个包含大量人类偏好查询的数据集，为后续研究提供了数据基础。

关键设计：在实验设计方面，研究人员精心设计了VR和2D两种界面，力求在控制变量的同时，突出两种界面的特点。例如，VR界面提供沉浸式体验，允许用户从第一人称视角观察机器人导航轨迹；而2D界面则提供结构化的鸟瞰图，方便用户进行全局比较。在数据分析方面，研究人员采用了多种统计方法，例如一致性分析、用户体验调查等，以全面评估不同界面的优劣势。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VR界面在提供更丰富的感知信息的同时，也可能导致偏好表达的不一致性。具体来说，VR界面下的用户体验更好，但偏好一致性略低于2D界面。通过VR和2D界面训练得到的导航策略在性能上存在差异，表明界面选择对最终策略结果有显著影响。该研究构建的包含2325个偏好查询的数据集，为后续研究提供了宝贵的数据资源。

🎯 应用场景

该研究成果可应用于各种需要人机协作的机器人导航场景，例如家庭服务机器人、商场导览机器人、医疗辅助机器人等。通过选择合适的界面，可以更有效地收集人类偏好，从而训练出更符合人类习惯和需求的机器人导航策略，提升用户体验和机器人实用性。未来的研究可以进一步探索其他界面模态（如AR）以及更复杂的交互方式。

📄 摘要（原文）

Aligning robot navigation with human preferences is essential for ensuring comfortable, and predictable robot movement in shared spaces. While preference-based learning methods, such as reinforcement learning from human feedback (RLHF), enable this alignment, the choice of the preference collection interface may influence the process. Traditional 2D interfaces provide structured views but lack spatial depth, whereas immersive VR offers richer perception, potentially affecting preference articulation. This study systematically examines how the interface modality impacts human preference collection and navigation policy alignment. We introduce a novel dataset of 2,325 human preference queries collected through both VR and 2D interfaces, revealing significant differences in user experience, preference consistency, and policy outcomes. Our findings highlight the trade-offs between immersion, perception, and preference reliability, emphasizing the importance of interface selection in preference-based robot learning. The dataset is available to support future research.

The Impact of VR and 2D Interfaces on Human Feedback in Preference-Based Robot Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理