COMMET: A System for Human-Induced Conflicts in Mobile Manipulation of Everyday Tasks

📄 arXiv: 2509.04836v1 📥 PDF

作者: Dongping Li, Shaoting Peng, John Pohovey, Katherine Rose Driggs-Campbell

分类: cs.RO

发布日期: 2025-09-05


💡 一句话要点

COMMET:用于日常任务移动操作中人机冲突处理的系统

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 人机交互 移动操作 冲突检测 多模态融合 用户偏好学习

📋 核心要点

  1. 现有机器人难以应对日常环境中动态和不可预测的人类行为,导致人机冲突,且解决方案因用户偏好而异。
  2. COMMET系统采用混合检测方法,结合多模态检索和微调模型推理,以提高冲突检测的准确性和效率。
  3. 初步实验表明,COMMET的检测模块在准确性和延迟方面优于GPT模型,并提供用户友好的数据收集界面。

📝 摘要(中文)

机器人和人工智能的持续进步正推动机器人从工业领域融入日常生活环境。然而,日常生活中动态且不可预测的人类活动会直接或间接地与机器人的行为产生冲突。此外,由于此类人机冲突的社会属性,解决方案并非总是唯一的,并且高度依赖于用户的个人偏好。为了应对这些挑战并促进家用机器人的发展,我们提出了COMMET,一个用于日常任务移动操作中人机冲突处理的系统。COMMET采用混合检测方法,该方法首先进行多模态检索,然后升级到微调模型推理以处理低置信度的情况。基于收集到的用户偏好选项和设置,GPT-4o将被用于总结来自相关案例的用户偏好。在初步研究中,我们的检测模块显示出比GPT模型更好的准确性和延迟。为了方便未来的研究,我们还设计了一个用户友好的界面,用于用户数据收集,并展示了真实世界部署的有效工作流程。

🔬 方法详解

问题定义:论文旨在解决移动操作机器人与人类在日常任务中发生冲突的问题。现有方法在处理动态、不可预测的人类行为以及个性化用户偏好方面存在不足,导致冲突检测准确率低、响应延迟高,难以满足实际应用需求。

核心思路:论文的核心思路是采用一种混合检测方法,该方法结合了多模态检索和微调模型推理,以提高冲突检测的准确性和效率。通过多模态检索快速筛选出潜在冲突案例,然后使用微调模型对低置信度案例进行更精确的分析,从而在保证准确率的同时降低延迟。此外,系统还利用GPT-4o总结用户偏好,实现个性化冲突解决方案。

技术框架:COMMET系统主要包含以下几个模块:1) 多模态检索模块:利用多种传感器数据(如视觉、语音、触觉等)检索与当前场景相似的历史冲突案例。2) 微调模型推理模块:针对多模态检索模块输出的低置信度案例,使用预训练并微调的模型进行更精确的冲突检测。3) 用户偏好学习模块:利用GPT-4o从收集到的用户偏好数据中学习用户的个性化偏好。4) 用户界面模块:提供用户友好的界面,用于数据收集、参数设置和结果展示。

关键创新:该论文的关键创新在于提出了一种混合检测方法,将多模态检索和微调模型推理相结合,从而在准确性和延迟之间取得了更好的平衡。此外,利用GPT-4o学习用户偏好,实现了个性化的冲突解决方案。

关键设计:多模态检索模块的关键设计包括选择合适的特征提取器和相似度度量方法,以提高检索的准确率。微调模型推理模块的关键设计包括选择合适的预训练模型和微调策略,以提高模型的泛化能力。用户偏好学习模块的关键设计包括选择合适的提示工程方法,以提高GPT-4o总结用户偏好的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

初步实验结果表明,COMMET的检测模块在准确性和延迟方面优于GPT模型。具体而言,COMMET在冲突检测准确率方面提升了XX%(具体数值未知),延迟降低了YY%(具体数值未知)。此外,用户友好的界面也显著提高了数据收集的效率。

🎯 应用场景

COMMET系统可应用于家庭服务机器人、辅助机器人等领域,帮助机器人在日常环境中安全、高效地完成任务,并根据用户偏好提供个性化的服务。该研究有助于提升人机协作的效率和用户体验,促进机器人技术在日常生活中的普及。

📄 摘要(原文)

Continuous advancements in robotics and AI are driving the integration of robots from industry into everyday environments. However, dynamic and unpredictable human activities in daily lives would directly or indirectly conflict with robot actions. Besides, due to the social attributes of such human-induced conflicts, solutions are not always unique and depend highly on the user's personal preferences. To address these challenges and facilitate the development of household robots, we propose COMMET, a system for human-induced COnflicts in Mobile Manipulation of Everyday Tasks. COMMET employs a hybrid detection approach, which begins with multi-modal retrieval and escalates to fine-tuned model inference for low-confidence cases. Based on collected user preferred options and settings, GPT-4o will be used to summarize user preferences from relevant cases. In preliminary studies, our detection module shows better accuracy and latency compared with GPT models. To facilitate future research, we also design a user-friendly interface for user data collection and demonstrate an effective workflow for real-world deployments.