User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance

📄 arXiv: 2408.03160v2 📥 PDF

作者: Mrinal Verghese, Brian Chen, Hamid Eghbalzadeh, Tushar Nagarajan, Ruta Desai

分类: cs.CV, cs.AI

发布日期: 2024-08-04 (更新: 2024-08-12)

备注: 9 pages, 4 figures


💡 一句话要点

用户闭环评估多模态LLM在活动辅助中的应用,Socratic模型表现更优

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态LLM 活动辅助 用户闭环评估 Socratic模型 视觉条件语言模型

📋 核心要点

  1. 现有方法难以有效利用长时间视觉历史进行活动辅助,尤其是在用户参与的闭环场景中。
  2. 论文提出使用Socratic模型和VCLM,通过用户闭环实验评估多模态LLM在活动辅助中的性能。
  3. 实验结果表明,Socratic模型在离线和在线环境中均优于VCLM,但长时视觉历史仍具挑战。

📝 摘要(中文)

本研究旨在评估基于大型语言模型(LLM)的多模态推理模型在视觉驱动的日常活动辅助中的能力。这类助手需要能够:1)编码来自助手传感器(如摄像头)的相关视觉历史;2)预测完成活动所需的未来动作;3)根据用户反馈进行重新规划。为了评估前两个能力,即视觉历史的短时和长时有效性,我们使用离线数据集对Socratic模型和视觉条件语言模型(VCLM)这两类主流多模态LLM方法进行了基于视频的动作预测任务的基准测试。然而,这些离线基准测试无法实现与用户的闭环,而这对于评估重新规划能力和衡量辅助场景中活动完成的成功率至关重要。为此,我们进行了一项首次用户研究,招募了18名参与者,佩戴名为Aria的以自我为中心的观察设备,并遵循多模态LLM的辅助,执行3种不同的多步骤烹饪活动。研究发现,Socratic方法在离线和在线环境中均优于VCLM。我们进一步强调了在活动辅助中常见的长时间视觉历史对当前模型仍然具有挑战性,特别是对于VCLM,并证明了离线指标并不能代表在线性能。

🔬 方法详解

问题定义:论文旨在解决多模态LLM在活动辅助场景中的应用评估问题,特别是如何有效地利用视觉信息,预测未来动作,并根据用户反馈进行动态调整。现有方法主要集中在离线数据集上的基准测试,缺乏与用户的闭环交互,无法真实反映模型在实际辅助场景中的性能。此外,长时间视觉历史的处理也是一个挑战,现有模型难以有效利用这些信息进行准确预测。

核心思路:论文的核心思路是通过构建一个用户闭环的评估框架,让参与者在实际的活动(烹饪)中与多模态LLM进行交互,从而更全面地评估模型的性能。同时,对比Socratic模型和VCLM两种不同的多模态LLM方法,分析它们在处理短时和长时视觉历史方面的优劣。

技术框架:整体框架包含离线基准测试和在线用户研究两个部分。离线部分使用视频数据集评估模型在动作预测任务上的性能。在线部分,参与者佩戴Aria设备,该设备捕捉第一人称视角的视频,然后将视频输入到多模态LLM中,LLM给出下一步动作的建议,参与者根据建议执行动作,并提供反馈。整个过程形成一个闭环,可以评估模型的重新规划能力和活动完成的成功率。

关键创新:论文的关键创新在于构建了一个用户闭环的评估框架,能够更真实地反映多模态LLM在活动辅助场景中的性能。此外,论文还对比了Socratic模型和VCLM两种不同的方法,并分析了它们在处理长时视觉历史方面的差异。

关键设计:在用户研究中,选择了三种不同的烹饪活动,每种活动包含多个步骤。参与者需要佩戴Aria设备,该设备以一定的帧率捕捉视频。多模态LLM接收视频输入,并输出下一步动作的建议。研究人员设计了合适的评估指标,例如动作预测的准确率、活动完成的成功率等,用于评估模型的性能。具体模型参数设置和损失函数等细节在论文中可能未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Socratic模型在离线和在线环境中均优于VCLM。具体来说,Socratic模型在动作预测任务上的准确率更高,并且在用户闭环的活动辅助场景中,Socratic模型能够更好地根据用户反馈进行重新规划,从而提高活动完成的成功率。此外,实验还发现,离线指标并不能完全代表在线性能,这表明用户闭环的评估方法对于评估活动辅助系统的性能至关重要。

🎯 应用场景

该研究成果可应用于开发智能家居助手、康复辅助系统、远程指导等领域。通过结合视觉信息和语言模型,可以为用户提供更加个性化和智能化的服务,提高生活质量。未来,可以进一步探索如何更好地利用长时视觉历史,以及如何将用户反馈融入到模型的训练过程中,从而提升模型的性能。

📄 摘要(原文)

Our research investigates the capability of modern multimodal reasoning models, powered by Large Language Models (LLMs), to facilitate vision-powered assistants for multi-step daily activities. Such assistants must be able to 1) encode relevant visual history from the assistant's sensors, e.g., camera, 2) forecast future actions for accomplishing the activity, and 3) replan based on the user in the loop. To evaluate the first two capabilities, grounding visual history and forecasting in short and long horizons, we conduct benchmarking of two prominent classes of multimodal LLM approaches -- Socratic Models and Vision Conditioned Language Models (VCLMs) on video-based action anticipation tasks using offline datasets. These offline benchmarks, however, do not allow us to close the loop with the user, which is essential to evaluate the replanning capabilities and measure successful activity completion in assistive scenarios. To that end, we conduct a first-of-its-kind user study, with 18 participants performing 3 different multi-step cooking activities while wearing an egocentric observation device called Aria and following assistance from multimodal LLMs. We find that the Socratic approach outperforms VCLMs in both offline and online settings. We further highlight how grounding long visual history, common in activity assistance, remains challenging in current models, especially for VCLMs, and demonstrate that offline metrics do not indicate online performance.