Can ChatGPT Learn My Life From a Week of First-Person Video?
作者: Keegan Harris
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-04-04
💡 一句话要点
利用第一人称视频,探索ChatGPT学习个人生活信息的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 第一人称视角视频 大型语言模型 个人生活信息 模型微调 幻觉问题
📋 核心要点
- 现有生成式AI和可穿戴相机设备的发展,为AI理解个人生活提供了可能,但缺乏对模型学习能力的系统性评估。
- 该研究通过记录第一人称视频,并利用不同粒度的摘要信息微调GPT-4o系列模型,探索模型从个人生活数据中学习的能力。
- 实验结果表明,模型能够学习到一些基本和推断性信息,但也存在幻觉问题,表明模型理解的局限性。
📝 摘要(中文)
本文研究了基础模型通过第一人称视角相机数据学习佩戴者个人生活信息的能力。作者佩戴相机头显一周,共54小时,生成了不同长度的摘要(分钟级、小时级、天级)。然后,作者在这些摘要层级结构上微调了GPT-4o和GPT-4o-mini模型。通过查询微调后的模型,可以了解模型学习到的关于作者的信息。结果好坏参半:两个模型都学习到了一些基本信息(如大致年龄、性别)。此外,GPT-4o正确推断出作者居住在匹兹堡,是CMU的博士生,惯用右手,养了一只宠物猫。然而,两个模型也存在幻觉问题,会虚构视频中人物的名字。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)能否通过一周的第一人称视角视频学习到用户的个人生活信息。现有方法缺乏对LLM从连续、长时间个人数据中学习能力的评估,并且LLM容易产生幻觉,影响其可靠性。
核心思路:核心思路是利用第一人称视角视频记录用户的日常生活,然后生成不同时间粒度的摘要,并使用这些摘要微调LLM。通过查询微调后的LLM,评估其学习到的关于用户的信息,并分析其存在的幻觉问题。这种方法能够系统性地评估LLM从个人数据中学习的能力。
技术框架:整体框架包括以下几个阶段:1) 数据采集:使用相机头显记录一周的个人生活视频。2) 摘要生成:将视频分割成不同时间段(分钟、小时、天),并生成相应的摘要。3) 模型微调:使用生成的摘要微调GPT-4o和GPT-4o-mini模型。4) 模型评估:通过查询微调后的模型,评估其学习到的关于用户的信息,并分析其存在的幻觉问题。
关键创新:关键创新在于利用第一人称视角视频和多粒度摘要信息,系统性地评估LLM从个人生活数据中学习的能力。该研究不仅关注模型学习到的信息,还关注模型存在的幻觉问题,从而更全面地评估模型的性能。
关键设计:在数据采集方面,作者佩戴相机头显54小时。在摘要生成方面,生成了分钟级、小时级和天级摘要。在模型微调方面,使用了GPT-4o和GPT-4o-mini模型,并针对不同的摘要长度进行了微调。在模型评估方面,通过设计一系列问题来查询微调后的模型,并分析模型的回答。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o能够学习到用户的基本信息(如年龄、性别),并能正确推断出用户的居住地、职业、惯用手和宠物信息。例如,GPT-4o正确推断出作者居住在匹兹堡,是CMU的博士生,惯用右手,养了一只宠物猫。然而,两个模型也存在幻觉问题,会虚构视频中人物的名字,表明模型理解的局限性。
🎯 应用场景
该研究成果可应用于个性化AI助手、智能家居、健康监测等领域。通过让AI学习用户的日常生活习惯和偏好,可以提供更个性化、更智能的服务。例如,AI助手可以根据用户的日程安排和偏好,自动安排会议、提醒事项等。此外,该研究也有助于提高AI系统的可靠性和安全性,减少幻觉问题。
📄 摘要(原文)
Motivated by recent improvements in generative AI and wearable camera devices (e.g. smart glasses and AI-enabled pins), I investigate the ability of foundation models to learn about the wearer's personal life through first-person camera data. To test this, I wore a camera headset for 54 hours over the course of a week, generated summaries of various lengths (e.g. minute-long, hour-long, and day-long summaries), and fine-tuned both GPT-4o and GPT-4o-mini on the resulting summary hierarchy. By querying the fine-tuned models, we are able to learn what the models learned about me. The results are mixed: Both models learned basic information about me (e.g. approximate age, gender). Moreover, GPT-4o correctly deduced that I live in Pittsburgh, am a PhD student at CMU, am right-handed, and have a pet cat. However, both models also suffered from hallucination and would make up names for the individuals present in the video footage of my life.