RealitySummary: Exploring On-Demand Mixed Reality Text Summarization and Question Answering using Large Language Models

📄 arXiv: 2405.18620v3 📥 PDF

作者: Aditya Gunturu, Shivesh Jadon, Nandi Zhang, Morteza Faraji, Jarin Thundathil, Wesley Willett, Ryo Suzuki

分类: cs.HC, cs.AI, cs.CL

发布日期: 2024-05-28 (更新: 2025-09-23)

备注: SUI 2025

DOI: 10.1145/3694907.3765933


💡 一句话要点

RealitySummary:探索基于大语言模型的混合现实文本摘要与问答

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合现实 大型语言模型 文本摘要 问答系统 人机交互

📋 核心要点

  1. 现有方法难以将大型语言模型有效集成到混合现实环境中,以支持用户进行日常阅读和理解。
  2. RealitySummary通过集成LLM、常开摄像头、OCR和空间视觉增强,构建MR阅读助手,提供即时文本摘要和问答。
  3. 通过用户研究和实际部署,验证了该方法在隐式辅助、长期记忆和减少上下文切换方面的优势。

📝 摘要(中文)

大型语言模型(LLM)作为阅读和摘要辅助工具正变得越来越受欢迎。然而,当它们与混合现实(MR)界面集成以支持日常阅读时,其潜在益处知之甚少。在这项迭代研究中,我们开发了RealitySummary,一个MR阅读助手,它无缝集成了LLM与常开摄像头访问、基于OCR的文本提取以及增强的空间和视觉响应。RealitySummary经过迭代开发,经历了三个版本,每个版本都受到用户反馈和反思性分析的影响:1) 初步用户研究,以了解读者的看法(N=12);2) 野外部署,以探索真实世界的使用情况(N=11);3) 日记研究,以捕捉来自真实世界工作环境的见解(N=5)。我们的实证研究结果突出了AI和MR结合的独特优势,包括常开的隐式辅助、长期的时间历史、最小的上下文切换和空间可供性,展示了未来LLM-MR界面超越传统基于屏幕的交互的巨大潜力。

🔬 方法详解

问题定义:论文旨在解决如何将大型语言模型(LLM)有效地集成到混合现实(MR)环境中,以辅助用户进行日常阅读和文本理解的问题。现有方法主要依赖于屏幕交互,缺乏与现实世界的直接联系,导致上下文切换频繁,效率低下。

核心思路:论文的核心思路是构建一个MR阅读助手,利用MR设备的常开摄像头和空间感知能力,结合LLM的文本理解和生成能力,实现对现实世界文本的即时摘要和问答。通过空间视觉增强,将LLM的输出自然地融入到用户的视野中,减少上下文切换,提高阅读效率。

技术框架:RealitySummary的技术框架主要包含以下几个模块:1) 常开摄像头:持续捕捉现实世界中的文本信息;2) OCR模块:将摄像头捕捉到的图像转换为可编辑的文本;3) LLM集成:利用LLM对提取的文本进行摘要和问答;4) MR界面:将LLM的输出以空间增强的方式呈现给用户。整个流程是实时的、连续的,用户无需手动触发,即可获得辅助信息。

关键创新:该论文的关键创新在于将LLM与MR环境深度融合,实现了常开的、隐式的文本辅助。与传统的屏幕交互方式相比,RealitySummary能够提供更自然、更沉浸式的阅读体验,减少上下文切换,提高阅读效率。此外,该研究还通过迭代开发和用户反馈,不断优化系统设计,使其更符合用户的实际需求。

关键设计:RealitySummary的关键设计包括:1) 优化OCR模块,提高文本识别的准确率和速度;2) 选择合适的LLM,平衡性能和资源消耗;3) 设计直观的空间增强界面,避免干扰用户的正常视野;4) 实现长期的时间历史记录,方便用户回顾和查找信息。具体的参数设置、损失函数和网络结构等技术细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究通过三个阶段的实验,包括初步用户研究、野外部署和日记研究,验证了RealitySummary的有效性。用户反馈表明,该系统在隐式辅助、长期记忆和减少上下文切换方面具有显著优势。具体性能数据和提升幅度未在摘要中详细说明,属于未知信息。

🎯 应用场景

该研究成果可应用于教育、办公、旅游等多个领域。例如,学生可以使用该系统快速理解教材内容,提高学习效率;办公人员可以利用该系统快速浏览文档,提取关键信息;游客可以使用该系统了解景点介绍,获取实时翻译。未来,该技术有望成为一种普及的智能辅助工具,提升人们在现实世界中获取和理解信息的能力。

📄 摘要(原文)

Large Language Models (LLMs) are gaining popularity as reading and summarization aids. However, little is known about their potential benefits when integrated with mixed reality (MR) interfaces to support everyday reading. In this iterative investigation, we developed RealitySummary, an MR reading assistant that seamlessly integrates LLMs with always-on camera access, OCR-based text extraction, and augmented spatial and visual responses. Developed iteratively, RealitySummary evolved across three versions, each shaped by user feedback and reflective analysis: 1) a preliminary user study to understand reader perceptions (N=12), 2) an in-the-wild deployment to explore real-world usage (N=11), and 3) a diary study to capture insights from real-world work contexts (N=5). Our empirical studies' findings highlight the unique advantages of combining AI and MR, including always-on implicit assistance, long-term temporal history, minimal context switching, and spatial affordances, demonstrating significant potential for future LLM-MR interfaces beyond traditional screen-based interactions.