Exploring Mobile Touch Interaction with Large Language Models

📄 arXiv: 2502.07629v1 📥 PDF

作者: Tim Zindulka, Jannek Sekowski, Florian Lehmann, Daniel Buschek

分类: cs.HC, cs.CL

发布日期: 2025-02-11

备注: 21 pages, 16 figures, 3 tables, ACM CHI 2025

DOI: 10.1145/3706598.3713554


💡 一句话要点

提出一种基于触摸手势的LLM交互方法,用于移动设备上的文本编辑。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 触摸交互 移动设备 文本编辑 手势控制

📋 核心要点

  1. 现有移动设备上与LLM交互进行文本编辑需要用户离开当前写作环境,切换到独立的AI界面,效率较低。
  2. 提出通过直接在文本上执行触摸手势来控制LLM,例如扩展手势生成文本,捏合手势缩短文本。
  3. 用户研究表明,基于触摸的LLM控制可行且用户友好,长度+单词指示器在管理文本生成方面效果最佳。

📝 摘要(中文)

本文提出了一种新的交互方式,允许用户直接在移动设备上通过触摸手势控制大型语言模型(LLM)进行文本编辑,而无需切换到独立的对话式AI界面。研究首先构建了一个设计空间,涵盖了基本的触摸输入和文本转换。然后,在此基础上探索了两种控制映射:扩展手势用于生成文本,捏合手势用于缩短文本,并设计了视觉反馈环。通过用户研究(N=14),比较了三种反馈设计:无可视化、文本长度指示器以及长度+单词指示器。结果表明,基于触摸的LLM控制是可行且用户友好的,其中长度+单词指示器在管理文本生成方面最为有效。这项工作为进一步研究基于手势的触摸设备LLM交互奠定了基础。

🔬 方法详解

问题定义:目前在移动设备上使用大型语言模型(LLM)进行文本编辑时,用户需要中断当前的写作流程,切换到专门的对话式AI界面。这种切换操作降低了用户体验和效率,使得文本编辑过程不够流畅自然。因此,需要一种更直接、更集成化的交互方式,让用户可以在写作环境中无缝地利用LLM的能力。

核心思路:本文的核心思路是通过触摸手势直接控制LLM,将LLM的文本生成和编辑能力嵌入到用户的写作环境中。用户可以通过简单的触摸手势,例如扩展和捏合,来触发LLM生成或缩短文本。这种方式避免了频繁的界面切换,提高了用户的使用效率和沉浸感。

技术框架:该研究的技术框架主要包括以下几个部分:1) 设计空间构建:定义了触摸输入和文本转换的基本元素,为后续的控制映射设计提供理论基础。2) 控制映射设计:探索了两种具体的控制映射,即扩展手势用于生成文本,捏合手势用于缩短文本。3) 视觉反馈设计:设计了三种视觉反馈方式,包括无可视化、文本长度指示器和长度+单词指示器,用于帮助用户理解和控制LLM的行为。4) 用户研究:通过用户研究评估了不同控制映射和视觉反馈设计的有效性。

关键创新:该研究的关键创新在于提出了基于触摸手势的LLM控制方法,将LLM的文本编辑能力与移动设备的触摸交互相结合。这种方法提供了一种更自然、更直观的交互方式,使得用户可以在写作环境中无缝地利用LLM的能力。与传统的对话式AI界面相比,该方法避免了频繁的界面切换,提高了用户的使用效率和沉浸感。

关键设计:在控制映射设计方面,研究选择了扩展和捏合两种手势,分别对应生成和缩短文本两种操作。这种选择基于手势的直观性和易用性。在视觉反馈设计方面,研究比较了三种不同的反馈方式,包括无可视化、文本长度指示器和长度+单词指示器。其中,长度+单词指示器能够更清晰地反映LLM的生成行为,帮助用户更好地控制文本的长度和内容。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

用户研究结果表明,基于触摸的LLM控制是可行且用户友好的。长度+单词指示器在管理文本生成方面最为有效,用户能够更准确地控制生成文本的长度和内容。该研究为进一步探索基于手势的触摸设备LLM交互奠定了基础。

🎯 应用场景

该研究成果可应用于各种移动文本编辑应用,例如写作软件、笔记应用、邮件客户端等。通过集成基于触摸手势的LLM控制功能,可以显著提升用户的写作效率和体验。未来,该技术还可以扩展到其他领域,例如代码编辑、文档摘要等,为用户提供更智能、更便捷的文本处理能力。

📄 摘要(原文)

Interacting with Large Language Models (LLMs) for text editing on mobile devices currently requires users to break out of their writing environment and switch to a conversational AI interface. In this paper, we propose to control the LLM via touch gestures performed directly on the text. We first chart a design space that covers fundamental touch input and text transformations. In this space, we then concretely explore two control mappings: spread-to-generate and pinch-to-shorten, with visual feedback loops. We evaluate this concept in a user study (N=14) that compares three feedback designs: no visualisation, text length indicator, and length + word indicator. The results demonstrate that touch-based control of LLMs is both feasible and user-friendly, with the length + word indicator proving most effective for managing text generation. This work lays the foundation for further research into gesture-based interaction with LLMs on touch devices.