Exploring Mobile Touch Interaction with Large Language Models

作者: Tim Zindulka, Jannek Sekowski, Florian Lehmann, Daniel Buschek

分类: cs.HC, cs.CL

发布日期: 2025-02-11

备注: 21 pages, 16 figures, 3 tables, ACM CHI 2025

DOI: 10.1145/3706598.3713554

💡 一句话要点

提出一种基于触摸手势的LLM交互方法，用于移动设备上的文本编辑。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 触摸交互 移动设备 文本编辑 手势控制

📋 核心要点

现有移动设备上与LLM交互进行文本编辑需要用户离开当前写作环境，切换到独立的AI界面，效率较低。
提出通过直接在文本上执行触摸手势来控制LLM，例如扩展手势生成文本，捏合手势缩短文本。
用户研究表明，基于触摸的LLM控制可行且用户友好，长度+单词指示器在管理文本生成方面效果最佳。

📝 摘要（中文）

本文提出了一种新的交互方式，允许用户直接在移动设备上通过触摸手势控制大型语言模型（LLM）进行文本编辑，而无需切换到独立的对话式AI界面。研究首先构建了一个设计空间，涵盖了基本的触摸输入和文本转换。然后，在此基础上探索了两种控制映射：扩展手势用于生成文本，捏合手势用于缩短文本，并设计了视觉反馈环。通过用户研究（N=14），比较了三种反馈设计：无可视化、文本长度指示器以及长度+单词指示器。结果表明，基于触摸的LLM控制是可行且用户友好的，其中长度+单词指示器在管理文本生成方面最为有效。这项工作为进一步研究基于手势的触摸设备LLM交互奠定了基础。

🔬 方法详解

问题定义：目前在移动设备上使用大型语言模型（LLM）进行文本编辑时，用户需要中断当前的写作流程，切换到专门的对话式AI界面。这种切换操作降低了用户体验和效率，使得文本编辑过程不够流畅自然。因此，需要一种更直接、更集成化的交互方式，让用户可以在写作环境中无缝地利用LLM的能力。

核心思路：本文的核心思路是通过触摸手势直接控制LLM，将LLM的文本生成和编辑能力嵌入到用户的写作环境中。用户可以通过简单的触摸手势，例如扩展和捏合，来触发LLM生成或缩短文本。这种方式避免了频繁的界面切换，提高了用户的使用效率和沉浸感。

技术框架：该研究的技术框架主要包括以下几个部分：1) 设计空间构建：定义了触摸输入和文本转换的基本元素，为后续的控制映射设计提供理论基础。2) 控制映射设计：探索了两种具体的控制映射，即扩展手势用于生成文本，捏合手势用于缩短文本。3) 视觉反馈设计：设计了三种视觉反馈方式，包括无可视化、文本长度指示器和长度+单词指示器，用于帮助用户理解和控制LLM的行为。4) 用户研究：通过用户研究评估了不同控制映射和视觉反馈设计的有效性。

关键创新：该研究的关键创新在于提出了基于触摸手势的LLM控制方法，将LLM的文本编辑能力与移动设备的触摸交互相结合。这种方法提供了一种更自然、更直观的交互方式，使得用户可以在写作环境中无缝地利用LLM的能力。与传统的对话式AI界面相比，该方法避免了频繁的界面切换，提高了用户的使用效率和沉浸感。

关键设计：在控制映射设计方面，研究选择了扩展和捏合两种手势，分别对应生成和缩短文本两种操作。这种选择基于手势的直观性和易用性。在视觉反馈设计方面，研究比较了三种不同的反馈方式，包括无可视化、文本长度指示器和长度+单词指示器。其中，长度+单词指示器能够更清晰地反映LLM的生成行为，帮助用户更好地控制文本的长度和内容。

🖼️ 关键图片

📊 实验亮点

用户研究结果表明，基于触摸的LLM控制是可行且用户友好的。长度+单词指示器在管理文本生成方面最为有效，用户能够更准确地控制生成文本的长度和内容。该研究为进一步探索基于手势的触摸设备LLM交互奠定了基础。

🎯 应用场景

该研究成果可应用于各种移动文本编辑应用，例如写作软件、笔记应用、邮件客户端等。通过集成基于触摸手势的LLM控制功能，可以显著提升用户的写作效率和体验。未来，该技术还可以扩展到其他领域，例如代码编辑、文档摘要等，为用户提供更智能、更便捷的文本处理能力。

📄 摘要（原文）

Interacting with Large Language Models (LLMs) for text editing on mobile devices currently requires users to break out of their writing environment and switch to a conversational AI interface. In this paper, we propose to control the LLM via touch gestures performed directly on the text. We first chart a design space that covers fundamental touch input and text transformations. In this space, we then concretely explore two control mappings: spread-to-generate and pinch-to-shorten, with visual feedback loops. We evaluate this concept in a user study (N=14) that compares three feedback designs: no visualisation, text length indicator, and length + word indicator. The results demonstrate that touch-based control of LLMs is both feasible and user-friendly, with the length + word indicator proving most effective for managing text generation. This work lays the foundation for further research into gesture-based interaction with LLMs on touch devices.

Exploring Mobile Touch Interaction with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理