PILAR: Personalizing Augmented Reality Interactions with LLM-based Human-Centric and Trustworthy Explanations for Daily Use Cases

作者: Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque

分类: cs.HC, cs.AI

发布日期: 2025-12-19

备注: Published in the 2025 IEEE International Symposium on Mixed and Augmented Reality Adjunct (ISMAR-Adjunct)

DOI: 10.1109/ISMAR-Adjunct68609.2025.00060

💡 一句话要点

PILAR：利用LLM提供个性化AR交互解释，提升日常使用场景的用户体验和信任度

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 增强现实 可解释性人工智能 大型语言模型 个性化推荐 用户体验

📋 核心要点

现有XAI方法难以提供动态、个性化、以人为本的AR交互解释，导致用户体验不佳。
PILAR框架利用LLM生成上下文感知的个性化解释，统一解决不同解释维度的问题。
用户研究表明，基于LLM的解释界面显著提升用户体验，任务完成速度提高40%。

📝 摘要（中文）

人工智能驱动的增强现实（AR）系统日益融入日常生活，实时用户交互中的可解释性需求也随之增长。传统的解释性人工智能（XAI）方法，通常依赖于基于特征或基于示例的解释，难以提供动态、特定语境、个性化和以人为本的洞察。这些方法通常使用不同的解释技术来解决不同的可解释性维度（例如，何时、什么、如何），导致不切实际和碎片化的AR交互体验。为了解决这个问题，我们提出了PILAR，一个新颖的框架，利用预训练的大型语言模型（LLM）生成上下文感知的个性化解释，在实时AI驱动的AR系统中提供更直观和值得信赖的体验。与传统方法不同，PILAR采用统一的基于LLM的方法，动态地调整解释以满足用户的需求，从而增强信任和参与度。我们在一个真实的AR应用（例如，个性化食谱推荐）中实现了PILAR概念，这是一个开源原型，集成了实时对象检测、食谱推荐和基于LLM的个性化食谱解释，这些解释基于用户的饮食偏好。我们通过一项用户研究评估了PILAR的有效性，其中16名参与者执行基于AR的食谱推荐任务，并将基于LLM的解释界面与传统的基于模板的界面进行比较。结果表明，基于LLM的界面显著提高了用户的表现和体验，参与者完成任务的速度提高了40%，并且报告了更高的满意度、易用性和感知透明度。

🔬 方法详解

问题定义：现有AR系统中的可解释性方法，如基于特征或示例的解释，无法提供动态、上下文相关的个性化解释。传统方法通常针对不同的解释维度（何时、什么、如何）使用不同的技术，导致用户体验碎片化，难以建立用户信任。因此，需要一种能够提供统一、个性化、且易于理解的解释框架，以提升AR系统的用户体验和信任度。

核心思路：PILAR的核心思路是利用预训练的大型语言模型（LLM）的强大生成能力，将AR场景中的对象检测、用户偏好等信息作为LLM的输入，生成自然语言形式的个性化解释。这种方法能够动态地适应用户的需求，提供更直观、更易于理解的解释，从而增强用户的信任感和参与度。

技术框架：PILAR框架主要包含三个模块：1) 实时对象检测模块，用于识别AR场景中的物体；2) 食谱推荐模块，根据检测到的物体和用户偏好推荐食谱；3) 基于LLM的解释模块，该模块接收对象检测结果、食谱信息和用户偏好作为输入，利用LLM生成个性化的食谱解释。整个流程是实时的，用户可以通过AR界面与系统进行交互，并获得相应的解释。

关键创新：PILAR的关键创新在于使用LLM来统一处理不同维度的解释需求，避免了传统方法中需要针对不同维度设计不同解释技术的复杂性。此外，PILAR能够根据用户的个性化偏好生成定制化的解释，从而更好地满足用户的需求，提升用户体验。

关键设计：PILAR使用预训练的LLM，并通过少量样本进行微调，以适应食谱推荐场景的解释需求。在提示工程方面，设计了包含对象信息、食谱信息和用户偏好的提示模板，以引导LLM生成高质量的解释。此外，还设计了用户友好的AR界面，方便用户与系统进行交互，并查看生成的解释。

📊 实验亮点

用户研究表明，与传统的基于模板的解释界面相比，基于LLM的PILAR框架显著提高了用户的表现和体验。具体来说，参与者在使用PILAR完成任务的速度提高了40%，并且报告了更高的满意度、易用性和感知透明度。这些结果表明，PILAR能够有效地提升AR系统的用户体验和信任度。

🎯 应用场景

PILAR框架可应用于各种需要个性化解释的AR场景，例如智能家居、远程医疗、教育培训等。通过提供清晰、易懂的解释，可以帮助用户更好地理解AI系统的决策过程，从而增强用户对AI系统的信任感，并促进AI技术在日常生活中的应用。

📄 摘要（原文）

Artificial intelligence (AI)-driven augmented reality (AR) systems are becoming increasingly integrated into daily life, and with this growth comes a greater need for explainability in real-time user interactions. Traditional explainable AI (XAI) methods, which often rely on feature-based or example-based explanations, struggle to deliver dynamic, context-specific, personalized, and human-centric insights for everyday AR users. These methods typically address separate explainability dimensions (e.g., when, what, how) with different explanation techniques, resulting in unrealistic and fragmented experiences for seamless AR interactions. To address this challenge, we propose PILAR, a novel framework that leverages a pre-trained large language model (LLM) to generate context-aware, personalized explanations, offering a more intuitive and trustworthy experience in real-time AI-powered AR systems. Unlike traditional methods, which rely on multiple techniques for different aspects of explanation, PILAR employs a unified LLM-based approach that dynamically adapts explanations to the user's needs, fostering greater trust and engagement. We implement the PILAR concept in a real-world AR application (e.g., personalized recipe recommendations), an open-source prototype that integrates real-time object detection, recipe recommendation, and LLM-based personalized explanations of the recommended recipes based on users' dietary preferences. We evaluate the effectiveness of PILAR through a user study with 16 participants performing AR-based recipe recommendation tasks, comparing an LLM-based explanation interface to a traditional template-based one. Results show that the LLM-based interface significantly enhances user performance and experience, with participants completing tasks 40% faster and reporting greater satisfaction, ease of use, and perceived transparency.

PILAR: Personalizing Augmented Reality Interactions with LLM-based Human-Centric and Trustworthy Explanations for Daily Use Cases

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理