Trust in Vision-Language Models: Insights from a Participatory User Workshop

作者: Agnese Chiatti, Lara Piccolo, Sara Bernardini, Matteo Matteucci, Viola Schiaffonati

分类: cs.HC, cs.AI, cs.CV

发布日期: 2025-11-17

期刊: Proceedings of the The European Workshop on Trustworthy AI (Trust-AI) at ECAI 2025

💡 一句话要点

通过用户参与式研讨会洞察视觉-语言模型中的用户信任问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 视觉-语言模型 用户信任 人机交互 用户研究 参与式设计

📋 核心要点

现有方法缺乏对用户如何建立和演变对视觉-语言模型信任的深入理解，阻碍了有效的人机协作。
论文采用用户中心方法，通过研讨会收集用户对VLM的信任认知，为后续研究提供基础。
初步研讨会结果为设计更有效的信任指标和用户参与策略提供了宝贵见解，促进人机信任关系的建立。

📝 摘要（中文）

随着视觉-语言模型（VLM）日益普及，这些模型在大型图像-文本和视频-文本数据集上进行预训练，因此为用户提供辨别何时信任这些系统的工具至关重要。然而，考察用户对VLM的信任如何建立和演变仍然是一个开放性问题。由于越来越多地依赖AI模型作为实验验证的评判标准，以绕过直接与用户进行参与式设计研究的成本和影响，这个问题变得更加复杂。本文采用以用户为中心的方法，展示了与潜在VLM用户举行的研讨会的初步结果。来自该试点研讨会的见解为未来的研究提供了信息，旨在将信任指标和参与者参与策略置于用户-VLM交互的背景中。

🔬 方法详解

问题定义：当前视觉-语言模型（VLM）的应用日益广泛，但用户如何判断何时应该信任这些模型仍然是一个开放性问题。现有方法主要依赖AI模型进行实验验证，忽略了直接与用户交互的重要性，导致对用户信任机制的理解不足。这使得用户难以有效地与VLM进行协作，并可能导致对模型输出的过度信任或不信任。

核心思路：本文的核心思路是通过用户参与式研讨会，直接收集用户对VLM的信任认知和反馈。通过这种方式，研究人员可以更深入地了解用户在与VLM交互过程中如何建立和调整信任，从而为设计更有效的信任指标和用户参与策略提供依据。这种以用户为中心的方法旨在弥合AI模型评估与真实用户体验之间的差距。

技术框架：本文主要采用定性研究方法，通过组织用户研讨会来收集数据。研讨会流程包括：1) 向参与者介绍VLM的基本概念和应用；2) 让参与者体验VLM的实际应用，例如图像描述生成、视觉问答等；3) 引导参与者讨论他们对VLM的信任程度、信任原因以及影响信任的因素；4) 收集参与者的反馈和建议，用于改进VLM的设计和用户交互方式。

关键创新：本文的关键创新在于采用用户参与式研讨会的方式来研究用户对VLM的信任问题。与传统的AI模型评估方法不同，这种方法更加注重用户的实际体验和主观感受，能够更全面地了解用户信任机制的复杂性。此外，本文还强调了在VLM设计中考虑用户信任的重要性，并提出了基于用户反馈改进VLM的思路。

关键设计：研讨会的设计是本文的关键。为了确保研讨会的有效性，研究人员需要精心设计研讨会的流程、选择合适的VLM应用场景、制定清晰的讨论议题，并采用有效的引导技巧。此外，研究人员还需要对收集到的数据进行仔细分析，提取有价值的见解，并将其转化为可操作的建议。

📊 实验亮点

该研究通过初步的用户研讨会，揭示了用户在与VLM交互过程中信任建立的关键因素。研讨会结果表明，用户对VLM的信任程度受到模型准确性、可解释性、一致性以及用户自身经验等多种因素的影响。这些发现为后续研究提供了宝贵的参考，并为设计更值得信赖的VLM系统指明了方向。

🎯 应用场景

该研究成果可应用于各种需要人机协作的视觉-语言任务，例如智能客服、辅助诊断、自动驾驶等。通过提升用户对VLM的信任度，可以提高人机协作的效率和安全性，并促进VLM在实际场景中的广泛应用。未来的研究可以进一步探索不同用户群体对VLM的信任差异，并设计个性化的信任增强策略。

📄 摘要（原文）

With the growing deployment of Vision-Language Models (VLMs), pre-trained on large image-text and video-text datasets, it is critical to equip users with the tools to discern when to trust these systems. However, examining how user trust in VLMs builds and evolves remains an open problem. This problem is exacerbated by the increasing reliance on AI models as judges for experimental validation, to bypass the cost and implications of running participatory design studies directly with users. Following a user-centred approach, this paper presents preliminary results from a workshop with prospective VLM users. Insights from this pilot workshop inform future studies aimed at contextualising trust metrics and strategies for participants' engagement to fit the case of user-VLM interaction.

Trust in Vision-Language Models: Insights from a Participatory User Workshop

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册