Can We Trust AI-Inferred User States. A Psychometric Framework for Validating the Reliability of Users States Classification by LLMs in Operational Environments
作者: Izabella Krzeminska, Michal Butkiewicz, Ewa Komkowska
分类: cs.AI
发布日期: 2026-05-15
备注: Full survey article with data tables for futher possible replicabilty and comparison
💡 一句话要点
提出评估框架,验证LLM推断用户状态的可靠性,提升自适应系统AI设计的可信度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 用户状态推断 可靠性评估 心理测量学 自适应系统
📋 核心要点
- 现有会话和自适应系统依赖LLM评估用户状态,但缺乏对评估指标个体层面稳定性和可靠性的验证。
- 论文提出一个可复制的评估框架,通过复制评估程序,量化LLM推断用户状态指标的可靠性。
- 实验表明,许多指标在个体层面不稳定,不适用于实时自适应系统,但聚合后可能具有分析价值。
📝 摘要(中文)
本文针对会话式和自适应系统中,使用大型语言模型(LLM)评估用户状态时,假设评估指标在个体层面具有稳定性和可解释性的问题,进行了实证研究,重点关注人工智能(AI)衡量用户状态的心理测量可靠性。研究采用复制评估程序,评估了三种不同的双模态大型语言模型(GPT-4o audio, Gemini 2.0 Flash, Gemini 2.5 Flash)中,一系列指标的可重复性。分析包括个体得分可靠性和聚合可靠性,从而区分出可能适用于实时自适应的指标,以及仅在聚合分析中保留其价值的指标。结果表明,指标可靠性不能被认为是解释性领域的默认属性。个体得分层面的不稳定性,排除了将这些得分解释为实时自适应系统中用户状态指标的可能性,即使这些指标在聚合后表现出稳定性。同时,研究表明,个体不稳定的指标可以在事后研究中保留分析效用,识别控制交互的规则及其与用户体验参数(如满意度、信任和参与度)的关系。除了量化问题的严重性(213个指标中只有31个符合标准)之外,这项工作的主要贡献是提出了一个可复制的评估框架,能够对指标适用性进行可测量的评估。这种方法支持更负责任的自适应系统AI设计,其中结果的解释需要明确验证可靠性,并监控随时间的违规行为。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在会话式和自适应系统中用于推断用户状态时,其评估指标的可靠性问题。现有方法通常假设这些指标在个体层面是稳定且可解释的,但缺乏充分的验证。这种假设可能导致系统基于不可靠的指标进行决策,从而影响用户体验和系统的有效性。因此,论文关注的问题是:LLM推断的用户状态指标是否真的可靠?以及如何评估这种可靠性?
核心思路:论文的核心思路是通过心理测量学的视角,借鉴心理测量学中评估量表可靠性的方法,来评估LLM推断用户状态指标的可靠性。具体来说,论文采用复制评估程序,即在不同的LLM模型上,使用相同的输入数据,评估同一指标的一致性。如果一个指标在不同的模型上表现出高度的一致性,那么就可以认为该指标是可靠的。这种思路的优势在于,它提供了一种量化的、可重复的方法来评估LLM推断用户状态指标的可靠性。
技术框架:论文的技术框架主要包括以下几个步骤: 1. 选择LLM模型:选择多个不同的LLM模型,以评估指标在不同模型上的泛化能力。论文选择了GPT-4o audio, Gemini 2.0 Flash, Gemini 2.5 Flash三种模型。 2. 定义用户状态指标:定义需要评估的用户状态指标,例如情感、意图、满意度等。论文评估了一系列广泛的指标。 3. 构建测试数据集:构建包含用户交互数据的测试数据集,用于输入到LLM模型中。 4. 进行复制评估:使用相同的测试数据集,分别输入到不同的LLM模型中,并记录每个模型对每个用户状态指标的预测结果。 5. 计算可靠性指标:使用心理测量学中的可靠性指标,例如克朗巴赫系数(Cronbach's alpha)、组内相关系数(Intraclass Correlation Coefficient, ICC)等,来评估不同模型预测结果的一致性。 6. 分析结果:分析可靠性指标的结果,判断哪些指标是可靠的,哪些指标是不可靠的。
关键创新:论文的关键创新在于: 1. 提出了一种基于心理测量学的评估框架:该框架提供了一种系统化的、可重复的方法来评估LLM推断用户状态指标的可靠性。 2. 强调了个体层面可靠性的重要性:论文指出,即使指标在聚合层面表现出可靠性,但在个体层面不可靠的指标仍然不适用于实时自适应系统。 3. 量化了LLM推断用户状态指标的可靠性:论文通过实验,量化了不同LLM模型在不同用户状态指标上的可靠性,为后续研究提供了参考。
关键设计:论文的关键设计包括: 1. 选择合适的LLM模型:选择具有代表性的LLM模型,以评估指标在不同模型上的泛化能力。 2. 定义清晰的用户状态指标:定义清晰、可操作的用户状态指标,以便LLM模型能够准确地进行预测。 3. 构建高质量的测试数据集:构建包含丰富用户交互数据的测试数据集,以确保评估结果的有效性。 4. 选择合适的可靠性指标:选择能够准确反映指标一致性的可靠性指标,例如克朗巴赫系数、组内相关系数等。
📊 实验亮点
实验结果表明,在213个评估的指标中,只有31个满足可靠性标准,这意味着大多数LLM推断的用户状态指标在个体层面是不可靠的。研究还发现,即使某些指标在聚合后表现出稳定性,但在个体层面上的不稳定性仍然使其不适用于实时自适应系统。该研究强调了在自适应系统设计中,对AI指标可靠性进行明确验证和持续监控的必要性。
🎯 应用场景
该研究成果可应用于各种需要理解用户状态的自适应系统中,例如智能客服、个性化推荐、教育辅导等。通过评估和选择可靠的AI指标,可以提升系统的决策质量和用户体验。该研究也为未来AI系统的设计提供了指导,强调了在实际应用中验证AI模型可靠性的重要性。
📄 摘要(原文)
The use of large language models to assess user states in conversational and adaptive systems is based on the assumption that the metrics used for such assessment are stable and interpretable at the level of individual scores. This paper empirically tests this assumption, focusing on the psychometric reliability of artificial intelligence (AI) measures of user states. This study employed replication evaluation procedures to assess the repeatability of a broad set of metrics across three different bimodal large language models (GPT-4o audio, Gemini 2.0 Flash, Gemini 2.5 Flash). Analyses include both individual score reliability and aggregated reliability, allowing us to distinguish metrics potentially useful for real-time adaptation from those that retain their value only in aggregated analyses. The results demonstrate that metric reliability cannot be considered a default property in interpretive domains. The lack of stability at the level of individual scores precludes the interpretation of such scores as indicators of user state in real-time adaptive systems, even if these metrics demonstrate stability after aggregation. At the same time, the study indicates that individually unstable metrics can retain analytical utility in post-hoc studies, identifying rules governing interactions and their relationships with user experience parameters such as satisfaction, trust, and engagement. The main contribution of this work, besides quantifying the severity of the problem (only 31 of 213 metrics met the criteria), is the proposal of a replicable evaluation framework, enabling measurable evaluations of metric applicability. This approach supports more responsible AI design of adaptive systems, in which the interpretation of results requires explicit validation of reliability and monitoring for violations over time.