QoNext: Towards Next-generation QoE for Foundation Models

📄 arXiv: 2509.21889v2 📥 PDF

作者: Yijin Guo, Zicheng Zhang, Ye Shen, Farong Wen, Junying Wang, Qi Jia, Guangtao Zhai

分类: cs.CL

发布日期: 2025-09-26 (更新: 2025-10-09)


💡 一句话要点

QoNext:面向大模型交互体验的下一代QoE评估框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大模型评估 用户体验 体验质量 QoE 人机交互

📋 核心要点

  1. 现有大模型评估侧重输出正确性,忽略了交互过程对用户体验的影响,无法有效评估用户满意度。
  2. QoNext借鉴网络和多媒体领域的QoE原则,通过受控实验和人类评分,构建面向QoE的大模型评估框架。
  3. 实验结果表明,QoNext能更细粒度地评估用户体验,并为大模型产品化服务提供优化指导。

📝 摘要(中文)

现有的大模型评估方法,包括最近以人为中心的评估方法,都未能捕捉到真正重要的东西:用户在交互过程中的体验。目前的方法将评估视为单纯的输出正确性问题,忽略了用户满意度源于响应质量和交互之间的相互作用,这限制了它们解释用户体验背后机制的能力。为了解决这个差距,我们引入了QoNext,这是第一个将网络和多媒体领域的体验质量(QoE)原则应用于大模型评估的框架。QoNext识别出影响用户体验的体验因素,并将它们纳入受控实验中,在不同的配置下收集人类评分。从这些研究中,我们构建了一个面向QoE的数据库,并训练预测模型,从可测量的系统参数中估计感知到的用户体验。我们的结果表明,QoNext不仅能够进行主动和细粒度的评估,而且还为大模型的实际产品化服务提供了可操作的优化指导。

🔬 方法详解

问题定义:现有大模型评估方法主要关注输出结果的正确性,而忽略了用户在与模型交互过程中的体验。这种评估方式无法全面反映用户对模型的满意度,因为用户体验受到响应质量、交互方式、响应速度等多种因素的影响。因此,如何更全面、更准确地评估大模型的用户体验成为一个重要问题。

核心思路:QoNext的核心思路是将网络和多媒体领域广泛应用的体验质量(QoE)原则引入到大模型的评估中。QoE关注用户在使用服务或产品时的整体感受,包括感知质量、满意度等。通过借鉴QoE的评估方法,QoNext旨在更全面地评估大模型的用户体验,并为优化模型提供指导。

技术框架:QoNext的整体框架包括以下几个主要阶段:1) 体验因素识别:识别影响大模型用户体验的关键因素,例如响应质量、响应速度、交互方式等。2) 受控实验设计:设计受控实验,在不同的配置下(例如不同的模型参数、不同的交互方式)收集用户对大模型的评分。3) QoE数据库构建:基于实验数据构建面向QoE的数据库,包含用户评分以及对应的系统参数。4) 预测模型训练:利用数据库中的数据训练预测模型,用于从可测量的系统参数中估计用户体验。

关键创新:QoNext最重要的创新在于将QoE原则引入到大模型的评估中,从而能够更全面地评估用户体验。与现有方法相比,QoNext不仅关注输出结果的正确性,还关注交互过程中的各种因素对用户体验的影响。此外,QoNext还构建了一个面向QoE的数据库,并训练了预测模型,从而能够实现主动和细粒度的评估。

关键设计:QoNext的关键设计包括:1) 体验因素的选择:需要仔细选择影响用户体验的关键因素,例如响应的相关性、流畅性、信息量等。2) 实验设计:需要设计合理的实验,控制各种变量,以便准确评估不同因素对用户体验的影响。3) 评分标准:需要制定清晰的评分标准,以便用户能够准确地表达自己的感受。4) 预测模型:可以选择合适的机器学习模型,例如回归模型或神经网络,用于从系统参数中预测用户体验。

📊 实验亮点

QoNext通过受控实验收集人类评分,构建了面向QoE的数据库,并训练了预测模型。实验结果表明,QoNext能够从可测量的系统参数中准确估计用户体验,并为大模型的优化提供指导。具体性能数据和对比基线在论文中进行了详细展示,证明了QoNext在评估用户体验方面的有效性。

🎯 应用场景

QoNext可应用于大模型产品化服务的优化和改进。通过QoNext的评估,开发者可以了解不同配置下模型的用户体验,从而调整模型参数、优化交互方式,提升用户满意度。此外,QoNext还可以用于比较不同大模型的用户体验,为用户选择合适的模型提供参考。未来,QoNext有望成为大模型评估的重要标准。

📄 摘要(原文)

Existing evaluations of foundation models, including recent human-centric approaches, fail to capture what truly matters: user's experience during interaction. Current methods treat evaluation as a matter of output correctness alone, overlooking that user satisfaction emerges from the interplay between response quality and interaction, which limits their ability to account for the mechanisms underlying user experience. To address this gap, we introduce QoNext, the first framework that adapts Quality of Experience (QoE) principles from networking and multimedia to the assessment of foundation models. QoNext identifies experiential factors that shape user experience and incorporates them into controlled experiments, where human ratings are collected under varied configurations. From these studies we construct a QoE-oriented database and train predictive models that estimate perceived user experience from measurable system parameters. Our results demonstrate that QoNext not only enables proactive and fine-grained evaluation but also provides actionable guidance for productized services of optimizing foundation models in practice.