A Lightweight Vision-Language Fusion Framework for Predicting App Ratings from User Interfaces and Metadata

作者: Azrin Sultana, Firoz Ahmed

分类: cs.CV

发布日期: 2026-02-24

备注: 24 pages, 10 figures

💡 一句话要点

提出轻量级视觉-语言融合框架，利用UI和元数据预测App评分。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: App评分预测 视觉-语言融合 用户界面 元数据 MobileNetV3 DistilBERT 轻量级模型

📋 核心要点

现有App评分预测模型主要依赖文本或UI特征，忽略了UI和语义信息联合利用的重要性。
提出一种轻量级视觉-语言融合框架，结合MobileNetV3和DistilBERT提取UI和文本特征。
实验结果表明，该模型在多个指标上表现出色，且消融实验验证了不同模块的有效性。

📝 摘要（中文）

本文提出了一种轻量级的视觉-语言融合框架，用于整合移动应用的用户界面(UI)和语义信息，从而预测App评分。现有App评分预测模型主要依赖文本数据或UI特征，忽略了UI和语义信息联合利用的重要性。该框架结合了MobileNetV3提取UI布局的视觉特征，以及DistilBERT提取文本特征。通过带有Swish激活函数的门控融合模块融合多模态特征，然后使用多层感知机(MLP)回归头进行预测。实验结果表明，经过20个epoch的训练，该模型在平均绝对误差(MAE)为0.1060，均方根误差(RMSE)为0.1433，均方误差(MSE)为0.0205，决定系数(R2)为0.8529，Pearson相关系数为0.9251。消融实验进一步验证了不同视觉和文本编码器组合的有效性。该轻量级框架为开发者和终端用户提供了有价值的见解，支持可持续的App开发，并能够在边缘设备上高效部署。

🔬 方法详解

问题定义：论文旨在解决App评分预测问题，现有方法主要依赖于文本数据或用户界面(UI)特征，缺乏对UI视觉信息和语义信息的有效融合，导致预测精度受限。此外，现有模型通常较为复杂，难以在边缘设备上部署。

核心思路：论文的核心思路是设计一个轻量级的视觉-语言融合框架，同时利用UI的视觉特征和App的元数据文本信息，通过有效的融合机制，提升App评分预测的准确性和效率。轻量化设计使其更易于部署在资源受限的设备上。

技术框架：该框架主要包含三个模块：1) 视觉特征提取模块，使用MobileNetV3从UI布局图像中提取视觉特征；2) 文本特征提取模块，使用DistilBERT从App元数据文本中提取文本特征；3) 融合与预测模块，使用带有Swish激活函数的门控融合模块融合视觉和文本特征，然后通过多层感知机(MLP)回归头进行App评分预测。

关键创新：该论文的关键创新在于提出了一种轻量级的视觉-语言融合框架，能够有效地整合UI的视觉信息和App的元数据文本信息，从而提升App评分预测的准确性。此外，门控融合模块和Swish激活函数的应用也提升了模型的性能。

关键设计：视觉特征提取模块采用预训练的MobileNetV3模型，文本特征提取模块采用预训练的DistilBERT模型。门控融合模块使用sigmoid函数生成门控权重，控制视觉和文本特征的贡献。损失函数采用均方误差(MSE)。模型训练采用Adam优化器，学习率设置为0.001，训练epoch设置为20。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该模型在MAE、RMSE、MSE、R2和Pearson相关系数等多个指标上均取得了优异的性能，其中MAE为0.1060，R2为0.8529，Pearson相关系数为0.9251。消融实验验证了视觉和文本编码器组合的有效性，证明了该框架的优越性。

🎯 应用场景

该研究成果可应用于App商店的推荐系统，帮助用户快速找到高质量的App。同时，开发者可以利用该模型预测App的潜在评分，从而改进App的设计和功能，提升用户满意度。此外，该轻量级框架易于部署在移动设备上，为用户提供实时的App评分预测服务。

📄 摘要（原文）

App ratings are among the most significant indicators of the quality, usability, and overall user satisfaction of mobile applications. However, existing app rating prediction models are largely limited to textual data or user interface (UI) features, overlooking the importance of jointly leveraging UI and semantic information. To address these limitations, this study proposes a lightweight vision--language framework that integrates both mobile UI and semantic information for app rating prediction. The framework combines MobileNetV3 to extract visual features from UI layouts and DistilBERT to extract textual features. These multimodal features are fused through a gated fusion module with Swish activations, followed by a multilayer perceptron (MLP) regression head. The proposed model is evaluated using mean absolute error (MAE), root mean square error (RMSE), mean squared error (MSE), coefficient of determination (R2), and Pearson correlation. After training for 20 epochs, the model achieves an MAE of 0.1060, an RMSE of 0.1433, an MSE of 0.0205, an R2 of 0.8529, and a Pearson correlation of 0.9251. Extensive ablation studies further demonstrate the effectiveness of different combinations of visual and textual encoders. Overall, the proposed lightweight framework provides valuable insights for developers and end users, supports sustainable app development, and enables efficient deployment on edge devices.

A Lightweight Vision-Language Fusion Framework for Predicting App Ratings from User Interfaces and Metadata

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理