Research on Short-Video Platform User Decision-Making via Multimodal Temporal Modeling and Reinforcement Learning

📄 arXiv: 2509.12269v1 📥 PDF

作者: Jinmeiyang Wang, Jing Dong, Li Zhou

分类: cs.LG, cs.IR

发布日期: 2025-09-13

备注: 26 pages


💡 一句话要点

提出MT-DQN模型,解决短视频平台用户行为预测与推荐策略优化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 短视频推荐 多模态融合 时序建模 强化学习 用户行为预测

📋 核心要点

  1. 现有短视频推荐方法在用户行为预测和推荐策略优化方面存在不足,难以有效捕捉用户兴趣的动态变化。
  2. MT-DQN模型融合Transformer、TGNN和DQN,旨在更准确地预测用户行为,并优化推荐策略,提升用户体验。
  3. 实验结果表明,MT-DQN在F1分数和NDCG@5等指标上显著优于传统模型,并在MSE和MAE上优于Vanilla-DQN。

📝 摘要(中文)

本文提出了MT-DQN模型,该模型集成了Transformer、时序图神经网络(TGNN)和深度Q网络(DQN),旨在解决短视频环境中预测用户行为和优化推荐策略的挑战。实验结果表明,MT-DQN始终优于传统的拼接模型(如Concat-Modal),平均F1分数提高了10.97%,平均NDCG@5提高了8.3%。与经典的强化学习模型Vanilla-DQN相比,MT-DQN的MSE降低了34.8%,MAE降低了26.5%。然而,我们也认识到在实际场景中部署MT-DQN的挑战,例如其计算成本和在线推理期间的延迟敏感性,这些问题将在未来的架构优化中得到解决。

🔬 方法详解

问题定义:短视频平台面临用户行为预测不准确和推荐策略优化不足的问题。现有方法难以有效捕捉用户兴趣随时间变化的动态特性,导致推荐效果不佳。传统的拼接模型无法充分利用多模态信息之间的关联性,而简单的强化学习模型则难以处理复杂的时序依赖关系。

核心思路:本文的核心思路是利用Transformer捕捉多模态信息之间的关联性,使用TGNN建模用户行为的时序依赖关系,并结合DQN进行推荐策略的优化。通过融合这三种技术,MT-DQN能够更准确地预测用户行为,并制定更有效的推荐策略。

技术框架:MT-DQN模型包含三个主要模块:多模态特征提取模块(基于Transformer)、时序行为建模模块(基于TGNN)和推荐策略优化模块(基于DQN)。首先,Transformer用于提取视频内容(例如,图像、文本、音频)的多模态特征,并学习它们之间的关联性。然后,TGNN用于建模用户在短视频平台上的历史行为序列,捕捉用户兴趣随时间的变化。最后,DQN基于用户行为的预测结果,学习最优的推荐策略,以最大化用户的长期满意度。

关键创新:MT-DQN的关键创新在于将Transformer、TGNN和DQN有机地结合在一起,充分利用了多模态信息和时序行为数据。与传统的拼接模型相比,MT-DQN能够更好地捕捉多模态信息之间的关联性。与Vanilla-DQN相比,MT-DQN能够更好地建模用户行为的时序依赖关系。

关键设计:Transformer采用多头注意力机制,用于学习多模态特征之间的关联性。TGNN采用图卷积操作,用于建模用户行为之间的关系。DQN采用ε-greedy策略进行探索,并使用经验回放机制来稳定训练过程。损失函数包括预测损失和强化学习损失,通过联合优化这两个损失函数,可以提高模型的预测精度和推荐效果。

📊 实验亮点

实验结果表明,MT-DQN模型在短视频推荐任务中取得了显著的性能提升。与传统的拼接模型(Concat-Modal)相比,MT-DQN的平均F1分数提高了10.97%,平均NDCG@5提高了8.3%。与经典的强化学习模型Vanilla-DQN相比,MT-DQN的MSE降低了34.8%,MAE降低了26.5%。这些结果表明,MT-DQN能够更准确地预测用户行为,并制定更有效的推荐策略。

🎯 应用场景

该研究成果可应用于短视频、电商、新闻等推荐系统,提升用户体验和平台收益。通过更精准的用户行为预测,平台可以提供个性化推荐,提高用户粘性和活跃度。该模型还可扩展到其他需要处理多模态时序数据的领域,例如智能医疗和金融风控。

📄 摘要(原文)

This paper proposes the MT-DQN model, which integrates a Transformer, Temporal Graph Neural Network (TGNN), and Deep Q-Network (DQN) to address the challenges of predicting user behavior and optimizing recommendation strategies in short-video environments. Experiments demonstrated that MT-DQN consistently outperforms traditional concatenated models, such as Concat-Modal, achieving an average F1-score improvement of 10.97% and an average NDCG@5 improvement of 8.3%. Compared to the classic reinforcement learning model Vanilla-DQN, MT-DQN reduces MSE by 34.8% and MAE by 26.5%. Nonetheless, we also recognize challenges in deploying MT-DQN in real-world scenarios, such as its computational cost and latency sensitivity during online inference, which will be addressed through future architectural optimization.