Research on Short-Video Platform User Decision-Making via Multimodal Temporal Modeling and Reinforcement Learning

作者: Jinmeiyang Wang, Jing Dong, Li Zhou

分类: cs.LG, cs.IR

发布日期: 2025-09-13

备注: 26 pages

💡 一句话要点

提出MT-DQN模型，解决短视频平台用户行为预测与推荐策略优化问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 短视频推荐 多模态融合 时序建模 强化学习 用户行为预测

📋 核心要点

现有短视频推荐方法在用户行为预测和推荐策略优化方面存在不足，难以有效捕捉用户兴趣的动态变化。
MT-DQN模型融合Transformer、TGNN和DQN，旨在更准确地预测用户行为，并优化推荐策略，提升用户体验。
实验结果表明，MT-DQN在F1分数和NDCG@5等指标上显著优于传统模型，并在MSE和MAE上优于Vanilla-DQN。

📝 摘要（中文）

本文提出了MT-DQN模型，该模型集成了Transformer、时序图神经网络(TGNN)和深度Q网络(DQN)，旨在解决短视频环境中预测用户行为和优化推荐策略的挑战。实验结果表明，MT-DQN始终优于传统的拼接模型（如Concat-Modal），平均F1分数提高了10.97%，平均NDCG@5提高了8.3%。与经典的强化学习模型Vanilla-DQN相比，MT-DQN的MSE降低了34.8%，MAE降低了26.5%。然而，我们也认识到在实际场景中部署MT-DQN的挑战，例如其计算成本和在线推理期间的延迟敏感性，这些问题将在未来的架构优化中得到解决。

🔬 方法详解

问题定义：短视频平台面临用户行为预测不准确和推荐策略优化不足的问题。现有方法难以有效捕捉用户兴趣随时间变化的动态特性，导致推荐效果不佳。传统的拼接模型无法充分利用多模态信息之间的关联性，而简单的强化学习模型则难以处理复杂的时序依赖关系。

核心思路：本文的核心思路是利用Transformer捕捉多模态信息之间的关联性，使用TGNN建模用户行为的时序依赖关系，并结合DQN进行推荐策略的优化。通过融合这三种技术，MT-DQN能够更准确地预测用户行为，并制定更有效的推荐策略。

技术框架：MT-DQN模型包含三个主要模块：多模态特征提取模块（基于Transformer）、时序行为建模模块（基于TGNN）和推荐策略优化模块（基于DQN）。首先，Transformer用于提取视频内容（例如，图像、文本、音频）的多模态特征，并学习它们之间的关联性。然后，TGNN用于建模用户在短视频平台上的历史行为序列，捕捉用户兴趣随时间的变化。最后，DQN基于用户行为的预测结果，学习最优的推荐策略，以最大化用户的长期满意度。

关键创新：MT-DQN的关键创新在于将Transformer、TGNN和DQN有机地结合在一起，充分利用了多模态信息和时序行为数据。与传统的拼接模型相比，MT-DQN能够更好地捕捉多模态信息之间的关联性。与Vanilla-DQN相比，MT-DQN能够更好地建模用户行为的时序依赖关系。

关键设计：Transformer采用多头注意力机制，用于学习多模态特征之间的关联性。TGNN采用图卷积操作，用于建模用户行为之间的关系。DQN采用ε-greedy策略进行探索，并使用经验回放机制来稳定训练过程。损失函数包括预测损失和强化学习损失，通过联合优化这两个损失函数，可以提高模型的预测精度和推荐效果。

📊 实验亮点

实验结果表明，MT-DQN模型在短视频推荐任务中取得了显著的性能提升。与传统的拼接模型（Concat-Modal）相比，MT-DQN的平均F1分数提高了10.97%，平均NDCG@5提高了8.3%。与经典的强化学习模型Vanilla-DQN相比，MT-DQN的MSE降低了34.8%，MAE降低了26.5%。这些结果表明，MT-DQN能够更准确地预测用户行为，并制定更有效的推荐策略。

🎯 应用场景

该研究成果可应用于短视频、电商、新闻等推荐系统，提升用户体验和平台收益。通过更精准的用户行为预测，平台可以提供个性化推荐，提高用户粘性和活跃度。该模型还可扩展到其他需要处理多模态时序数据的领域，例如智能医疗和金融风控。

📄 摘要（原文）

This paper proposes the MT-DQN model, which integrates a Transformer, Temporal Graph Neural Network (TGNN), and Deep Q-Network (DQN) to address the challenges of predicting user behavior and optimizing recommendation strategies in short-video environments. Experiments demonstrated that MT-DQN consistently outperforms traditional concatenated models, such as Concat-Modal, achieving an average F1-score improvement of 10.97% and an average NDCG@5 improvement of 8.3%. Compared to the classic reinforcement learning model Vanilla-DQN, MT-DQN reduces MSE by 34.8% and MAE by 26.5%. Nonetheless, we also recognize challenges in deploying MT-DQN in real-world scenarios, such as its computational cost and latency sensitivity during online inference, which will be addressed through future architectural optimization.

Research on Short-Video Platform User Decision-Making via Multimodal Temporal Modeling and Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理