Explainable Recommendation with Simulated Human Feedback
作者: Jiakai Tang, Jingsen Zhang, Zihang Tian, Xueyang Feng, Lei Wang, Xu Chen
分类: cs.IR, cs.AI, cs.CL
发布日期: 2025-04-19 (更新: 2025-08-07)
期刊: ACM Transactions on Information Systems, Vol. 1, No. 1, Article 1 (January 2025)
DOI: 10.1145/3758091
💡 一句话要点
提出基于模拟人类反馈的可解释推荐框架,解决现有方法缺乏有效反馈信号的问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 可解释推荐 大型语言模型 人类反馈 帕累托优化 离线策略优化
📋 核心要点
- 现有可解释推荐方法依赖于稀疏交互数据上的传统监督学习,缺乏有效的反馈信号来优化生成的解释。
- 利用大型语言模型(LLM)作为人类模拟器,预测类人反馈,并通过定制奖励评分和帕累托优化来指导学习过程。
- 在四个数据集上的实验表明,该方法优于现有方法,能够有效提升可解释推荐的性能。
📝 摘要(中文)
本文提出了一种新颖的、类人反馈驱动的优化框架,用于解决可解释推荐中缺乏有效反馈信号的问题。该框架采用动态交互优化机制,以低成本实现以人为中心的可解释性需求。具体而言,利用大型语言模型(LLM)作为人类模拟器,预测类人反馈,从而指导学习过程。为了使LLM深入理解任务本质并满足用户多样化的个性化需求,引入了一种人为诱导的定制奖励评分方法,以激发LLM的语言理解和逻辑推理能力。此外,考虑到解释质量不同视角之间可能存在的冲突,引入了帕累托优化,将多视角质量提升任务转化为多目标优化问题,从而提高解释性能。最后,为了实现高效的模型训练,设计了一个离线策略优化流程,通过结合回放缓冲区并解决数据分布偏差,有效地提高数据利用率并增强模型泛化能力。在四个数据集上的大量实验证明了该方法的优越性。
🔬 方法详解
问题定义:现有可解释推荐方法依赖于稀疏的用户交互数据,难以获得有效的反馈信号来指导解释生成。传统的监督学习范式无法充分利用用户对解释的偏好信息,导致生成的解释可能不够准确或个性化。因此,如何为可解释推荐系统提供有效的反馈信号,以生成更符合用户需求的解释,是一个亟待解决的问题。
核心思路:本文的核心思路是利用大型语言模型(LLM)来模拟人类用户,生成类人反馈信号,从而指导可解释推荐模型的训练。通过将可解释推荐问题转化为一个反馈驱动的优化问题,可以有效地利用LLM的语言理解和逻辑推理能力,生成更准确、更个性化的解释。此外,通过帕累托优化,可以平衡不同解释质量视角之间的冲突,从而生成更全面的解释。
技术框架:该框架包含以下几个主要模块:1) LLM人类模拟器:利用LLM生成类人反馈信号,包括对解释的评分和改进建议。2) 人为诱导的定制奖励评分:设计一种奖励函数,引导LLM生成更符合用户需求的反馈。3) 帕累托优化:将多视角解释质量提升转化为多目标优化问题,平衡不同视角之间的冲突。4) 离线策略优化:利用回放缓冲区和重要性采样,提高数据利用率和模型泛化能力。
关键创新:该论文的关键创新在于:1) 提出了一种基于LLM的类人反馈驱动的优化框架,为可解释推荐提供了新的优化思路。2) 引入了一种人为诱导的定制奖励评分方法,有效激发了LLM的语言理解和逻辑推理能力。3) 采用帕累托优化,解决了不同解释质量视角之间的冲突。
关键设计:在奖励函数设计方面,采用了人为诱导的方式,鼓励LLM从多个角度评估解释的质量,并提供改进建议。在帕累托优化方面,采用了多目标优化算法,平衡了不同解释质量视角之间的权重。在离线策略优化方面,采用了重要性采样来解决数据分布偏差问题,并利用回放缓冲区来提高数据利用率。
📊 实验亮点
实验结果表明,该方法在四个数据集上均优于现有基线方法,能够显著提升解释的准确性和用户满意度。例如,在MovieLens-1M数据集上,该方法在解释质量指标上平均提升了10%以上。此外,消融实验验证了各个模块的有效性,证明了LLM人类模拟器、定制奖励评分和帕累托优化对提升解释性能的贡献。
🎯 应用场景
该研究成果可应用于电商、社交媒体、在线教育等多个领域,提升用户体验和满意度。通过提供更清晰、更个性化的推荐解释,可以增强用户对推荐结果的信任感,提高用户采纳推荐的意愿,并最终促进业务增长。未来,该方法还可以扩展到其他需要解释性的AI应用中,例如医疗诊断、金融风控等。
📄 摘要(原文)
Recent advancements in explainable recommendation have greatly bolstered user experience by elucidating the decision-making rationale. However, the existing methods actually fail to provide effective feedback signals for potentially better or worse generated explanations due to their reliance on traditional supervised learning paradigms in sparse interaction data. To address these issues, we propose a novel human-like feedback-driven optimization framework. This framework employs a dynamic interactive optimization mechanism for achieving human-centered explainable requirements without incurring high labor costs. Specifically, we propose to utilize large language models (LLMs) as human simulators to predict human-like feedback for guiding the learning process. To enable the LLMs to deeply understand the task essence and meet user's diverse personalized requirements, we introduce a human-induced customized reward scoring method, which helps stimulate the language understanding and logical reasoning capabilities of LLMs. Furthermore, considering the potential conflicts between different perspectives of explanation quality, we introduce a principled Pareto optimization that transforms the multi-perspective quality enhancement task into a multi-objective optimization problem for improving explanation performance. At last, to achieve efficient model training, we design an off-policy optimization pipeline. By incorporating a replay buffer and addressing the data distribution biases, we can effectively improve data utilization and enhance model generality. Extensive experiments on four datasets demonstrate the superiority of our approach.