PREFER: Personalized Review Summarization with Online Preference Learning

📄 arXiv: 2605.05911v1 📥 PDF

作者: Millend Roy, Agostino Capponi, Vineet Goyal

分类: cs.AI, cs.GT, cs.LG, eess.SY, math.OC

发布日期: 2026-05-07


💡 一句话要点

提出PREFER在线偏好学习框架,实现针对用户动态需求的个性化评论摘要生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 个性化摘要 在线学习 用户偏好建模 电子商务 自然语言生成 交互式系统

📋 核心要点

  1. 现有评论摘要系统多为通用型,无法捕捉不同用户对产品属性的差异化关注,且忽略了用户偏好随时间演变的动态特性。
  2. 论文提出PREFER在线学习框架,通过引入用户反馈机制,在交互过程中实时迭代并精炼系统对用户潜在偏好的建模。
  3. 在Amazon Reviews'23数据集上的仿真实验证明,该方法在维持摘要高质量的前提下,有效提升了生成内容与用户个性化需求的匹配度。

📝 摘要(中文)

电子商务平台上的海量产品评论显著影响消费决策,但过载的信息量往往掩盖了用户最关心的内容。现有的评论摘要系统通常生成通用的静态摘要,未能考虑到不同用户对产品特性的关注点存在差异,且这些偏好会随交互过程动态演变。针对用户潜在偏好未知这一挑战,本文提出了PREFER框架,通过在线学习机制为每位用户生成个性化摘要。该系统能够根据用户对生成摘要的实时反馈,迭代优化对用户偏好的理解。基于Amazon Reviews'23数据集的受控仿真实验表明,该方法在保持摘要质量的同时,显著提升了生成内容与用户兴趣的对齐度。

🔬 方法详解

问题定义:现有摘要生成模型通常基于静态语料库,输出“一刀切”的通用摘要。其核心痛点在于无法建模用户异质性(不同用户关注点不同)以及用户偏好的时变性(偏好随交互演化)。

核心思路:引入在线学习(Online Learning)范式,将用户偏好视为一个动态演化的隐变量。通过用户对摘要的反馈信号,实时更新偏好分布,从而在生成阶段动态调整摘要的侧重点。

技术框架:系统包含三个核心模块:偏好建模模块(用于表征用户兴趣)、摘要生成模块(基于LLM或生成模型)、以及反馈处理与更新模块。系统在每次交互后,根据用户反馈计算损失,并利用在线优化算法更新偏好参数。

关键创新:将个性化摘要生成建模为在线偏好学习问题,实现了从“静态生成”到“交互式演化”的范式转变,解决了冷启动后用户兴趣漂移的适应性问题。

关键设计:采用了基于反馈的迭代优化策略,通过对摘要中不同属性的权重进行在线调整,确保生成内容能够精准覆盖用户当前最关心的维度,同时利用受控仿真环境验证了收敛性与稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验基于Amazon Reviews'23数据集进行受控仿真。结果显示,PREFER框架在个性化对齐指标上优于传统静态摘要模型。通过在线学习,系统在交互几轮后即可显著提升用户满意度,且在保持摘要流畅度与准确性的同时,有效捕捉到了用户对特定产品属性(如价格、耐用性等)的动态偏好变化。

🎯 应用场景

该技术主要应用于电商平台的智能导购系统,通过为用户提供定制化的评论摘要,降低信息过载带来的决策成本。此外,该框架还可扩展至新闻推荐、个性化内容摘要及各类交互式信息检索场景,显著提升用户体验与平台转化率。

📄 摘要(原文)

Product reviews significantly influence purchasing decisions on e-commerce platforms. However, the sheer volume of reviews can overwhelm users, obscuring the information most relevant to their specific needs. Current e-commerce summarization systems typically produce generic, static summaries that fail to account for the fact that (i) different users care about different product characteristics, and (ii) these preferences may evolve with interactions. To address the challenge of unknown latent preferences, we propose an online learning framework that generates personalized summaries for each user. Our system iteratively refines its understanding of user preferences by incorporating feedback directly from the generated summaries over time. We provide a case study using the Amazon Reviews'23 dataset, showing in controlled simulations that online preference learning improves alignment with target user interests while maintaining summary quality.