Where and What: Reasoning Dynamic and Implicit Preferences in Situated Conversational Recommendation

📄 arXiv: 2604.20749v1 📥 PDF

作者: Dongding Lin, Jian Wang, Yongqi Li, Wenjie Li

分类: cs.AI

发布日期: 2026-04-22

备注: Accpeted by ACL 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出SiPeR框架,解决情境对话推荐中动态隐式偏好推理难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情境对话推荐 用户偏好建模 多模态学习 贝叶斯推理 场景理解

📋 核心要点

  1. 情境对话推荐面临用户偏好动态变化和隐式表达的挑战,现有方法难以准确捕捉用户意图。
  2. SiPeR框架通过场景转换估计和贝叶斯逆推理,显式建模场景对用户偏好的影响,并预测用户对物品的偏好。
  3. 实验结果表明,SiPeR在推荐准确率和回复质量上均优于现有方法,证明了其有效性。

📝 摘要(中文)

情境对话推荐(SCR)利用特定环境中的视觉场景和自然语言对话,提供符合语境的推荐,因其与现实场景的紧密结合而成为一个有前景的研究方向。与传统推荐相比,SCR需要更深入地理解动态和隐式的用户偏好,因为周围的场景通常会影响用户的潜在兴趣,而两者都可能在对话中演变。这种复杂性显著影响了推荐的时机和相关性。为了解决这个问题,我们提出了情境偏好推理(SiPeR),这是一个新颖的框架,集成了两个核心机制:(1)场景转换估计,用于估计当前场景是否满足用户需求,并在必要时引导用户到更合适的场景;(2)贝叶斯逆推理,利用多模态大型语言模型(MLLM)的可能性来预测场景中候选项目的用户偏好。在两个代表性基准上的大量实验表明,SiPeR在推荐准确性和响应生成质量方面都具有优越性。

🔬 方法详解

问题定义:情境对话推荐(SCR)旨在利用视觉场景和自然语言对话,为用户提供符合语境的推荐。现有方法难以有效处理用户偏好的动态性和隐式性,即用户兴趣会随场景变化而改变,且用户意图往往不直接表达。这导致推荐的时机和相关性难以保证。

核心思路:SiPeR框架的核心思路是显式地建模场景对用户偏好的影响,并利用多模态大语言模型(MLLM)来推断用户在特定场景下的偏好。通过场景转换估计,判断当前场景是否满足用户需求,并在必要时引导用户到更合适的场景。然后,利用贝叶斯逆推理,根据MLLM的输出概率来预测用户对候选物品的偏好。

技术框架:SiPeR框架主要包含两个核心模块:1) 场景转换估计模块:该模块评估当前场景是否满足用户需求,如果用户对当前场景不满意,则引导用户到更合适的场景。2) 贝叶斯逆推理模块:该模块利用MLLM来预测用户在当前场景下对候选物品的偏好。具体流程是,首先将场景信息和对话历史输入MLLM,然后根据MLLM输出的概率分布,利用贝叶斯公式计算用户对每个候选物品的偏好概率。

关键创新:SiPeR的关键创新在于将场景信息显式地融入到用户偏好建模中,并利用MLLM进行偏好推理。与现有方法相比,SiPeR能够更好地捕捉用户偏好的动态性和隐式性,从而提供更准确和相关的推荐。此外,SiPeR还引入了场景转换估计模块,能够主动引导用户到更合适的场景,从而提高用户满意度。

关键设计:场景转换估计模块的具体实现方式未知,论文中可能未详细描述。贝叶斯逆推理模块的关键在于如何利用MLLM的输出概率来计算用户偏好。具体来说,可以将MLLM输出的概率分布作为似然函数,然后结合用户历史行为的先验信息,利用贝叶斯公式计算用户对每个候选物品的后验概率。损失函数的设计也未知,可能使用了交叉熵损失或类似的排序损失来训练模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在两个基准数据集上的实验结果表明,SiPeR在推荐准确率和回复质量方面均优于现有方法。具体提升幅度未知,但摘要中明确指出SiPeR具有“superiority in both recommendation accuracy and response generation quality”。

🎯 应用场景

SiPeR框架可应用于各种情境感知推荐系统,例如智能家居、智能零售和旅游推荐。在智能家居中,可以根据用户所处的房间和正在进行的活动推荐合适的设备或服务。在智能零售中,可以根据用户所处的商店区域和浏览历史推荐相关的商品。在旅游推荐中,可以根据用户所处的景点和历史偏好推荐附近的餐厅或活动。该研究有助于提升推荐系统的个性化和智能化水平,改善用户体验。

📄 摘要(原文)

Situated conversational recommendation (SCR), which utilizes visual scenes grounded in specific environments and natural language dialogue to deliver contextually appropriate recommendations, has emerged as a promising research direction due to its close alignment with real-world scenarios. Compared to traditional recommendations, SCR requires a deeper understanding of dynamic and implicit user preferences, as the surrounding scene often influences users' underlying interests, while both may evolve across conversations. This complexity significantly impacts the timing and relevance of recommendations. To address this, we propose situated preference reasoning (SiPeR), a novel framework that integrates two core mechanisms: (1) Scene transition estimation, which estimates whether the current scene satisfies user needs, and guides the user toward a more suitable scene when necessary; and (2) Bayesian inverse inference, which leverages the likelihood of multimodal large language models (MLLMs) to predict user preferences about candidate items within the scene. Extensive experiments on two representative benchmarks demonstrate SiPeR's superiority in both recommendation accuracy and response generation quality. The code and data are available at https://github.com/DongdingLin/SiPeR.