Day: June 30, 2024

长短期兴趣分离:推荐系统的新突破长短期兴趣分离:推荐系统的新突破

在这个信息爆炸的时代,推荐系统在我们的日常生活中扮演着越来越重要的角色。无论是新闻推送、电商购物还是短视频推荐,都离不开推荐系统的支持。然而,传统的推荐算法往往无法很好地区分用户的长期兴趣和短期兴趣,这严重影响了推荐的准确性。最近,清华大学和快手科技的研究人员提出了一种新的方法,通过对比学习框架实现长短期兴趣的分离,大大提升了推荐效果。让我们一起来看看这项突破性的研究。 长短期兴趣:用户偏好的两个维度 在推荐系统中,准确把握用户兴趣至关重要。但用户的兴趣是复杂多变的,通常可以分为两个方面: 准确区分和建模这两种兴趣,对提高推荐效果至关重要。然而,现有的方法往往将长短期兴趣混杂在一起建模,难以真正分离开来。这不仅影响了推荐的准确性,也使得推荐结果难以解释。 现有方法的局限性 目前主流的推荐算法大致可以分为以下几类: 这些方法的共同问题在于:没有针对长短期兴趣设计独立的建模机制,也没有专门的监督信号来指导长短期兴趣的分离。这就导致了学到的兴趣表示难以真正区分长短期特征。 CLSR:基于对比学习的长短期兴趣分离框架 为了解决上述问题,研究人员提出了一种新的对比学习框架CLSR(Contrastive Learning for Short and Long-term interests in Recommendation)。该框架的核心思想是:通过自监督的方式,利用用户的交互序列构建长短期兴趣的代理表示,并通过对比学习实现长短期兴趣的有效分离。具体来说,CLSR包含以下几个关键组件: 1. 独立的长短期兴趣编码器 CLSR设计了两个独立的编码器,分别用于捕捉长期兴趣和短期兴趣: 这种设计使得长短期兴趣可以被独立地建模,为后续的分离奠定了基础。 2. 基于交互序列的自监督 CLSR的一大创新在于,它利用用户的交互序列自动构建长短期兴趣的代理表示,作为自监督的信号。具体而言: 这些代理表示虽然简单,但能很好地反映长短期兴趣的特征,为后续的对比学习提供了有效的监督信号。 3. 对比学习任务 有了代理表示作为”伪标签”,CLSR设计了成对的对比学习任务: 这种对比学习机制能有效地引导模型学习到更好地分离的长短期兴趣表示。 4. [...]

序列推荐系统的性能比较:CLSR与SLi_Rec在点击和购买预测上的表现序列推荐系统的性能比较:CLSR与SLi_Rec在点击和购买预测上的表现

在推荐系统中,准确预测用户的点击和购买行为对于提升用户体验和增加平台收益至关重要。本文将比较两种序列推荐模型——CLSR(基于对比学习的序列推荐模型)和SLi_Rec(结合长短期偏好的自适应用户建模个性化推荐模型)在点击和购买预测上的表现。 1. 模型简介 1.1 CLSR CLSR是一种基于对比学习的序列推荐模型,通过对比学习方法提升推荐性能。其主要特点包括: 1.2 SLi_Rec SLi_Rec是一种结合长短期偏好的自适应用户建模个性化推荐模型。其主要特点包括: 2. 性能比较 根据ResearchGate上的研究数据,我们可以看到CLSR和SLi_Rec在点击和购买预测上的性能比较。以下为两种模型在不同指标下的表现: 指标 CLSR SLi_Rec 点击预测准确率(Accuracy) 0.85 0.82 点击预测AUC 0.87 0.85 购买预测准确率(Accuracy) 0.78 0.75 购买预测AUC 0.80 0.78 从表中可以看出,CLSR在点击和购买预测的准确率和AUC(曲线下面积)上均优于SLi_Rec,尤其是在点击预测上表现更为突出。 3. 模型分析 [...]

xDeepFM:极深度因子分解机在推荐系统中的应用xDeepFM:极深度因子分解机在推荐系统中的应用

在当今信息爆炸的时代,推荐系统已成为帮助用户从海量信息中快速找到所需内容的重要工具。然而,如何更好地捕捉特征之间的交互关系,一直是推荐系统研究的重点和难点。本文将为您介绍一种新颖的深度学习模型——xDeepFM(极深度因子分解机),它在有效学习特征交互方面取得了显著进展。 1. xDeepFM模型简介 xDeepFM是由Lian等人在2018年提出的一种深度学习模型,旨在同时捕捉低阶和高阶特征交互,以提高推荐系统的精确度。该模型具有以下几个关键特性: 2. xDeepFM的模型结构 xDeepFM的模型结构主要包含以下几个部分: 模型的总体结构可以表示为: 其中,x是输入特征,w_linear、w_FM、w_CIN和w_DNN是各个部分的权重。 3. xDeepFM在Criteo数据集上的实践 为了展示xDeepFM的实际效果,我们将使用Criteo数据集进行实验。Criteo数据集是一个广泛用于CTR(点击率)预测任务的工业基准数据集。 3.1 数据准备 xDeepFM使用FFM(Field-aware Factorization Machine)格式作为数据输入。每行代表一个实例,格式如下: 其中,<label>是二进制值,1表示正例,0表示负例。特征被划分为不同的字段,字段索引和特征索引都从1开始。 3.2 模型配置 我们使用以下配置来初始化xDeepFM模型: 这里我们启用了线性部分、CIN部分和DNN部分,设置了特征数量、字段数量、学习率等超参数。 3.3 模型训练与评估 在训练之前,我们首先检查模型的初始性能: 然后开始训练模型: 训练过程中,我们可以观察到模型性能的逐步提升: 最后,我们在测试集上评估模型的最终性能: 4. 实验结果分析 [...]