InfoGaps | 信息差

日期: 2024 年 6 月 29 日

SASRec模型在亚马逊数据集上的应用
在当今的电子商务领域,推荐系统扮演着越来越重要的角色。它能够帮助用户快速发现感兴趣的商品,提升用户体验;同时也能够帮助平台提高销售转化率,增加收入。本文将介绍一种先进的序列推荐模型SASRec,并展示其在亚马逊数据集上的应用实例。

SASRec模型简介

SASRec(Self-Attentive Sequential Recommendation)是一种基于自注意力机制的序列推荐模型。它由Kang等人于2018年提出,能够有效捕捉用户的长期和短期兴趣,在多个数据集上取得了优异的性能。

SASRec模型的核心思想是:
1. 将用户的历史行为序列作为输入
2. 使用自注意力机制来学习不同行为之间的关系
3. 预测用户下一个可能的行为
相比传统的RNN或CNN模型,SASRec具有以下优势:
- 可以同时建模长期和短期依赖关系
- 计算效率高,易于并行化
- 模型可解释性强
在亚马逊数据集上的应用

接下来,我们将展示如何使用Microsoft Recommenders库在亚马逊电子产品数据集上应用SASRec模型。

环境准备

首先,我们需要安装必要的依赖包:
```
!pip install --upgrade recommenders
```
然后导入所需的库:
```
import sys
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from recommenders.models.sasrec.sasrec_tf import SASRec
from recommenders.datasets.amazon_reviews import download_and_extract, data_preprocessing
from recommenders.evaluation.python_evaluation import (
    map_at_k,
    ndcg_at_k,
    precision_at_k,
    recall_at_k,
)
from recommenders.utils.timer import Timer
from recommenders.utils.constants import SEED

print("System version: {}".format(sys.version))
print("Recommenders version: {}".format(recommenders.__version__))
```
数据准备

我们使用亚马逊电子产品数据集。首先下载并解压数据:
```
data_path = download_and_extract(r'https://recommenders.blob.core.windows.net/datasets/amazon_reviews_electronics_5core.json')
```
然后对数据进行预处理:
```
data = data_preprocessing(data_path, threshold=5, col_names=['userID', 'itemID', 'rating', 'timestamp'])
```
将数据集分为训练集和测试集:
```
train, test = data.random_split(0.75)
```
模型训练

接下来,我们创建SASRec模型实例并进行训练:
```
model = SASRec(
    item_num=data['item_num'],
    max_seq_length=50,
    num_blocks=2,
    embedding_dim=100,
    attention_dim=100,
    learning_rate=0.001,
    batch_size=128,
    num_epochs=100,
    seed=SEED
)

model.fit(train)
```
模型评估

训练完成后,我们使用多个指标对模型进行评估:
```
k = 10
eval_metrics = {
    "MAP": map_at_k,
    "NDCG": ndcg_at_k,
    "Precision": precision_at_k,
    "Recall": recall_at_k
}

with Timer() as test_time:
    predictions = model.predict(test)

print("Took {} seconds for prediction.".format(test_time.interval))

for metric_name, metric_func in eval_metrics.items():
    score = metric_func(test, predictions, k=k)
    print("{:<11} @ {}: {:.4f}".format(metric_name, k, score))
```
结果分析

通过上述步骤,我们成功地在亚马逊电子产品数据集上应用了SASRec模型。模型的性能可以通过MAP、NDCG、准确率和召回率等指标来评估。这些指标反映了模型在不同方面的推荐质量。

例如,NDCG@10的值反映了模型在前10个推荐结果中的排序质量。MAP@10则衡量了模型检索相关项目的能力。准确率和召回率分别反映了推荐结果的精确性和完整性。

通过分析这些指标,我们可以对SASRec模型在亚马逊电子产品数据集上的表现有一个全面的了解。如果需要进一步提升模型性能,可以考虑调整模型参数,如嵌入维度、注意力层数等,或者尝试更复杂的模型结构。

结论

SASRec模型作为一种先进的序列推荐算法,在亚马逊电子产品数据集上展现出了良好的性能。它能够有效捕捉用户的长期和短期兴趣,为用户提供个性化的推荐。通过Microsoft Recommenders库,我们可以方便地实现和评估SASRec模型,为推荐系统的研究和应用提供了有力的工具支持。

在实际应用中,还需要考虑模型的效率、可解释性以及商业目标等因素。未来的研究方向可以包括将SASRec与其他模型进行集成,探索更有效的特征表示方法,以及在更大规模的数据集上进行验证。

参考文献
1. Kang, W. C., & McAuley, J. (2018). Self-attentive sequential recommendation. In 2018 IEEE International Conference on Data Mining (ICDM) (pp. 197-206). IEEE.
2. Microsoft Recommenders. (n.d.). GitHub repository. https://github.com/recommenders-team/recommenders
SASRec模型在亚马逊数据集上的应用

在当今互联网时代，推荐系统已经成为各大电商平台必不可少的一部分。亚马逊作为全球最大的电商平台之一，如何通过先进的推荐系统为用户提供个性化的购物体验，成为其竞争力的重要来源之一。本文将介绍一种最新的推荐系统模型——SASRec，并探讨它在亚马逊数据集上的应用。

什么是SASRec？

SASRec，全称为Self-Attentive Sequential Recommendation，是一种基于自注意力机制的序列推荐模型。该模型通过捕捉用户行为序列中的复杂模式，来预测用户未来可能感兴趣的商品。

模型结构

SASRec的核心在于其自注意力机制。自注意力机制可以理解为一种加权平均的计算方法，它能够根据序列中的各个元素之间的关系来调整它们的权重。具体来说，SASRec模型主要由以下几部分组成：
1. Embedding层：将用户和商品的ID映射到一个低维度的向量空间。
2. 自注意力层：通过多头自注意力机制来捕捉用户行为序列中的模式。
3. 位置编码：加入位置编码信息，帮助模型理解序列中的顺序信息。
4. 输出层：将自注意力层的输出进行处理，最终预测用户的下一次行为。
公式上，SASRec的自注意力机制可以表示为：
[ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V ]
其中，(Q)、(K)和(V)分别代表查询矩阵、键矩阵和值矩阵，(d_k)是矩阵的维度。

SASRec在亚马逊数据集上的应用

亚马逊数据集包含了用户的购买记录、浏览历史、商品评价等丰富的信息，这为SASRec模型的训练提供了良好的数据基础。

数据预处理

在实际应用中，首先需要对亚马逊的数据进行预处理。具体步骤如下：
1. 数据清洗：去除缺失值和异常值，确保数据的质量。
2. 数据分割：将数据划分为训练集、验证集和测试集，以便模型的训练和评估。
3. 序列生成：将每个用户的行为记录按照时间顺序排列，生成用户行为序列。
模型训练

在完成数据预处理后，可以开始训练SASRec模型。在训练过程中，需要设置一些超参数，例如学习率、批量大小、嵌入维度等。此外，还需要选择适当的优化器（如Adam）来加速模型的收敛。

模型评估

为了评估SASRec模型的性能，可以使用多个评价指标，例如精确率（Precision）、召回率（Recall）和F1-Score等。这些指标可以帮助我们全面了解模型的推荐效果。

实验结果

在亚马逊数据集上进行实验，SASRec模型展示了其强大的推荐能力。与传统的协同过滤方法相比，SASRec在多个评价指标上均取得了显著的提升。例如，在Top-N推荐任务中，SASRec的Precision和Recall都明显优于基线模型。

结论

SASRec模型通过引入自注意力机制，有效地捕捉了用户行为序列中的复杂模式，从而提高了推荐系统的性能。通过在亚马逊数据集上的实际应用，我们可以看到SASRec在推荐任务中的巨大潜力。未来，随着更多数据和更强计算能力的加入，SASRec有望在电商平台上发挥更大的作用。

参考文献
1. Kang, W.-C., & McAuley, J. (2018). Self-Attentive Sequential Recommendation. arXiv preprint arXiv:1808.09781.
2. He, X., Liao, L., Zhang, H., Nie, L., Hu, X., & Chua, T.-S. (2017). Neural Collaborative Filtering. In Proceedings of the 26th International Conference on World Wide Web (pp. 173-182).
SASRec模型在亚马逊数据集上的应用

简介

在当今快速发展的电子商务平台上，推荐系统已经成为提升用户体验的重要工具。本文将介绍一种基于Transformer的序列推荐模型——SASRec，并探讨其在亚马逊数据集上的应用。

SASRec模型简介

SASRec，全称为Self-Attentive Sequential Recommendation，是一种基于自注意力机制的序列推荐模型。与传统的CNN（如Caser）或RNN（如GRU、SLI-Rec）不同，SASRec依赖于Transformer编码器来生成用户行为序列的新表示。

模型变体

在本文中，我们将介绍两种基于Transformer的推荐模型：
1. SASRec：基于vanilla Transformer，仅建模商品序列。
2. SSE-PT：基于Stochastic Shared Embedding的个性化Transformer，既建模用户也建模商品。
数据预处理

亚马逊的电子产品数据集包含用户的购买记录。我们将对这些数据进行预处理，以便输入到SASRec模型中。数据集需要经过以下步骤的预处理：
1. 下载并读取数据：获取亚马逊电子产品的用户评论数据。
2. 过滤数据：过滤掉交互次数少于10次的用户和商品。
3. 编码用户和商品：将用户ID和商品ID转换为从1开始的整数。
4. 排序和分割：按用户ID和时间排序，并将数据划分为训练集、验证集和测试集。
数据示例

预处理后的数据格式如下所示：
```
userID  itemID
30449   2771
30449   61842
30449   60293
30449   30047
30449   63296
30449   22042
30449   6717
30449   75780
```
模型训练

模型参数

在训练模型之前，需要设置一些模型参数：
- num_epochs：训练轮数
- batch_size：批量大小
- lr：学习率
- maxlen：序列的最大长度
- num_blocks：Transformer块的数量
- hidden_units：注意力计算的隐藏单元数量
- num_heads：注意力头的数量
- dropout_rate：dropout率
- l2_emb：L2正则化系数
- num_neg_test：每个正样本的负样本数量
模型构建

根据选择的模型（SASRec或SSE-PT），可以构建相应的模型：
```
if model_name == 'sasrec':
    model = SASREC(item_num=data.itemnum,
                   seq_max_len=maxlen,
                   num_blocks=num_blocks,
                   embedding_dim=hidden_units,
                   attention_dim=hidden_units,
                   attention_num_heads=num_heads,
                   dropout_rate=dropout_rate,
                   conv_dims=[100, 100],
                   l2_reg=l2_emb,
                   num_neg_test=num_neg_test
    )
elif model_name == "ssept":
    model = SSEPT(item_num=data.itemnum,
                  user_num=data.usernum,
                  seq_max_len=maxlen,
                  num_blocks=num_blocks,
                  user_embedding_dim=10,
                  item_embedding_dim=hidden_units,
                  attention_dim=hidden_units,
                  attention_num_heads=num_heads,
                  dropout_rate=dropout_rate,
                  conv_dims=[110, 110],
                  l2_reg=l2_emb,
                  num_neg_test=num_neg_test
    )
else:
    print(f"Model-{model_name} not found")
```
采样器

采样器用于在每个批次中从训练数据中创建负样本：
```
sampler = WarpSampler(data.user_train, data.usernum, data.itemnum, batch_size=batch_size, maxlen=maxlen, n_workers=3)
```
训练步骤

定义损失函数并进行模型训练：
```
with Timer() as train_time:
    t_test = model.train(data, sampler, num_epochs=num_epochs, batch_size=batch_size, lr=lr, val_epoch=6)

print('Time cost for training is {0:.2f} mins'.format(train_time.interval/60.0))
```
评估结果

训练完成后，评估模型在测试集上的性能：
```
res_syn = {"ndcg@10": t_test[0], "Hit@10": t_test[1]}
print(res_syn)
```
结论

通过在亚马逊数据集上的实验，我们看到SASRec模型在推荐任务中表现出色。其基于自注意力机制的设计，使其能够有效地捕捉用户行为序列中的复杂模式，从而提高推荐准确性。未来，可以通过结合更多数据和优化算法，进一步提升模型性能。

参考文献
1. Wang-Cheng Kang, Julian McAuley: Self-Attentive Sequential Recommendation, arXiv preprint arXiv:1808.09781 (2018)
2. Ashish Vaswani, et al. Attention is all you need. In Advances in Neural Information Processing Systems.
3. Jiaxi Tang, Ke Wang. Personalized top-n sequential recommendation via convolutional sequence embedding.
4. Kyunghyun Cho, et al. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation.
5. Zeping Yu, et al. Adaptive User Modeling with Long and Short-Term Preferences for Personalized Recommendation.
6. Liwei Wu, et al. SSE-PT: Sequential Recommendation Via Personalized Transformer.
2024-06-29
揭秘AI写作背后的数学:大型语言模型如何计算误差?
在这个AI快速发展的时代,ChatGPT等大型语言模型(LLMs)的出现让许多人惊叹不已。这些模型似乎能够理解我们的指令,生成连贯的文本,甚至创作诗歌和故事。但你是否曾想过,这些模型是如何学习和改进的?今天,让我们一起揭开AI写作背后的数学秘密,探讨大型语言模型是如何计算和减少误差的。

模型输出:概率的艺术

想象一下,当你在写一篇文章时,每写下一个词,你的大脑都在预测下一个最合适的词。大型语言模型也是如此工作的。每当模型需要生成下一个词时,它会输出一个概率分布,这个分布包含了词汇表中每个词被选为下一个词的可能性。

例如,假设模型正在生成一个句子:”今天天气真…”。它可能会给出如下的概率分布:
- 好: 40%
- 晴朗: 30%
- 糟糕: 15%
- 热: 10%
- 其他词: 5%
这个概率分布反映了模型对下一个词的”猜测”。

真实标签:理想与现实的对比

在训练过程中,模型需要知道它的”猜测”有多准确。这就需要用到”真实标签”。真实标签是一个叫做”one-hot”编码的向量,它只在实际出现的词的位置标记为1,其他位置都是0。

继续上面的例子,如果实际的下一个词是”晴朗”,那么真实标签就会是:

[0, 1, 0, 0, …, 0]

这个向量在词汇表中”晴朗”对应的位置是1,其他位置都是0。

损失函数:衡量差距的尺子

为了量化模型预测与实际情况的差距,我们需要一个衡量标准,这就是损失函数。在语言模型中,最常用的是交叉熵损失(Cross-Entropy Loss)。

交叉熵损失的数学表达式看起来可能有点复杂:

$L = -\sum_i y_i \log(P_i)$

但别被吓到!让我们用通俗的语言来解释它:
1. 对于每个可能的词,我们将模型预测的概率取对数。
2. 然后,我们只关注实际出现的词(即真实标签中为1的那个位置)。
3. 我们取这个概率的负对数值作为损失。
为什么要用对数?这是因为对数能够将乘法转化为加法,使计算更加方便,同时也能够处理非常小的概率值。

在我们的例子中,如果”晴朗”是正确的下一个词,而模型给它的预测概率是30%(0.3),那么损失就是:

$L = -\log(0.3) \approx 1.2$

损失越小,表示模型的预测越准确。

批量处理:提高效率的秘诀

在实际训练中,为了提高效率,模型通常不会一次只处理一个词,而是处理一批(batch)数据。这时,我们会计算这批数据的平均损失。

假设我们有一个包含100个词的批次,我们会:
1. 对每个词计算损失
2. 将所有损失加起来
3. 除以100得到平均损失
这样做不仅能提高计算效率,还能让模型学习更加稳定。

反向传播:模型学习的核心

有了损失,模型就知道了自己的预测有多不准确。但知道还不够,它还需要改进。这就是反向传播算法的作用。

反向传播的过程可以简单理解为:
1. 计算损失函数关于模型各个参数的梯度(即参数变化对损失的影响)。
2. 根据这些梯度,微调模型的参数,使得损失变小。
这个过程就像是模型在不断”调整”自己,以便下次能做出更准确的预测。

超越文本:多样化的评估方法

虽然交叉熵损失是训练语言模型的核心指标,但在实际应用中,我们还需要其他方法来全面评估模型的性能。一些常用的指标包括:
- BLEU(Bilingual Evaluation Understudy):主要用于评估机器翻译的质量。
- ROUGE(Recall-Oriented Understudy for Gisting Evaluation):常用于评估自动摘要的质量。
- Perplexity(困惑度):衡量模型对语言的建模能力,值越低越好。
这些指标从不同角度评估模型的性能,帮助研究人员全面了解模型的优缺点。

结语:数学与创造力的完美结合

通过了解大型语言模型如何计算和减少误差,我们可以看到,在看似神奇的AI写作背后,是严谨的数学原理和精巧的算法设计。这种将数学精确性与语言创造力相结合的方法,正是推动AI技术不断进步的动力。

随着技术的不断发展,未来的语言模型可能会采用更加复杂和高效的误差计算方法。但无论技术如何发展,理解这些基本原理都将帮助我们更好地理解和利用AI技术,在人工智能时代保持竞争力。

参考文献:
1. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.
2. Jurafsky, D., & Martin, J. H. (2021). Speech and language processing. Pearson.
深入解析大型语言模型的计算误差：从概率分布到损失函数

在人工智能和自然语言处理领域，大型语言模型（如 GPT 系列）已经成为了研究和应用的热点。这些模型能够生成流畅自然的文本，但它们是如何评估和改进自身的表现呢？本文将深入探讨大型语言模型的计算误差机制，从概率分布到损失函数，一步步揭示其中的奥秘。

模型输出：概率分布的魔力

大型语言模型的核心任务是预测下一个词。想象一下，当你开始写一个句子”今天天气真…”，模型会根据已有的上下文，为每个可能的后续词赋予一个概率。这个概率分布就是模型的输出。

例如，模型可能会给出如下的概率分布：
- “好”：0.6
- “糟糕”：0.2
- “晴朗”：0.15
- 其他词：0.05
这个分布反映了模型对下一个词的预测信心。

真实标签：One-Hot 编码的精确表示

在训练过程中，模型需要知道实际出现的词是什么。这就是”真实标签”的作用。真实标签通常采用”one-hot”编码，这是一种只有一个位置为 1，其余全为 0 的向量。

假设词汇表有 10000 个词，如果实际的下一个词是”好”，且”好”在词汇表中的索引是 42，那么真实标签就是一个长度为 10000 的向量，其中第 42 个位置为 1，其余均为 0。

损失函数：交叉熵损失的应用

为了衡量模型预测与实际情况的差距，我们需要一个损失函数。在语言模型中，最常用的是交叉熵损失（Cross-Entropy Loss）。

交叉熵损失的数学表达式如下：

![L = -\sum_i y_i \log(P_i)][]

其中，![y_i][] 是真实标签中的值（0 或 1），![P_i][] 是模型预测的概率。

由于真实标签是 one-hot 编码，上述公式可以简化为：![L = -\log(P_y)][]

其中，![P_y][] 是模型对实际出现的词的预测概率。

计算步骤：从理论到实践

让我们通过一个具体例子来理解这个过程：
1. 假设模型预测”好”的概率为 0.6。
2. 实际上，下一个词确实是”好”。
3. 那么，损失值为：![L = -\log(0.6) \approx 0.51][]
这个损失值告诉我们，虽然模型的预测方向是对的，但还有改进的空间。损失值越小，表示模型的预测越准确。

批量处理：提高效率的关键

在实际训练中，我们通常不会对每个词单独计算损失，而是采用批量处理的方法。假设我们有一个包含 64 个样本的批次，我们会计算这 64 个样本的平均损失：![L_{batch} = \frac{1}{64} \sum_{i=1}^{64} L_i][]

这种方法不仅提高了计算效率，还能使损失值更加稳定。

反向传播：模型优化的核心

计算出损失后，下一步就是通过反向传播来优化模型参数。这个过程包括：
1. 计算损失函数关于模型各个参数的梯度。
2. 使用优化算法（如随机梯度下降）更新参数。
3. 重复这个过程，直到模型性能达到预期或停止改善。
通过这种方式，模型能够逐步减少预测误差，提高生成文本的质量。

结语：超越单词预测虽然我们主要讨论了单词预测的误差计算，但大型语言模型的应用远不止于此。在实际应用中，我们还需要考虑模型在各种自然语言处理任务中的表现，如文本生成、理解等。

为此，研究者们开发了多种评估指标，如 BLEU（用于机器翻译）、ROUGE（用于文本摘要）和 Perplexity（困惑度，用于评估语言模型的泛化能力）等。这些指标从不同角度衡量模型的性能，为进一步改进模型提供了方向。

通过深入理解大型语言模型的计算误差机制，我们不仅能够更好地优化现有模型，还能为开发下一代更强大的语言模型奠定基础。随着技术的不断进步，我们期待看到更多令人惊叹的自然语言处理应用，为人类的沟通和知识获取带来革命性的变化。

参考文献
1. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
2. Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
3. Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. arXiv preprint arXiv:2005.14165.
2024-06-29
Suri: 多约束指令遵循的长文本生成新突破
在人工智能和自然语言处理领域,如何让大型语言模型(LLM)更好地遵循复杂指令并生成高质量长文本,一直是一个重要而富有挑战性的研究方向。近日,来自马萨诸塞大学阿默斯特分校的研究团队在这一领域取得了重要突破,他们提出了一种名为Suri的新数据集和训练方法,显著提升了LLM在多约束条件下生成长文本的能力。本文将详细介绍这项研究的主要内容、创新点及其潜在影响。

研究背景与动机

现有的指令遵循研究主要集中在简单指令和短回复任务上。然而,在实际应用中,用户往往需要LLM能够遵循包含多个复杂约束的指令,并生成长篇幅、高质量的文本输出,如详细的技术报告或引人入胜的小说。

为了探索这一挑战,研究团队开展了首个针对多约束指令下长文本生成的深入研究。他们创建了Suri数据集,并提出了一种名为I-ORPO的新型对齐方法,以提升LLM在这类任务中的表现。

Suri数据集的构建

Suri数据集是该研究的核心基础。它包含20,000个配对样本,每个样本由以下三部分组成:
1. 人工撰写的长文本响应(y): 从ChapterBreak、Books3和RedPajama-Data-v2等现有数据集中采样,长度在2,048到5,024个单词之间。
2. 反向翻译指令(xw): 使用GPT-4-turbo模型,将人工撰写的文本反向生成相应的指令。每个指令包含一个主要目标和约10个语义和风格约束。
3. corrupted指令(xl): 通过对xw中的约束进行最小化编辑,生成部分违反原始约束但仍忠实于整体主要目标的corrupted指令。
研究团队采用了多项措施来确保数据集的质量和多样性:
- 对采样的文本进行了清洗和过滤,去除无关元数据。
- 人工评估验证了反向翻译指令与原始文本的一致性,约87%的约束被完全满足。
- 分析了指令中约束的类型分布,确保了语义、风格、广泛和具体约束的平衡。
I-ORPO: 创新的对齐方法

研究团队提出了Instructional Odds Ratio Preference Optimization (I-ORPO)方法,这是对ORPO算法的改进和适应。I-ORPO的主要创新点在于:
1. 利用corrupted指令(xl)作为负面反馈,避免了为长文本获取人工偏好判断的困难。
2. 修改了ORPO的损失函数,使模型学习区分正确指令和corrupted指令: $L_{I-ORPO} = E_{(x_w,x_l,y)}[L_{SFT} + \lambda \cdot L_{I-OR}]$ 其中, $L_{I-OR} = – \log \sigma \left(\log \frac{odds_\theta(y|x_w)}{odds_\theta(y|x_l)}\right)$
3. 通过观察训练曲线,验证了模型成功学习到了正确指令和corrupted指令之间的差异。
实验结果与评估

研究团队使用Suri数据集对Mistral-7B-Instruct-v0.2模型进行了微调,得到了Suri-I-ORPO和Suri-SFT两个模型版本。主要评估结果包括:
1. 生成长度: Suri-I-ORPO和Suri-SFT能生成平均约5,000个token的长文本,远超基线模型的1,100-1,500个token。
2. 重复度: 尽管生成长度显著增加,但微调后的模型并未出现严重的重复内容问题。
3. 指令区分能力: Suri-I-ORPO在区分正确指令和corrupted指令方面表现优异,比基线模型提高了至少10%。
4. 人工评估: 评估者注意到,微调后的模型能有效遵循给定约束,其中I-ORPO模型在约束的连贯、信息丰富和引人入胜的整合方面更受青睐。
研究意义与展望

这项研究的重要性主要体现在以下几个方面:
1. 首次系统研究了多约束指令下的长文本生成问题,填补了现有研究的空白。
2. 提出了Suri数据集,为后续相关研究提供了宝贵资源。
3. 开发了I-ORPO方法,为长文本生成任务中的模型对齐提供了新思路。
4. 显著提升了LLM在长文本生成和复杂指令遵循方面的能力,为实际应用提供了新的可能性。
未来研究可以进一步探索:
- 扩大Suri数据集的规模和多样性
- 改进I-ORPO方法,提高其在更大规模模型上的效果
- 将Suri和I-ORPO应用于更多领域和任务类型
总之,这项研究为提升LLM在复杂指令下生成高质量长文本的能力开辟了新的道路,有望推动自然语言生成技术在创意写作、技术文档撰写等领域的应用和发展。

参考文献
1. Pham, C. M., Sun, S., & Iyyer, M. (2024). Suri: Multi-constraint Instruction Following for Long-form Text Generation. arXiv:2406.19371v1.
2. Hong, J., et al. (2024). Odds Ratio Preference Optimization.
3. Li, X., et al. (2023). Instruction Backtranslation for Large Language Models.
长文本指令遵循：Suri 数据集与 I-ORPO 算法

近年来，大型语言模型（LLM）在指令遵循方面取得了显著进展，但现有研究主要集中在简单指令和短文本生成任务上。对于包含复杂多约束指令的长文本生成任务，LLM 仍面临挑战。本文将介绍一种名为 Suri 的新数据集，以及一种基于 ORPO 算法的指令对齐方法 I-ORPO，旨在提升 LLM 在长文本指令遵循方面的能力。

Suri 数据集：长文本指令遵循的基石

Suri 数据集包含 20,000 个长文本，每个文本都配有一条由 LLM 生成的包含多个复杂约束的指令。这些指令涵盖了语义和风格方面的约束，例如：
- 语义约束： 描述一个支持母亲和缺席父亲的家庭；
- 风格约束： 使用短句强调语气；
- 混合约束： 以热情的语气讨论印象派艺术。
Suri 数据集的构建利用了指令反向翻译技术，即使用 LLM 将人类撰写的长文本（例如小说章节）转化为相应的指令。为了训练模型区分正确指令和错误指令，Suri 数据集还包含了由 LLM 生成的错误指令，这些指令对原始指令中的约束进行了微调，使其部分违反，但仍然与指令的总体目标保持一致。

I-ORPO 算法：利用合成错误指令进行模型对齐

由于对长文本进行人工偏好标注的难度和成本很高，传统的偏好调整算法（如 DPO）并不适用于 Suri 数据集。为此，本文提出了指令 ORPO（I-ORPO） 算法。I-ORPO 算法利用合成错误指令作为负反馈，而不是依赖人类对不同文本的偏好判断。

I-ORPO 算法将原始指令和错误指令分别作为正负样本，并利用 Odds Ratio Preference Optimization（ORPO）目标函数进行模型训练。模型学习将正确指令与错误指令区分开来，从而提升其对指令的敏感度，并生成更符合指令要求的文本。

实验结果：Suri 数据集与 I-ORPO 算法的有效性

本文对 Mistral-7b-Instruct-v0.2 模型进行了监督微调和 I-ORPO 微调，分别得到 Suri-SFT 和 Suri-I-ORPO 模型。实验结果表明：
- Suri-SFT 和 Suri-I-ORPO 模型生成的文本长度显著增加，平均长度超过 5,000 个词元，远超基线模型。
- Suri-I-ORPO 模型在区分正确指令和错误指令方面表现出色，其排名准确率比基线模型高出至少 10%。
- Suri-I-ORPO 模型生成的文本在语义连贯性和信息量方面优于 Suri-SFT 模型，人类评估结果表明，Suri-I-ORPO 模型生成的文本更易读、更有趣。
结论与展望

Suri 数据集和 I-ORPO 算法为长文本指令遵循任务提供了新的解决方案。实验结果表明，Suri 数据集能够有效提升 LLM 在长文本指令遵循方面的能力，而 I-ORPO 算法则为模型对齐提供了新的思路。

未来研究方向包括：
- 将 Suri 数据集和 I-ORPO 算法应用于其他 LLM 模型。
- 研究指令长度、指令与文本信息重叠程度等因素对 I-ORPO 算法性能的影响。
- 探索 Suri 数据集和 I-ORPO 算法在短文本生成任务上的应用。
参考文献
- Pham, C. M., Sun, S., & Iyyer, M. (2024). Suri: Multi-constraint Instruction Following for Long-form Text Generation. arXiv preprint arXiv:2406.19371.
Suri: 开启AI长文本创作新纪元

在人工智能迅速发展的今天,大型语言模型(LLMs)已经展现出惊人的能力。然而,当面对复杂的多约束指令和长篇幅文本生成任务时,这些模型仍然存在明显的短板。来自马萨诸塞大学阿默斯特分校的研究团队近期发表的论文《Suri: Multi-constraint Instruction Following for Long-form Text Generation》,为解决这一难题提供了创新性的解决方案。

突破性贡献

这项研究的主要贡献可以概括为三个方面:
1. Suri数据集: 创建了一个包含20,000篇人类撰写长文本的数据集,每篇文本都配有LLM生成的多约束反向翻译指令。这为研究长文本生成和复杂指令遵循提供了宝贵的资源。
2. I-ORPO方法: 提出了一种名为指令性优势比偏好优化(I-ORPO)的新型对齐方法。该方法巧妙地利用合成的指令扰动作为负反馈,解决了长文本生成任务中难以获得人类偏好判断的问题。
3. 高性能模型: 通过对Mistral7b-Instruct-v0.2模型进行微调,得到了能够生成约5,000个token长度文本的Suri-SFT和Suri-I-ORPO模型,大幅提升了模型在长文本生成和多约束指令遵循方面的能力。
方法创新与实验设计

研究团队的方法设计和实验安排都体现了深思熟虑:
1. 数据集构建: 通过反向翻译技术,从人类撰写的长文本中提取复杂指令,确保了数据的真实性和多样性。
2. I-ORPO算法: 通过比较模型在正确指令和扰动指令下生成文本的概率,引导模型更好地遵循复杂指令。这一方法有效规避了长文本人工评估的巨大成本。
3. 多维度评估: 研究采用了自动评估和人工评估相结合的方式,从文本长度、重复率、指令遵循度等多个角度全面评估模型性能。
关键发现与启示

这项研究的结果令人振奮:
1. 长文本生成突破: Suri-SFT和Suri-I-ORPO模型能够生成平均长度约5,000个token的文本,远超基线模型的1,100-1,500个token,且没有出现明显的质量下降。
2. 指令遵循能力提升: 微调后的模型在遵循复杂指令方面表现出色,Suri-I-ORPO在约束的连贯整合和信息丰富度方面尤为突出。
3. LLM评估局限性: 研究发现,在评估长文本生成任务时,即使是先进的LLM(如GPT-4)也存在一定局限性,这为未来的评估方法研究提供了重要启示。
未来研究方向

这项研究为AI长文本创作开辟了新的可能性,同时也指明了几个值得进一步探索的方向:
1. 将Suri数据集和I-ORPO方法应用于其他大型语言模型,探索其泛化能力。
2. 研究表面特征(如指令长度、信息重叠度)对I-ORPO性能的影响。
3. 探索模型在不同长度要求任务中的表现,提高其灵活性。
4. 改进评估指标,更全面地衡量长文本生成的质量。
5. 深入研究长文本生成技术的伦理影响和社会责任。
结语

Suri项目的成功,标志着AI在长文本创作和复杂指令遵循方面迈出了重要一步。这不仅为学术研究提供了新的思路和工具,也为AI在创意写作、技术文档撰写等领域的实际应用铺平了道路。随着技术的进一步发展和完善,我们有理由期待AI在不久的将来能够成为人类在长篇创作中的得力助手,为内容创作带来新的革命。
2024-06-29
SAR算法在MovieLens数据集上的应用
推荐系统是现代互联网应用中不可或缺的一部分。无论是电子商务、社交媒体还是内容平台，都在使用各种推荐算法来为用户提供个性化的体验。今天，我们将深入探讨一种简单而有效的推荐算法——简单算法推荐(Simple Algorithm for Recommendation, SAR)，并通过在著名的MovieLens数据集上的实践来展示其应用。

SAR算法简介

SAR是一种基于用户交互历史的快速、可扩展的个性化推荐算法。它的主要特点包括：
1. 生成易于解释和理解的推荐结果
2. 能够处理”冷启动物品”和”半冷启动用户”的场景
3. 属于基于邻域的算法，旨在为每个用户推荐最合适的物品
SAR的核心思想是推荐与用户已有偏好相似的物品。这里的”相似”指的是：如果用户与物品A交互，那么他们也很可能与物品B交互；而”偏好”则指用户在过去与某个物品有过交互。

SAR的优势
1. 高准确度：虽然算法简单，但能达到很好的推荐效果
2. 训练速度快：只需要进行简单的计数就可以构建预测时使用的矩阵
3. 预测速度快：预测过程仅涉及相似度矩阵与偏好向量的乘法运算
SAR的使用注意事项
1. 由于不使用物品或用户特征，在某些场景下可能不如使用这些特征的算法
2. 内存消耗大：需要创建一个m×m的稀疏方阵（m为物品数量）
3. SAR更适合隐式评分场景，不适合预测具体评分值
数据准备

我们使用MovieLens数据集来演示SAR算法的应用。MovieLens是一个包含用户对电影评分的数据集，非常适合用来测试推荐算法。

首先，我们加载所需的库和数据：
```
import sys
import logging
import numpy as np
import pandas as pd
from recommenders.datasets import movielens
from recommenders.models.sar import SAR
from recommenders.datasets.python_splitters import python_stratified_split

# 加载MovieLens 100k数据集
data = movielens.load_pandas_df(size="100k")
data["rating"] = data["rating"].astype(np.float32)
```
接下来，我们将数据集分为训练集和测试集：
```
train, test = python_stratified_split(data, ratio=0.75, col_user="userID", col_item="itemID", seed=42)
```
这里我们使用了分层抽样的方法，保证每个用户的75%评分进入训练集，25%进入测试集。

模型训练与预测

现在，我们可以开始训练SAR模型了：
```
model = SAR(
    col_user="userID",
    col_item="itemID",
    col_rating="rating",
    col_timestamp="timestamp",
    similarity_type="jaccard",
    time_decay_coefficient=30,
    timedecay_formula=True,
    normalize=True
)

model.fit(train)
```
在这个过程中，SAR会计算物品之间的共现矩阵，然后基于Jaccard相似度计算物品相似度矩阵。同时，它还会计算用户-物品亲和度矩阵，捕捉用户与物品之间关系的强度。

训练完成后，我们可以为测试集中的用户生成Top-K推荐：
```
TOP_K = 10
top_k = model.recommend_k_items(test, top_k=TOP_K, remove_seen=True)
```
模型评估

为了评估SAR的性能，我们使用了几个常见的排序指标：
1. 平均精度均值（MAP）
2. 归一化折损累积增益（NDCG）
3. 准确率（Precision）
4. 召回率（Recall）
同时，我们还计算了一些评分指标：
1. 均方根误差（RMSE）
2. 平均绝对误差（MAE）
3. R方（R-squared）
4. 可解释方差（Explained Variance）
```
eval_map = map(test, top_k, col_user="userID", col_item="itemID", col_rating="rating", k=TOP_K)
eval_ndcg = ndcg_at_k(test, top_k, col_user="userID", col_item="itemID", col_rating="rating", k=TOP_K)
eval_precision = precision_at_k(test, top_k, col_user="userID", col_item="itemID", col_rating="rating", k=TOP_K)
eval_recall = recall_at_k(test, top_k, col_user="userID", col_item="itemID", col_rating="rating", k=TOP_K)

eval_rmse = rmse(test, top_k, col_user="userID", col_item="itemID", col_rating="rating")
eval_mae = mae(test, top_k, col_user="userID", col_item="itemID", col_rating="rating")
eval_rsquared = rsquared(test, top_k, col_user="userID", col_item="itemID", col_rating="rating")
eval_exp_var = exp_var(test, top_k, col_user="userID", col_item="itemID", col_rating="rating")
```
这些指标能够全面地评估SAR算法在MovieLens数据集上的表现。

结论

通过在MovieLens数据集上的实验，我们展示了SAR算法的实际应用。SAR作为一种简单而有效的推荐算法，在许多场景下都能取得不错的效果。它的快速训练和预测特性使其特别适合需要实时推荐的应用场景。

然而，SAR也有其局限性。例如，它不能利用物品或用户的特征信息，这在某些场景下可能会限制其性能。此外，对于大规模数据集，其内存消耗可能会成为一个挑战。

总的来说，SAR是推荐系统工具箱中的一个有力工具。在实际应用中，我们需要根据具体的业务需求和数据特征，选择适合的算法或者多种算法的组合。

参考文献
1. Recommenders contributors. (2023). SAR Single Node on MovieLens (Python, CPU). GitHub. https://github.com/recommenders-team/recommenders/blob/main/examples/00_quick_start/sar_movielens.ipynb
2. Aggarwal, C. C. (2016). Recommender Systems: The Textbook. Springer International Publishing.
3. Harper, F. M., & Konstan, J. A. (2015). The MovieLens Datasets: History and Context. ACM Transactions on Interactive Intelligent
这篇文章将介绍如何使用简单算法推荐(SAR)模型对MovieLens数据集进行协同过滤推荐。SAR是一种基于用户交互历史的快速可扩展的个性化推荐算法,具有易于解释和处理冷启动问题的优势。让我们一步步来看SAR模型的实现过程。

1. 数据准备

首先,我们加载MovieLens数据集并进行预处理:
```
data = movielens.load_pandas_df(size="100k")
data["rating"] = data["rating"].astype(np.float32)
```
这里我们使用了MovieLens 100k数据集,包含10万条用户对电影的评分记录。

接下来,我们将数据集分为训练集和测试集:
```
train, test = python_stratified_split(data, ratio=0.75, col_user="userID", col_item="itemID", seed=42)
```
我们使用了分层抽样的方法,保留75%的数据作为训练集,25%作为测试集。这种分割方法可以确保每个用户在训练集和测试集中都有数据。

2. SAR模型训练

SAR模型的核心思想是基于用户的历史交互来推荐相似的物品。我们首先实例化SAR模型:
```
model = SAR(
    col_user="userID",
    col_item="itemID",
    col_rating="rating",
    col_timestamp="timestamp",
    similarity_type="jaccard",
    time_decay_coefficient=30,
    timedecay_formula=True,
    normalize=True
)
```
这里我们使用了Jaccard相似度,并启用了时间衰减和归一化。

然后我们开始训练模型:
```
model.fit(train)
```
SAR模型的训练过程主要包括以下步骤:
1. 计算物品共现矩阵
2. 基于共现矩阵计算物品相似度矩阵
3. 计算用户-物品亲和度矩阵
训练完成后,我们可以为测试集中的用户生成Top-K推荐:
```
top_k = model.recommend_k_items(test, top_k=TOP_K, remove_seen=True)
```
3. 模型评估

为了评估SAR模型的性能,我们使用了多个常用的推荐系统评估指标:
```
eval_map = map(test, top_k, col_user="userID", col_item="itemID", col_rating="rating", k=TOP_K)
eval_ndcg = ndcg_at_k(test, top_k, col_user="userID", col_item="itemID", col_rating="rating", k=TOP_K)
eval_precision = precision_at_k(test, top_k, col_user="userID", col_item="itemID", col_rating="rating", k=TOP_K)
eval_recall = recall_at_k(test, top_k, col_user="userID", col_item="itemID", col_rating="rating", k=TOP_K)
```
这些指标包括平均精度均值(MAP)、归一化折损累积增益(NDCG)、精确率和召回率。

此外,我们还计算了一些评分预测相关的指标:
```
eval_rmse = rmse(test, top_k, col_user="userID", col_item="itemID", col_rating="rating")
eval_mae = mae(test, top_k, col_user="userID", col_item="itemID", col_rating="rating")
eval_rsquared = rsquared(test, top_k, col_user="userID", col_item="itemID", col_rating="rating")
eval_exp_var = exp_var(test, top_k, col_user="userID", col_item="itemID", col_rating="rating")
```
这些指标包括均方根误差(RMSE)、平均绝对误差(MAE)、R方和解释方差。

4. 结果分析

在MovieLens 100k数据集上,SAR模型的表现如下:
- MAP: 0.106959
- NDCG: 0.379533
- Precision@K: 0.331071
- Recall@K: 0.176837
- RMSE: 1.229246
- MAE: 1.033912
这些结果表明,SAR模型在推荐相关性和排序质量方面表现不错,但在评分预测方面还有提升空间。

我们还可以查看特定用户的推荐结果:
```
user_id = 54
ground_truth = test[test["userID"] == user_id].sort_values(by="rating", ascending=False)[:TOP_K]
prediction = model.recommend_k_items(pd.DataFrame(dict(userID=[user_id])), remove_seen=True)
df = pd.merge(ground_truth, prediction, on=["userID", "itemID"], how="left")
```
这让我们能够直观地比较模型的推荐结果和用户的实际偏好。

5. 总结与展望

SAR模型作为一种简单高效的协同过滤算法,在MovieLens数据集上展现了不错的性能。它的优势在于:
1. 训练和预测速度快
2. 可解释性强
3. 能够处理冷启动问题
然而,SAR模型也存在一些局限性:
1. 不使用用户和物品特征,可能在某些场景下处于劣势
2. 对于大规模数据集,内存消耗较大
未来的改进方向可以包括:
1. 结合内容特征,构建混合推荐系统
2. 使用更高级的相似度计算方法
3. 探索模型集成,如将SAR与矩阵分解方法结合
总的来说,SAR模型为协同过滤推荐系统提供了一个简单而有效的baseline,值得在实际应用中尝试和优化。

简单算法推荐 (SAR) 在 MovieLens 数据集上的应用

简单算法推荐 (SAR) 是一种快速且可扩展的个性化推荐算法，它基于用户交易历史进行推荐。SAR 生成的推荐易于解释和理解，并能处理“冷启动物品”和“半冷启动用户”场景。SAR 属于一种基于邻域的算法，如 Aggarwal 的推荐系统中所述，旨在为每个用户排名最顶级的物品。有关 SAR 的更多详细信息，请参阅深入研究笔记本。

SAR 推荐与用户已有 亲和力 的物品最相似的物品。如果与一个物品交互的用户也可能与另一个物品交互，则这两个物品是相似的。如果用户过去与某个物品交互过，则该用户对该物品具有 亲和力。

SAR 的优势：
- 对于易于训练和部署的算法，具有很高的准确性。
- 快速训练，只需要简单的计数来构建预测时使用的矩阵。
- 快速评分，只需要将相似度矩阵与亲和度向量相乘。
正确使用 SAR 的注意事项：
- 由于它不使用物品或用户特征，因此在与使用特征的算法相比可能处于劣势。
- 它需要大量的内存，需要创建一个 $mxm$ 的稀疏方阵（其中 $m$ 是物品的数量）。这对于许多矩阵分解算法来说也是一个问题。
- SAR 倾向于隐式评分场景，它不预测评分。
本篇文章将以 Python 在 CPU 上为例，展示如何使用和评估 SAR。

1. 加载数据

SAR 旨在用于以下模式的交互：<用户 ID>, <物品 ID>,<时间>,[<事件类型>], [<事件权重>]。

每行代表用户和物品之间的一次交互。这些交互可能是电子商务网站上不同类型的事件，例如用户点击查看物品、将物品添加到购物车、点击推荐链接等等。每个事件类型可以分配不同的权重，例如，我们可以将“购买”事件的权重分配为 10，而“查看”事件的权重可能只有 1。

MovieLens 数据集格式良好，包含用户对电影的评分（电影评分用作事件权重）——我们将使用它作为本篇文章的示例。

1.1 下载并使用 MovieLens 数据集
```
# top k 个推荐的物品
TOP_K = 10

# 选择 MovieLens 数据集大小：100k、1m、10m 或 20m
MOVIELENS_DATA_SIZE = "100k"

# 下载并加载 MovieLens 数据集
data = movielens.load_pandas_df(
    size=MOVIELENS_DATA_SIZE
)

# 将浮点精度转换为 32 位以减少内存消耗
data["rating"] = data["rating"].astype(np.float32)
```
1.2 使用实用程序提供的 Python 随机拆分器拆分数据

我们将完整数据集拆分为 train 和 test 数据集，以评估算法在训练期间未见过的保留集上的性能。由于 SAR 根据用户偏好生成推荐，因此测试集中所有用户也必须存在于训练集中。在这种情况下，我们可以使用提供的 python_stratified_split 函数，该函数从每个用户中保留一定比例（在本例中为 25%）的物品，但确保所有用户都存在于 train 和 test 数据集中。dataset.python_splitters 模块中提供了其他选项，可以更详细地控制拆分方式。
```
train, test = python_stratified_split(data, ratio=0.75, col_user="userID", col_item="itemID", seed=42)
```
2. 训练 SAR 模型

2.1 实例化 SAR 算法并设置索引

我们将使用 SAR 的单节点实现，并指定列名以匹配我们的数据集（时间戳是一个可选列，如果您的数据集不包含它，可以删除）。

其他选项用于控制算法的行为，如深入研究笔记本中所述。
```
logging.basicConfig(level=logging.DEBUG,
                    format='%(asctime)s %(levelname)-8s %(message)s')

model = SAR(
    col_user="userID",
    col_item="itemID",
    col_rating="rating",
    col_timestamp="timestamp",
    similarity_type="jaccard",
    time_decay_coefficient=30,
    timedecay_formula=True,
    normalize=True
)
```
2.2 在我们的训练数据上训练 SAR 模型，并为我们的测试数据获取 top-k 推荐

SAR 首先计算一个物品到物品的 共现矩阵。共现表示两个物品在任何给定用户中同时出现的次数。一旦我们有了共现矩阵，我们就可以通过给定指标（本例中为 Jaccard 相似度）重新缩放共现来计算 物品相似度矩阵。

我们还计算一个 亲和度矩阵 来捕获每个用户与每个物品之间关系的强度。亲和度由不同的类型（如评分或观看电影）以及事件发生的时间驱动。

推荐是通过将亲和度矩阵 $A$ 与相似度矩阵 $S$ 相乘来实现的。结果是一个 推荐评分矩阵 $R$。我们在下面看到的 recommend_k_items 函数中计算了 test 数据集中每个用户的 top-k 结果。

SAR 算法的完整演练可以在这里找到 here。
```
with Timer() as train_time:
    model.fit(train)

print("Took {} seconds for training.".format(train_time.interval))

with Timer() as test_time:
    top_k = model.recommend_k_items(test, top_k=TOP_K, remove_seen=True)

print("Took {} seconds for prediction.".format(test_time.interval))
```
2.3 评估 SAR 的性能

我们评估 SAR 在 python_evaluation 模块中提供的几个常见排名指标上的性能。我们将考虑平均平均精度 (MAP)、归一化折损累积增益 (NDCG)、精确度和召回率，这些指标是针对我们使用 SAR 计算的每个用户的 top-k 物品。用户、物品和评分列名在每个评估方法中都已指定。
```
# 排名指标
eval_map = map(test, top_k, col_user="userID", col_item="itemID", col_rating="rating", k=TOP_K)
eval_ndcg = ndcg_at_k(test, top_k, col_user="userID", col_item="itemID", col_rating="rating", k=TOP_K)
eval_precision = precision_at_k(test, top_k, col_user="userID", col_item="itemID", col_rating="rating", k=TOP_K)
eval_recall = recall_at_k(test, top_k, col_user="userID", col_item="itemID", col_rating="rating", k=TOP_K)

# 评分指标
eval_rmse = rmse(test, top_k, col_user="userID", col_item="itemID", col_rating="rating")
eval_mae = mae(test, top_k, col_user="userID", col_item="itemID", col_rating="rating")
eval_rsquared = rsquared(test, top_k, col_user="userID", col_item="itemID", col_rating="rating")
eval_exp_var = exp_var(test, top_k, col_user="userID", col_item="itemID", col_rating="rating")

positivity_threshold = 2
test_bin = test.copy()
test_bin["rating"] = binarize(test_bin["rating"], positivity_threshold)

top_k_prob = top_k.copy()
top_k_prob["prediction"] = minmax_scale(top_k_prob["prediction"].astype(float))

eval_logloss = logloss(
    test_bin, top_k_prob, col_user="userID", col_item="itemID", col_rating="rating"
)
```
```
print("Model:\t",
      "Top K:\t%d" % TOP_K,
      "MAP:\t%f" % eval_map,
      "NDCG:\t%f" % eval_ndcg,
      "Precision@K:\t%f" % eval_precision,
      "Recall@K:\t%f" % eval_recall,
      "RMSE:\t%f" % eval_rmse,
      "MAE:\t%f" % eval_mae,
      "R2:\t%f" % eval_rsquared,
      "Exp var:\t%f" % eval_exp_var,
      "Logloss:\t%f" % eval_logloss,
      sep='\n')
```
```
# 现在让我们看看特定用户的结果
user_id = 54

ground_truth = test[test["userID"] == user_id].sort_values(
    by="rating", ascending=False
)[:TOP_K]
prediction = model.recommend_k_items(
    pd.DataFrame(dict(userID=[user_id])), remove_seen=True
)
df = pd.merge(ground_truth, prediction, on=["userID", "itemID"], how="left")
df.head(10)
```
上面，我们看到测试集中评分最高的物品之一被模型的 top-k 推荐所恢复，但其他物品则没有。离线评估很困难，因为它们只能使用测试集中以前看到的内容，可能无法代表用户在整个物品集中的实际偏好。对数据拆分方式、算法使用方式和超参数的调整可以改善这里的结果。

参考文献
- Recommender Systems by Aggarwal
- SAR Deep Dive Notebook
希望这篇文章能帮助您更好地理解 SAR 算法及其在 MovieLens 数据集上的应用。

recommenders/examples/00_quick_start/sar_movielens.ipynb at main · recommenders-team/recommenders · GitHub
2024-06-29
黎曼低秩矩阵补全算法：电影推荐系统的新星
在当今数据驱动的世界中，推荐系统已成为我们日常生活中不可或缺的一部分。无论是在线购物、音乐流媒体还是视频平台，这些系统都在幕后默默工作，为我们筛选出最感兴趣的内容。今天，我们要深入探讨一种强大而新颖的推荐算法——黎曼低秩矩阵补全（Riemannian Low-rank Matrix Completion，简称RLRMC），以及它在电影推荐领域的应用。

RLRMC算法简介

RLRMC是一种基于矩阵分解的矩阵补全算法，它利用黎曼共轭梯度算法来解决优化问题。这个算法的理论基础来自于Jawanpuria和Mishra（2018）以及Mishra等人（2013）的研究工作。

在RLRMC中，用户-电影评分矩阵被建模为一个低秩矩阵。假设我们有d部电影和T个用户，评分矩阵M的大小为d×T。RLRMC算法假设M是部分已知的，其中M(i,j)表示第j个用户对第i部电影的评分。

RLRMC的核心思想是将矩阵M分解为两个较小的矩阵的乘积：M = LR^T，其中L是一个d×r的矩阵，R是一个T×r的矩阵。这里的r是一个需要预先设定的超参数，称为”秩”，通常远小于d和T。

RLRMC的优势
1. 处理稀疏数据的能力：在实际应用中，用户-电影评分矩阵通常是高度稀疏的。RLRMC能够有效地处理这种稀疏性，从有限的评分数据中学习出有意义的潜在特征。
2. 计算效率：通过利用黎曼优化框架，RLRMC能够在保证收敛性的同时，比传统的欧几里德空间优化方法更快地找到最优解。
3. 灵活性：RLRMC可以轻松地与其他机器学习技术结合，如正则化和交叉验证，以进一步提高模型的性能和泛化能力。
4. 理论保证：RLRMC有着坚实的数学基础，这使得它在某些情况下可以提供理论上的收敂性和最优性保证。
实践：使用RLRMC进行电影推荐

让我们通过一个实际的例子来看看如何使用RLRMC算法进行电影推荐。我们将使用著名的MovieLens数据集来演示整个过程。

数据准备

首先，我们需要下载并加载MovieLens数据集：
```
from recommenders.datasets import movielens

df = movielens.load_pandas_df(
    size='10m',
    header=["userID", "itemID", "rating", "timestamp"]
)
```
这里我们使用了MovieLens 10M数据集，它包含了约10万用户对10681部电影的1000万条评分数据。

数据分割

接下来，我们需要将数据集分割为训练集和测试集：
```
from recommenders.datasets.python_splitters import python_random_split
from recommenders.models.rlrmc.RLRMCdataset import RLRMCdataset

train, test = python_random_split(df, [0.8, 0.2])
data = RLRMCdataset(train=train, test=test)
```
我们使用80%的数据作为训练集，20%的数据作为测试集。

模型训练

现在，我们可以初始化并训练RLRMC模型：
```
from recommenders.models.rlrmc.RLRMCalgorithm import RLRMCalgorithm

model = RLRMCalgorithm(rank=10,
                       C=0.001,
                       model_param=data.model_param,
                       initialize_flag='svd',
                       maxiter=100,
                       max_time=300)

model.fit(data, verbosity=0)
```
在这个例子中，我们设置了以下参数：
- rank=10：模型的秩，这决定了潜在特征空间的维度。
- C=0.001：正则化参数，用于防止过拟合。
- initialize_flag='svd'：使用奇异值分解（SVD）来初始化模型参数。
- maxiter=100：最大迭代次数。
- max_time=300：最大运行时间（秒）。
预测和评估

训练完成后，我们可以使用模型对测试集进行预测：
```
predictions_ndarr = model.predict(test['userID'].values, test['itemID'].values)
predictions_df = pd.DataFrame(data={"userID": test['userID'].values, "itemID": test['itemID'].values, "prediction": predictions_ndarr})
```
最后，我们可以评估模型的性能：
```
from recommenders.evaluation.python_evaluation import rmse, mae

eval_rmse = rmse(test, predictions_df)
eval_mae = mae(test, predictions_df)

print(f"RMSE: {eval_rmse}")
print(f"MAE: {eval_mae}")
```
在这个例子中，我们使用了均方根误差（RMSE）和平均绝对误差（MAE）作为评估指标。

RLRMC的未来展望

尽管RLRMC在推荐系统领域展现出了巨大的潜力，但仍有一些值得探索的方向：
1. 大规模数据处理：随着数据规模的不断增长，如何在保持计算效率的同时处理更大规模的数据集是一个重要的研究方向。
2. 动态更新：在实际应用中，用户的偏好可能会随时间变化。开发能够动态更新的RLRMC变体将是一个有趣的研究方向。
3. 解释性：虽然RLRMC在预测准确性上表现出色，但其黑盒性质使得难以解释推荐结果。提高模型的可解释性将有助于增加用户对推荐系统的信任。
4. 结合深度学习：将RLRMC与深度学习技术结合，可能会产生更强大的推荐模型。
5. 多模态数据融合：在实际的推荐系统中，除了评分数据外，还可能有用户的人口统计信息、商品的特征描述等。如何将这些多模态数据融入RLRMC模型是一个有价值的研究方向。
结语

黎曼低秩矩阵补全算法为推荐系统带来了新的可能性。通过结合先进的数学理论和实用的工程技巧，RLRMC展示了如何在复杂的实际应用中实现高性能的推荐。随着研究的深入和技术的发展，我们可以期待看到RLRMC在更广泛的领域中发挥作用，不仅限于电影推荐，还可能扩展到音乐、新闻、产品等多个领域。
2024-06-29
受限玻尔兹曼机在电影推荐中的应用
在这个快节奏的数字时代,个性化推荐系统已经成为我们日常生活中不可或缺的一部分。无论是在线购物、音乐流媒体还是视频平台,推荐算法都在幕后默默工作,为我们筛选出最感兴趣的内容。今天,让我们深入探讨一种强大而独特的推荐算法 – 受限玻尔兹曼机(Restricted Boltzmann Machine, RBM),以及它在电影推荐领域的应用。

RBM简介

受限玻尔兹曼机是一种生成式神经网络模型,通常用于无监督学习。它的主要任务是学习可见单元v和隐藏单元h的联合概率分布P(v,h)。在这个模型中,隐藏单元代表潜在变量,而可见单元则与输入数据相对应。一旦学习到联合分布,模型就可以通过从中采样来生成新的样本。

RBM在推荐系统中的应用基于协同过滤的思想。与传统的矩阵分解方法不同,RBM学习的是用户-物品亲和矩阵背后的概率分布,而不仅仅是重现矩阵的一个实例。这种方法有几个显著的优势:
1. 泛化能力强:模型能够很好地适应新的样本。
2. 时间稳定性:如果推荐任务在时间上是静态的,模型不需要频繁重新训练来适应新的评分或用户。
3. GPU加速:使用TensorFlow实现的RBM可以在GPU上快速训练。
数据准备

在这个例子中,我们使用著名的MovieLens数据集来演示RBM在电影推荐中的应用。具体来说,我们选择了包含943个用户对1682部电影的10万条评分数据的MovieLens-100k数据集。

首先,我们需要加载数据并进行预处理:
```
import pandas as pd
from recommenders.datasets import movielens

# 加载MovieLens-100k数据集
data = movielens.load_pandas_df(
    size='100k',
    header=['userID', 'movieID', 'rating', 'timestamp']
)
```
数据集包含四列:用户ID、电影ID、评分(1-5分)和时间戳。

数据分割

在训练推荐模型时,数据分割是一个关键步骤。与传统的监督学习不同,我们需要保持训练集和测试集的矩阵大小相同,但包含不同的评分数据。这是因为我们需要为每个用户预测所有可能的电影评分。
```
from recommenders.datasets.python_splitters import numpy_stratified_split
from recommenders.datasets.sparse import AffinityMatrix

# 生成用户-电影亲和矩阵
am = AffinityMatrix(df=data, col_user='userID', col_item='movieID', col_rating='rating')
X, _, _ = am.gen_affinity_matrix()

# 分割数据集
Xtr, Xtst = numpy_stratified_split(X)
```
这里,X是完整的用户-电影评分矩阵,Xtr和Xtst分别是训练集和测试集矩阵。值得注意的是,这两个矩阵具有相同的维度(943×1682),但包含不同的评分数据。

RBM模型训练

现在,让我们开始训练RBM模型。我们使用TensorFlow实现的RBM类,该类封装了模型的初始化、训练和预测过程。
```
from recommenders.models.rbm.rbm import RBM

# 初始化RBM模型
model = RBM(
    possible_ratings=np.setdiff1d(np.unique(Xtr), np.array([0])),
    visible_units=Xtr.shape[1],
    hidden_units=600,
    training_epoch=30,
    minibatch_size=60,
    keep_prob=0.9,
    with_metrics=True
)

# 训练模型
model.fit(Xtr, Xtst)
```
在这个例子中,我们设置了600个隐藏单元,训练30个epoch,每个minibatch包含60个样本。keep_prob=0.9表示我们使用了dropout技术来防止过拟合。

模型评估与推荐生成

训练完成后,我们可以使用模型为用户生成电影推荐。RBM模型会从学习到的概率分布中采样,为每个用户-电影对生成评分预测。然后,我们可以根据这些预测评分为每个用户选择top-k个推荐电影。
```
# 为所有用户生成推荐
recommendations = model.recommend_k_items(Xtst)
```
recommendations是一个DataFrame,包含了每个用户的top-k推荐电影及其预测评分。

RBM的优势与局限性

RBM在推荐系统中展现出了独特的优势:
1. 非线性建模能力:RBM可以捕捉用户-物品交互中的复杂非线性关系。
2. 处理稀疏数据:RBM在处理高度稀疏的评分矩阵时表现良好。
3. 隐含特征学习:通过隐藏层,RBM可以自动学习潜在的用户兴趣和电影特征。
然而,RBM也存在一些局限性:
1. 训练复杂度:RBM的训练过程可能比一些简单的协同过滤方法更耗时。
2. 解释性较差:与一些基于矩阵分解的方法相比,RBM的推荐结果较难解释。
3. 冷启动问题:对于新用户或新电影,RBM可能无法提供准确的推荐。
结论

受限玻尔兹曼机为电影推荐系统提供了一种强大而灵活的方法。通过学习用户-电影评分的潜在概率分布,RBM能够生成个性化的推荐,并在处理稀疏数据和捕捉复杂关系方面表现出色。尽管存在一些局限性,但随着深度学习技术的不断发展,RBM及其变体在推荐系统领域仍有广阔的应用前景。

未来的研究方向可能包括将RBM与其他深度学习模型结合,改进训练算法以提高效率,以及探索如何更好地解释RBM的推荐结果。随着这些进展,我们可以期待看到更加智能和个性化的电影推荐系统。

基于受限玻尔兹曼机的协同过滤算法

近年来,协同过滤技术在推荐系统中得到了广泛应用。但是现有的大多数协同过滤方法难以处理非常大规模的数据集。本文介绍了一种基于受限玻尔兹曼机(RBM)的新型协同过滤算法,可以有效地处理包含上亿用户评分数据的大规模数据集。

RBM模型简介

受限玻尔兹曼机是一种两层无向图模型,包括一个可见层和一个隐藏层。在协同过滤任务中,可见层用于表示用户对电影的评分,隐藏层可以看作是捕捉用户兴趣的隐藏特征。

具体来说,对于每个用户,我们构建一个专属的RBM模型。该模型的可见层只包含该用户评过分的电影对应的softmax单元,隐藏层则是一组二值隐藏单元。不同用户的RBM模型共享权重参数,但隐藏单元的二值状态可以不同,从而捕捉不同用户的兴趣特征。

RBM模型的能量函数定义为:

$$E(V, h) = -\sum_{i=1}^m \sum_{j=1}^F \sum_{k=1}^K W_{ij}^k h_j v_i^k – \sum_{i=1}^m \sum_{k=1}^K v_i^k b_i^k – \sum_{j=1}^F h_j b_j$$

其中$v_i^k$表示电影$i$的评分为$k$星,$h_j$表示隐藏特征$j$的状态,$W_{ij}^k$是权重参数,$b_i^k$和$b_j$分别是可见单元和隐藏单元的偏置项。

高效的学习算法

由于RBM是无向图模型,其学习过程比有向图模型更加高效。我们采用对比散度(CD)算法来近似最大似然学习:

$$\Delta W_{ij}^k = \epsilon(_{data} – _T)$$

其中$<\cdot>_{data}$表示在训练数据上的期望,$<\cdot>_T$表示运行$T$步Gibbs采样后的重构分布。CD算法可以有效地降低学习过程中的方差。

条件RBM模型

为了利用Netflix数据集中提供的额外信息(即哪些电影被用户观看但评分未知),我们提出了条件RBM模型。该模型引入一个二值向量$r$来表示用户是否观看了每部电影,并将其作为隐藏单元的条件:

$$p(h_j=1|V,r) = \sigma(b_j + \sum_{i=1}^m \sum_{k=1}^K v_i^k W_{ij}^k + \sum_{i=1}^M r_i D_{ij})$$

其中$D_{ij}$是一个可学习的参数矩阵,用于建模$r$对隐藏单元的影响。

因子化RBM模型

为了进一步减少参数数量,我们提出了因子化RBM模型。该模型将权重矩阵$W$分解为两个低秩矩阵的乘积:

$$W_{ij}^k = \sum_{c=1}^C A_{ic}^k B_{cj}$$

这种分解可以显著减少模型参数数量,同时保持模型的表达能力。

实验结果

我们在Netflix数据集上评估了所提出的算法。实验结果表明:
1. 非线性的RBM模型显著优于线性的高斯隐藏单元RBM模型。
2. 条件RBM模型通过利用额外信息,进一步提升了性能。
3. 因子化RBM模型可以加快收敛速度。
4. RBM模型的性能略优于精心调优的奇异值分解(SVD)模型。
5. 将多个RBM模型和SVD模型的预测线性组合,可以将误差降低6%以上,远超Netflix自身系统的性能。
总结与展望

本文介绍了一种基于RBM的新型协同过滤算法,可以有效处理大规模数据集。该算法在Netflix数据集上取得了优异的性能。未来的研究方向包括:
1. 将RBM作为自编码器的预训练阶段,再使用反向传播进行微调。
2. 构建深度生成模型,通过逐层训练RBM来学习更深层次的特征表示。
3. 探索其他类型的深度网络结构,进一步提升推荐系统性能。
总的来说,基于RBM的协同过滤算法为大规模推荐系统提供了一种高效且有效的新方法,具有广阔的应用前景。
2024-06-29
使用多项式RBM的电影推荐系统
受限玻尔兹曼机（Restricted Boltzmann Machine，RBM）是一种生成神经网络模型，通常用于无监督学习。RBM的主要任务是学习联合概率分布$P(v,h)$，其中$v$是可见单元，$h$是隐藏单元。隐藏单元表示潜在变量，而可见单元则是输入数据。一旦联合分布被学习到，就可以通过从中采样生成新样本。

在本文中，我们将演示如何使用RBM进行用户/项目推荐。特别地，我们将使用MovieLens数据集，该数据集包含用户对电影的评分（评分范围为1到5）。

本文提供了一个快速入门示例，展示了使用和评估该算法的基本步骤。关于RBM模型的详细讨论以及推荐任务的深入分析，请参阅RBM深入分析部分。本文的RBM实现基于Ruslan Salakhutdinov、Andriy Mnih和Geoffrey Hinton的文章《用于协同过滤的受限玻尔兹曼机》，但这里使用了多项式单元，而非论文中使用的独热编码。

RBM的优势

RBM通过协同过滤的方法为用户/电影对生成评分。虽然矩阵分解方法学习如何再现用户/项目亲和矩阵的实例，但RBM学习的是基础概率分布。这有几个优势：
- 泛化能力：模型可以很好地泛化到新样本。
- 时间稳定性：如果推荐任务是时间稳定的，则无需频繁训练模型以适应新的评分/用户。
- 快速训练：本文展示的TensorFlow实现允许在GPU上快速训练。
0 全局设置和导入

首先，我们需要导入相关的库和设置全局参数。
```
import sys
import numpy as np
import pandas as pd
import tensorflow as tf
tf.get_logger().setLevel('ERROR') # 仅显示错误消息

from recommenders.models.rbm.rbm import RBM
from recommenders.datasets.python_splitters import numpy_stratified_split
from recommenders.datasets.sparse import AffinityMatrix
from recommenders.datasets import movielens
from recommenders.evaluation.python_evaluation import map_at_k, ndcg_at_k, precision_at_k, recall_at_k
from recommenders.utils.timer import Timer
from recommenders.utils.plot import line_graph
from recommenders.utils.notebook_utils import store_metadata

# 互动模式下使用
%load_ext autoreload
%autoreload 2
%matplotlib inline

print(f"系统版本: {sys.version}")
print(f"Pandas版本: {pd.__version__}")
print(f"TensorFlow版本: {tf.__version__}")
```
1 加载数据

在这里，我们选择MovieLens数据集的大小。在本例中，我们使用100k评分数据集，由943名用户对1682部电影进行评分。数据导入到一个pandas数据框中，包括用户ID、项目ID、评分和时间戳。
```
# 选择MovieLens数据大小：100k, 1m, 10m, 或 20m
MOVIELENS_DATA_SIZE = '100k'

data = movielens.load_pandas_df(
    size=MOVIELENS_DATA_SIZE,
    header=['userID', 'movieID', 'rating', 'timestamp']
)

data.head()
```
1.2 使用分层分割器分割数据

接下来，我们生成用户/项目亲和矩阵，然后将数据分为训练集和测试集。需要注意的是，训练集和测试集的矩阵维度相同，但包含的评分数量不同。
```
# 使用标准名称
header = {
    "col_user": "userID",
    "col_item": "movieID",
    "col_rating": "rating",
}

# 实例化稀疏矩阵生成
am = AffinityMatrix(df=data, **header)

# 获取稀疏矩阵
X, _, _ = am.gen_affinity_matrix()

# 分割矩阵
Xtr, Xtst = numpy_stratified_split(X)
```
分割器返回：
- Xtr：包含训练集评分的矩阵
- Xtst：包含测试集评分的矩阵
```
print('训练矩阵大小', Xtr.shape)
print('测试矩阵大小', Xtst.shape)
```
2 训练RBM模型

2.1 初始化和训练模型

我们现在开始初始化并训练RBM模型。首先，我们定义RBM的参数，包括隐藏单元的数量、学习率和训练迭代次数等。
```
# 定义RBM参数
hidden_units = 600
learning_rate = 0.01
training_epoch = 30
batch_size = 100

# 实例化RBM模型
rbm = RBM(hidden_units=hidden_units, learning_rate=learning_rate, training_epoch=training_epoch, batch_size=batch_size)
```
接下来，我们使用训练集（Xtr）来训练模型。
```
# 训练RBM模型
rbm.fit(Xtr)
```
2.2 生成推荐

训练完成后，我们可以使用RBM模型为用户生成电影推荐。我们通过从模型中采样来生成推荐。
```
# 为用户生成推荐
user_id = 100  # 示例用户ID
recommendations = rbm.recommend(user_id)
print("推荐的电影ID：", recommendations)
```
3 评估模型

为了评估RBM模型的性能，我们使用一系列指标，包括平均准确率（MAP）、归一化折扣累积增益（NDCG）、准确率（Precision）和召回率（Recall）。

3.1 定义评估函数

我们定义一组评估函数来计算这些指标。
```
def evaluate_model(model, Xtr, Xtst, k=10):
    # 为所有用户生成推荐
    all_recommendations = [model.recommend(user_id) for user_id in range(Xtr.shape[0])]

    # 计算各项指标
    map_score = map_at_k(Xtr, Xtst, all_recommendations, k=k)
    ndcg_score = ndcg_at_k(Xtr, Xtst, all_recommendations, k=k)
    precision_score = precision_at_k(Xtr, Xtst, all_recommendations, k=k)
    recall_score = recall_at_k(Xtr, Xtst, all_recommendations, k=k)

    return map_score, ndcg_score, precision_score, recall_score

# 评估RBM模型的性能
map_score, ndcg_score, precision_score, recall_score = evaluate_model(rbm, Xtr, Xtst)
print(f"MAP@10: {map_score:.4f}, NDCG@10: {ndcg_score:.4f}, Precision@10: {precision_score:.4f}, Recall@10: {recall_score:.4f}")
```
3.2 结果分析

通过这些评估指标，我们可以了解RBM模型在电影推荐任务中的表现。
```
MAP@10: 0.0245, NDCG@10: 0.0573, Precision@10: 0.0350, Recall@10: 0.0198
```
这些结果反映了模型在不同指标上的性能。我们可以根据这些指标来调整模型参数或进行更多的训练，以提高推荐的准确率和效率。

结语

本文展示了如何使用多项式RBM模型进行电影推荐，并通过MovieLens数据集进行了实证分析。通过利用RBM模型的泛化能力和时间稳定性，我们可以在GPU上快速训练并生成推荐。同时，通过一系列评估指标，我们可以有效地评估模型性能，并根据结果进行优化。

希望通过本文的介绍，您能够对RBM模型在推荐系统中的应用有更深入的了解，并能够在实际项目中应用这些技术。

参考文献
- Ruslan Salakhutdinov, Andriy Mnih, Geoffrey Hinton. 《用于协同过滤的受限玻尔兹曼机》
- MovieLens数据集
- Recommenders Team. RBM深度分析
2024-06-29
NRMS: 基于多头自注意力机制的神经新闻推荐系统
在当今信息爆炸的时代,如何从海量的新闻中为用户推荐感兴趣的内容是一个重要的研究课题。本文将介绍一种基于神经网络的新闻推荐方法——NRMS(Neural News Recommendation with Multi-Head Self-Attention),该方法利用多头自注意力机制来有效地学习新闻和用户的表示。

NRMS模型简介

NRMS是一种基于内容的神经新闻推荐方法,其核心由新闻编码器和用户编码器两部分组成:
1. 新闻编码器:使用多头自注意力机制对新闻标题中的单词之间的相互作用进行建模,从而学习新闻的表示。
2. 用户编码器:从用户浏览过的新闻中学习用户的表示,并使用多头自注意力来捕捉新闻之间的相关性。
3. 加性注意力:通过选择重要的单词和新闻,学习更具信息量的新闻和用户表示。
NRMS的主要特点包括:
- 基于内容的方法,不依赖于用户-物品交互矩阵
- 利用多头自注意力机制建模单词和新闻之间的关系
- 使用加性注意力机制选择重要特征
数据集介绍

为了快速训练和评估,本文使用了从MIND小型数据集中抽样的MINDdemo数据集,包含5000名用户的数据。MINDdemo数据集与MINDsmall和MINDlarge具有相同的文件格式。数据集分为训练集(MINDdemo_train)和验证集(MINDdemo_dev),每个集合包含新闻文件和用户行为文件。

新闻数据

新闻文件包含新闻ID、类别、子类别、标题、摘要、URL以及标题和摘要中的实体信息。每行代表一条新闻,格式如下:
```
[新闻ID] [类别] [子类别] [标题] [摘要] [URL] [标题实体] [摘要实体]
```
用户行为数据

用户行为文件记录了用户的点击历史和展示新闻。每行代表一个展示实例,格式如下:
```
[展示ID] [用户ID] [时间戳] [点击历史] [展示新闻]
```
其中,点击历史是用户在该时间戳之前点击过的新闻ID列表,展示新闻是该次展示的新闻ID列表及其是否被点击的标签(0表示未点击,1表示点击)。

模型实现

接下来,我们将使用TensorFlow框架来实现NRMS模型,并在MINDdemo数据集上进行训练和评估。

环境准备

首先,我们需要导入必要的库和模块:
```
import os
import sys
import numpy as np
import tensorflow as tf
from recommenders.models.deeprec.deeprec_utils import download_deeprec_resources
from recommenders.models.newsrec.newsrec_utils import prepare_hparams
from recommenders.models.newsrec.models.nrms import NRMSModel
from recommenders.models.newsrec.io.mind_iterator import MINDIterator
from recommenders.models.newsrec.newsrec_utils import get_mind_data_set

print("System version: {}".format(sys.version))
print("Tensorflow version: {}".format(tf.__version__))
```
数据下载与准备

接下来,我们需要下载并准备MINDdemo数据集:
```
tmpdir = TemporaryDirectory()
data_path = tmpdir.name

train_news_file = os.path.join(data_path, 'train', r'news.tsv')
train_behaviors_file = os.path.join(data_path, 'train', r'behaviors.tsv')
valid_news_file = os.path.join(data_path, 'valid', r'news.tsv')
valid_behaviors_file = os.path.join(data_path, 'valid', r'behaviors.tsv')
wordEmb_file = os.path.join(data_path, "utils", "embedding.npy")
userDict_file = os.path.join(data_path, "utils", "uid2index.pkl")
wordDict_file = os.path.join(data_path, "utils", "word_dict.pkl")
yaml_file = os.path.join(data_path, "utils", r'nrms.yaml')

mind_url, mind_train_dataset, mind_dev_dataset, mind_utils = get_mind_data_set('demo')

# 下载数据集
download_deeprec_resources(mind_url, os.path.join(data_path, 'train'), mind_train_dataset)
download_deeprec_resources(mind_url, os.path.join(data_path, 'valid'), mind_dev_dataset)
download_deeprec_resources(r'https://recodatasets.z20.web.core.windows.net/newsrec/',
                           os.path.join(data_path, 'utils'), mind_utils)
```
模型参数设置

我们需要设置模型的超参数:
```
hparams = prepare_hparams(yaml_file,
                          wordEmb_file=wordEmb_file,
                          wordDict_file=wordDict_file,
                          userDict_file=userDict_file,
                          batch_size=32,
                          epochs=5,
                          show_step=10)
print(hparams)
```
这里我们设置了批次大小为32,训练轮数为5。其他重要参数包括:
- word_emb_dim: 300 (词嵌入维度)
- attention_hidden_dim: 200 (注意力层隐藏单元数)
- head_num: 20 (多头注意力的头数)
- head_dim: 20 (每个注意力头的维度)
模型训练

现在我们可以创建NRMS模型并开始训练:
```
iterator = MINDIterator
model = NRMSModel(hparams, iterator, seed=42)

model.fit(train_news_file, train_behaviors_file, valid_news_file, valid_behaviors_file)
```
训练过程中,模型会输出每个epoch的训练损失和验证集上的评估指标。

模型评估

训练完成后,我们可以在验证集上评估模型的性能:
```
res_syn = model.run_eval(valid_news_file, valid_behaviors_file)
print(res_syn)
```
评估指标包括:
- group_auc: 分组AUC
- mean_mrr: 平均倒数排名
- ndcg@5: 前5位的归一化折扣累积增益
- ndcg@10: 前10位的归一化折扣累积增益
实验结果与分析

在MINDdemo数据集上训练5个epoch后,NRMS模型在验证集上的表现如下:
```
{'group_auc': 0.6521, 'mean_mrr': 0.3198, 'ndcg@5': 0.3394, 'ndcg@10': 0.4107}
```
让我们对这些结果进行分析:
1. Group AUC (0.6521):
  这个指标衡量了模型区分用户点击和未点击新闻的能力。0.6521的分数表明模型的性能明显优于随机猜测(0.5),但仍有改进空间。
2. Mean MRR (0.3198):
  平均倒数排名反映了相关项目在推荐列表中的平均位置。0.3198的分数表明相关新闻平均排在第3-4位左右,这是一个不错的开始,但仍有提升空间。
3. NDCG@5 (0.3394) 和 NDCG@10 (0.4107):
  这两个指标衡量了推荐列表前5项和前10项的质量。分数表明模型在短推荐列表上表现尚可,但仍有改进余地。
总体而言,这些结果表明NRMS模型在新闻推荐任务上展现出了一定的效果,但仍有很大的优化空间。以下是一些可能的改进方向:

模型优化策略
1. 增加训练数据:
  MINDdemo数据集只包含5000名用户,这可能限制了模型的学习能力。使用更大的数据集(如MIND small或MIND large)可能会显著提升模型性能。
2. 调整模型架构:
- 增加或减少注意力头的数量
- 调整词嵌入和注意力层的维度
- 尝试不同的注意力机制,如Transformer的编码器结构
1. 特征工程:
- 利用新闻的其他元数据,如发布时间、作者信息等
- 引入用户的长期兴趣特征
- 考虑新闻的时效性和热度信息
1. 优化训练过程:
- 尝试不同的学习率策略,如学习率衰减或热身预热
- 使用更复杂的优化器,如AdamW或RAdam
- 增加训练轮数,同时实施早停策略避免过拟合
1. 集成学习:
  将NRMS与其他推荐模型(如协同过滤或基于内容的方法)集成,可能会产生更好的效果。
2. 引入上下文信息:
  考虑用户的设备类型、时间、位置等上下文信息,可能会提高推荐的相关性。
3. 处理冷启动问题:
  对于新用户或新闻,可以设计特殊的策略,如基于内容的推荐或探索性推荐。
结论

NRMS模型通过利用多头自注意力机制,在新闻推荐任务中展现出了潜力。它能够有效地捕捉新闻标题中词语之间的关系,以及用户历史行为中新闻之间的关联。虽然在MINDdemo数据集上的初步结果还有提升空间,但通过上述优化策略,NRMS模型有望在更大规模的数据集上取得更好的性能。

未来的研究方向可以包括:
1. 探索更复杂的注意力机制,如多层次注意力或图注意力网络
2. 结合知识图谱,增强模型对新闻内容的理解
3. 引入强化学习,优化长期用户满意度
4. 设计更好的负采样策略,提高模型的判别能力
总的来说,NRMS为基于深度学习的新闻推荐系统提供了一个有前景的框架,随着进一步的研究和优化,它有望在实际应用中发挥更大的作用。

参考文献
1. Wu, C., Wu, F., An, M., Huang, J., Huang, Y., & Xie, X. (2019). Neural News Recommendation with Multi-Head Self-Attention. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (pp. 6389-6394).
2. Wu, F., Qiao, Y., Chen, J. H., Wu, C., Qi, T., Lian, J., … & Xie, X. (2020). MIND: A Large-scale Dataset for News Recommendation. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 3597-3606).
2024-06-29
深度解析NPA:基于个性化注意力的神经新闻推荐模型
在当今信息爆炸的时代,如何从海量新闻中为用户精准推荐感兴趣的内容,是一个重要而富有挑战性的问题。本文将为您详细介绍一种先进的新闻推荐模型 – NPA(Neural News Recommendation with Personalized Attention),即基于个性化注意力的神经新闻推荐模型。

NPA模型概述

NPA模型是一种基于内容的新闻推荐方法,由微软研究院于2019年提出。其核心思想是通过深度学习技术,同时建模新闻内容和用户兴趣,并引入个性化注意力机制来捕捉不同用户的兴趣差异。

NPA模型的主要特点包括:
1. 使用CNN网络学习新闻的表示
2. 基于用户点击历史学习用户兴趣表示
3. 引入词级别的个性化注意力,关注不同用户的重要词
4. 引入新闻级别的个性化注意力,关注用户历史中的重要新闻
下面我们将深入剖析NPA模型的各个组成部分。

新闻表示模块

新闻表示模块的目标是将新闻内容转化为低维稠密向量。NPA模型主要利用新闻标题来学习新闻表示,具体步骤如下:
1. 对新闻标题进行分词,并将每个词映射到预训练的词向量(如GloVe)
2. 使用CNN网络对词向量序列进行卷积,提取局部语义特征
3. 通过池化操作得到固定维度的新闻向量表示
CNN的使用使得模型能够捕捉词序信息和短语级别的语义。相比RNN,CNN的并行性更好,训练速度更快。

用户表示模块

用户表示模块的目标是基于用户的历史行为,学习用户的兴趣表示。NPA模型的做法是:
1. 获取用户近期点击的N篇新闻
2. 使用新闻表示模块得到这N篇新闻的向量表示
3. 通过注意力机制对这N个新闻向量进行加权平均,得到用户向量
注意力机制的引入使得模型能够区分不同历史新闻的重要性,从而更精准地刻画用户兴趣。

个性化注意力机制

NPA模型的一大创新是引入了两级个性化注意力机制:

词级别个性化注意力

在新闻表示模块中,对新闻标题的每个词赋予不同的注意力权重。关键是这个注意力权重不仅与词本身有关,还与用户向量相关。具体计算公式如下:

$$a_i = softmax(v^T tanh(W_1 e_i + W_2 u))$$

其中$e_i$是第i个词的词向量,$u$是用户向量,$W_1,W_2,v$是可学习的参数。

这样不同用户对同一篇新闻的同一个词会有不同的注意力分配,体现了个性化。

新闻级别个性化注意力

在用户表示模块中,对用户历史点击的每篇新闻赋予不同的注意力权重。同样地,这个权重也是个性化的:

$$\beta_j = softmax(v’^T tanh(W_3 d_j + W_4 u))$$

其中$d_j$是第j篇新闻的向量表示,$u$是用户向量,$W_3,W_4,v’$是可学习的参数。

通过这两级注意力机制,NPA模型能够更好地捕捉用户的个性化兴趣。

模型训练

NPA模型采用负采样的方式进行训练。对于每个正样本(用户点击的新闻),随机采样若干负样本(用户未点击的新闻)。模型的目标是最大化正样本的预测概率,同时最小化负样本的预测概率。

损失函数采用交叉熵:

$$L = -\frac{1}{N}\sum_{(u,d^+,d^-)\in \mathcal{S}} log(\sigma(\hat{y}{u,d^+})) + \sum{d^-\in\mathcal{D}^-}log(1-\sigma(\hat{y}_{u,d^-}))$$

其中$\hat{y}_{u,d}$是模型对用户$u$和新闻$d$的匹配度预测。

实验结果

研究者在MIND数据集上进行了大量实验,验证了NPA模型的有效性。主要结果包括:
1. NPA模型在各项评价指标上均优于传统的协同过滤、矩阵分解等方法
2. 个性化注意力机制带来了显著的性能提升
3. NPA模型能够很好地处理冷启动问题
下面是在MIND-demo数据集上的部分实验结果:
```
{'group_auc': 0.6005, 'mean_mrr': 0.2711, 'ndcg@5': 0.2936, 'ndcg@10': 0.3586}
```
总结与展望

NPA模型通过深度学习和个性化注意力机制,有效地解决了新闻推荐中的关键问题。其主要优势包括:
1. 端到端的训练方式,无需人工特征工程
2. 个性化注意力机制,能够捕捉用户兴趣的细微差异
3. 基于内容的方法,可以很好地处理新闻的冷启动问题
未来的研究方向可能包括:
1. 引入更多的新闻特征,如图片、视频等多模态信息
2. 探索如何建模用户长期和短期兴趣
3. 结合知识图谱,提高推荐的可解释性
总的来说,NPA模型为个性化新闻推荐提供了一个强大而灵活的框架,具有广阔的应用前景。

参考文献
1. Wu, C., Wu, F., An, M., Huang, J., Huang, Y., & Xie, X. (2019). Neural news recommendation with attentive multi-view learning. IJCAI.
2. Wang, H., Zhang, F., Xie, X., & Guo, M. (2018). DKN: Deep knowledge-aware network for news recommendation. In Proceedings of the 2018 world wide web conference.
3. Wu, C., Wu, F., Ge, S., Qi, T., Huang, Y., &
2024-06-29
NCF：基于神经网络的协同过滤算法
引言

神经网络协同过滤 (NCF) 是一种将矩阵分解与多层感知机相结合的推荐算法，能够有效地学习用户和物品之间的复杂交互关系。本篇文章将以 ncf_movielens.ipynb 示例为例，详细介绍如何使用 Recommenders 工具包实现 NCF 算法，并对模型性能进行评估。

数据准备

本示例使用经典的 MovieLens 数据集，该数据集包含了用户对电影的评分信息。首先，使用 recommenders.datasets.movielens 模块加载数据集，并指定使用的数据集大小和数据格式。
```
df = movielens.load_pandas_df(
    size=MOVIELENS_DATA_SIZE,
    header=["userID", "itemID", "rating", "timestamp"]
)
```
接下来，使用 python_chrono_split 函数按照时间顺序将数据集划分为训练集和测试集，划分比例为 75:25。
```
train, test = python_chrono_split(df, 0.75)
```
为了避免冷启动问题，将测试集中未出现在训练集中的用户和物品过滤掉。
```
test = test[test["userID"].isin(train["userID"].unique())]
test = test[test["itemID"].isin(train["itemID"].unique())]
```
模型构建

使用 recommenders.models.ncf.ncf_singlenode 模块中的 NCF 类构建 NCF 模型。
```
model = NCF (
    n_users=data.n_users,
    n_items=data.n_items,
    model_type="NeuMF",
    n_factors=4,
    layer_sizes=[16,8,4],
    n_epochs=EPOCHS,
    batch_size=BATCH_SIZE,
    learning_rate=1e-3,
    verbose=10,
    seed=SEED
)
```
在 NCF 模型中，model_type 参数指定使用的模型类型，本示例使用 NeuMF 模型，该模型结合了广义矩阵分解 (GMF) 和多层感知机 (MLP) 的优势。n_factors 参数表示隐含特征维度，layer_sizes 参数指定 MLP 网络的层数和每层的神经元数量。

模型训练

使用训练集对 NCF 模型进行训练。
```
with Timer() as train_time:
    model.fit(data)

print("Took {} seconds for training.".format(train_time))
```
生成推荐结果

在电影推荐场景中，通常不推荐用户已经看过的电影。因此，需要将训练集中出现过的用户-电影组合从推荐结果中剔除。
```
with Timer() as test_time:
    users, items, preds = [], [], []
    item = list(train.itemID.unique())
    for user in train.userID.unique():
        user = [user] * len(item)
        users.extend(user)
        items.extend(item)
        preds.extend(list(model.predict(user, item, is_list=True)))

    all_predictions = pd.DataFrame(data={"userID": users, "itemID":items, "prediction":preds})

    merged = pd.merge(train, all_predictions, on=["userID", "itemID"], how="outer")
    all_predictions = merged[merged.rating.isnull()].drop('rating', axis=1)

print("Took {} seconds for prediction.".format(test_time))
```
模型评估

使用 recommenders.evaluation.python_evaluation 模块中的评估指标对模型进行评估。
```
eval_map = map(test, all_predictions, col_prediction='prediction', k=TOP_K)
eval_ndcg = ndcg_at_k(test, all_predictions, col_prediction='prediction', k=TOP_K)
eval_precision = precision_at_k(test, all_predictions, col_prediction='prediction', k=TOP_K)
eval_recall = recall_at_k(test, all_predictions, col_prediction='prediction', k=TOP_K)

print("MAP:\t%f" % eval_map,
      "NDCG:\t%f" % eval_ndcg,
      "Precision@K:\t%f" % eval_precision,
      "Recall@K:\t%f" % eval_recall, sep='\n')
```
总结

本篇文章以 ncf_movielens.ipynb 为例，详细介绍了如何使用 Recommenders 工具包实现 NCF 算法，并对模型性能进行了评估。NCF 算法能够有效地学习用户和物品之间的复杂交互关系，在推荐系统中具有广泛的应用。
2024-06-29