基于矩阵分解原理的推荐系统
2020-07-18
作者:Pytholabs
翻译:老齐
相关图书推荐:《跟老齐学Python:数据分析》
本书是数据科学、机器学习、深度学习等方向的入门读物,介绍了这些领域必用工具Numpy、Pandas和数据可视化方法,并且配有大量实例。
本文,我们将创建一个电影推荐系统。
原理:矩阵分解
矩阵分解是推荐系统系列中的一种算法,顾名思义,就是将矩阵分解成两个(或多个)矩阵,它们相乘后得到原始矩阵。 在推荐系统中,我们通常从用户与项目之间的交互/评分矩阵开始,矩阵分解算法会将用户和项目特征矩阵分解,这也称为嵌入。下面以电影推荐中的评分,购买等矩阵为例。
通常,在数据集中,要挖掘用户和项目属性的潜在特征。 本质上,潜在特征是用户/项目在任意空间中的表示,表示用户如何评价电影。 在电影推荐系统的示例中,一个用户样本中包含了他所观看的多个电影,潜在特征的值越高,则表示他喜欢该类型的电影,那么就应该推荐此类型的电影。
准备
本文所用数据来自kaggle(https://www.kaggle.com/CooperUnion/anime-recommendations-database),包含了76000个用户样本。
首先,导入数据和有关库。
1 | from recsys import * |
为了创建推荐系统,我们需要一个可交互的矩阵。为此,使用recsys
模块中的create_interaction_matrix
函数,这个眼熟要求以Pandas的DataFrame类型的数据为输入,输入数据的列必须有诸如用户id,项目id和评分等。此函数的中如果设置norm=True
,则意味着任何评分的值都应该是正的。在这个示例中,没有必要设置,因为实际的购买数据和评分都是正的。
1 | # 利用评分数据创建矩阵 |
然后用create_user_dict
和create_item_dict
函数(recsys
模块)创建关于用户和项目的字典。
1 | # 用户字典 |
矩阵分解模型
用recsys
中的runMF
函数来创建矩阵分解模型,这个函数的参数:
interaction
:前面所创建的矩阵n_components
:对于每个用户和项目嵌入的数量loss
:定义一个损失函数,本例中我们使用warp损失函数(详见:https://making.lyst.com/lightfm/docs/examples/warp_loss.html),因为我们更关心矩阵的秩。epoch
:运行的次数n_jobs
:并行处理中使用的核数
1 | mf_model = runMF(interactions = interactions, |
本系统的完整代码请参考:https://colab.research.google.com/drive/1qPA_t4O0KXHZY7fI8N69U5ikTDC9wpRy
原文链接:https://medium.com/@pytholabs/anime-recommendation-with-matrix-factorization-pytholabs-a59f7ed05516
若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏
关注微信公众号,读文章、听课程,提升技能