Spark机器学习库指南[Spark 1.3.1版]——协同过滤(Collaborative Filtering) ...

原作者: [db:作者] 来自: [db:来源] 收藏邀请

下面是章节协同过滤的目录(其他内容参见全文目录)

协同过滤
- 显示反馈VS隐士反馈
- 正则化参数的扩展
示例
教程

协同过滤

协同过滤(Collaborative filtering)是推荐系统的一个常用算法。这个技术的目的在于填充user-item矩阵中的缺失项。MLlib当前支持基于模型的协同过滤，在这种方法中，用户和产品通过一个小的潜在因素（latent factors）集合来描述，这个潜在因素集合可以预测缺失项。MLlib使用交替最小二乘法alternating least squares (ALS) 来学习这些潜在因素。MLlib的实现有下列参数：

numBlocks 并行计算的块数量。（默认值为-1，表示自动配置）
rank 模型中潜在因素的数量。
iterations 迭代次数。
lambda ALS中的正则化参数。
implicitPrefs 制定是否使用显示反馈ALS变体（或者说是对隐式反馈数据的一种适应）
alpha 应用于隐式数据的ALS变体，它控制的是观察到偏好的基本置信度。

显式反馈 VS隐式反馈

基于矩阵分解的协同过滤，其标准做法是将user-time矩阵中的条目看做用户对该条目的显式偏好。

在现实世界中，通常只能使用隐式的反馈（例如，查看、点击、购买、喜欢、分享等等）。MLlib中处理这种数据的方法来自 Collaborative Filtering for Implicit Feedback Datasets(针对隐式反馈的协同过滤)。这种方法将数据作为是否偏好及对应的置信度的组合来使用，而不是对评分矩阵直接建模。也就是说评分跟观察到的用户的偏好置信度相关，而不是作为对条目的显式评分。然后尝试找到潜在因素从而预测用户对某个条目的喜好。

正则化参数的扩展

从版本1.1开始，MLlib中对每个解决最小二乘问题的正则化参数lambda做了扩展：一个是在更新用户因素时用户产生的评分数量；另一个是在更新产品因素时产品被评分的数量。这个方法叫做ALS-WR(alternating-least-squares with weighted-λ -regularization)，这篇论文有详细的介绍：Large-Scale Parallel Collaborative Filtering for the Netflix Prize。该算法减小了参数lambda对数据集规模的依赖。所以我们可以把一个从抽样子集上学习到的最好的参数应用到全部数据集上，并能预计得到一样好的效果。

示例

下面的例子中我们导入了评分数据（每行由用户、产品、评分构成）。并使用ALS.train()方法进行训练，该方法默认假设评分是显式的。最后通过评分预测的均方误差评估推荐效果。

from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating

# Load and parse the data
data = sc.textFile("data/mllib/als/test.data")
ratings = data.map(lambda l: l.split(',')).map(lambda l: Rating(int(l[0]), int(l[1]), float(l[2])))

# Build the recommendation model using Alternating Least Squares
rank = 10
numIterations = 20
model = ALS.train(ratings, rank, numIterations)

# Evaluate the model on training data
testdata = ratings.map(lambda p: (p[0], p[1]))
predictions = model.predictAll(testdata).map(lambda r: ((r[0], r[1]), r[2]))
ratesAndPreds = ratings.map(lambda r: ((r[0], r[1]), r[2])).join(predictions)
MSE = ratesAndPreds.map(lambda r: (r[1][0] - r[1][1])**2).reduce(lambda x, y: x + y) / ratesAndPreds.count()
print("Mean Squared Error = " + str(MSE))

# Save and load model
model.save(sc, "myModelPath")
sameModel = MatrixFactorizationModel.load(sc, "myModelPath")

如果评分矩阵来源于其他信息源（例如，推断自其他信号），我们可以使用ALS.trainImplicit()方法来获得更好的结果。

# Build the recommendation model using Alternating Least Squares based on implicit ratings
model = ALS.trainImplicit(ratings, rank, numIterations, alpha=0.01)

为了运行上面的程序，参考最新Spark编程指南Python版[spark 1.3.0][译]。另外要导入依赖的spark-mllib库。

教程

Spark Summit 2014上的训练练习包含了一个实践教程：personalized movie recommendation with MLlib(使用MLlib的个性化电影推荐)。

鲜花

握手

雷人

路过

鸡蛋

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

Java编程常见问题集锦【三】发布时间：2022-05-14

为什么L1稀疏，L2平滑？发布时间：2022-05-14

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：8653|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：6382|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：5306|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：5773|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：5657|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：6012|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：5621|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：5089|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：5439|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：4818|2022-11-06

客服电话

电子邮件

Spark机器学习库指南[Spark 1.3.1版]——协同过滤(Collaborative Filtering) ...

协同过滤

显式反馈 VS隐式反馈

正则化参数的扩展

示例

教程

上一篇：

下一篇：

kostub/iosMath: Beautiful math equation

基于matlab的遗传算法简单实例--浅谈精英策

pallet/zi: Maven plugin for clojure

CVE-2022-38625

CVE-2022-32074

剪的笔顺,诠释剪的笔画,认识剪的部首

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

六六分期app的软件客服如何联系？(六六分期

doraiso/Mastodon

关于我们

产品与服务

解决方案

139-2527-9053