Spark Mlib介绍

文章分类

技术相关

随笔

随笔

专题文章

微信公众平台

文章存档

热门标签

分类： Spark 2016-02-22 15:09:34 颜色：橙色　默认　　字号：大中小阅读(3367) | 评论(0)

MLlib 是spark的可以扩展的机器学习库，由以下部分组成：通用的学习算法和工具类，包括分类，回归，聚类，协同过滤，降维，当然也包括调优的部分

Data types
Basic statistics (基本统计)
- summary statistics 概括统计
- correlations 相关性
- stratified sampling 分层取样
- hypothesis testing 假设检验
- random data generation 随机数生成
Classification and regression (分类一般针对离散型数据而言的，回归是针对连续型数据的。本质上是一样的)
- linear models (SVMs, logistic regression, linear regression) 线性模型（支持向量机，逻辑回归，线性回归）
- naive Bayes 贝叶斯算法
- decision trees 决策树
- ensembles of trees (Random Forests and Gradient-Boosted Trees) 多种树（随机森林和梯度增强树）
Collaborative filtering 协同过滤
- alternating least squares (ALS) (交替最小二乘法(ALS) )
Clustering 聚类
- k-means k均值算法
Dimensionality reduction (降维)
- singular value decomposition (SVD) 奇异值分解
- principal component analysis (PCA) 主成分分析
Feature extraction and transformation 特征提取和转化
Optimization (developer) 优化部分
- stochastic gradient descent 随机梯度下降
- limited-memory BFGS (L-BFGS) 短时记忆的BFGS (拟牛顿法中的一种,解决非线性问题)

基于矩阵分解的协同过滤算法–ALS：

基于模型的协同过滤推荐就是基于样本的用户喜好信息，训练一个推荐模型，然后根据实时的用户喜好的信息进行预测，计算推荐。

对于一个users-products-rating的评分数据集,ALS会建立一个user*product的m*n的矩阵（其中，m为users的数量，n为products的数量），如下图：

这里写图片描述

这个矩阵的每一行代表一个用户 (u1,u2,…,u9)、每一列代表一个产品 (v1,v2,…,v9)。用户隔天产品的打分在 1-9 之间。
但是在这个数据集中，并不是每个用户都对每个产品进行过评分，所以这个矩阵往往是稀疏的，用户i对产品j的评分往往是空的
ALS所做的事情就是将这个稀疏矩阵通过一定的规律填满，这样就可以从矩阵中得到任意一个user对任意一个product的评分，ALS填充的评分项也称为用户i对产品j的预测得分
所以说，ALS算法的核心就是通过什么样子的规律来填满（预测）这个稀疏矩阵

上一篇：基于Spark的电影推荐系统　　下一篇：机器学习简介

最新评论查看所有评论>>