• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

Spark机器学习库指南[Spark 1.3.1版]

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

本文内容关键词:Spark官方文档,Spark教程, Spark MLlib教程。

本文翻译自Spark官方文档:Machine Learning Library (MLlib) Guide ,代码示例以Python版为主,部分Python不支持的功能保留原理说明,代码示例略去,另外翻译的时候对部分概念做注解。[注:翻译是为了帮助自己更好地理解相关概念,英语OK的同学建议直接阅读英文原版]

MLlib是Spark中可扩展的机器学习库,它由一系列机器学习算法和实用程序组成,包括分类、回归、聚类、协同过滤、降维,另外还包括一些底层的优化方法。下文是MLib文档的目录结构:

  • 数据类型[Data types]
  • 基础统计[Basic statistics]

    • 汇总统计[summary statistics]
    • 相关系数[correlations]
    • 分层抽样[stratified sampling]
    • 假设检验[hypothesis testing]
    • 随机数据生成[random data generation]
  • 分类和回归[Classification and regression]

    • 线性模型(SVMs, logistic regression, linear regression)]
    • 朴素贝叶斯[naive Bayes]
    • 决策树[decision trees]
    • 树的集成 (Random Forests and Gradient-Boosted Trees)]
    • 保序回归[isotonic regression]
  • 协同过滤[Collaborative filtering]

    • 交替最小二乘法[alternating least squares (ALS)]
  • 聚类[Clustering]

    • K均值[k-means]
    • 高斯混合[Gaussian mixture]
    • 幂迭代聚类[power iteration clustering (PIC)]
    • LDA[latent Dirichlet allocation]
    • 流式K均值[streaming k-means]
  • 降维[Dimensionality reduction]

    • 奇异值分解[singular value decomposition (SVD)]
    • 主成分分析[principal component analysis (PCA)]
  • 特征提取和转换[Feature extraction and transformation]
  • 频繁模式挖掘[Frequent pattern mining]

    • FP-growth
  • 优化[Optimization (developer)]

    • 随机梯度下降[stochastic gradient descent]
    • 有限内存BFGS[limited-memory BFGS (L-BFGS)]

这里只给出了相关章节的目录结构,详情请点击链接查看。持续更新中~


鲜花

握手

雷人

路过

鸡蛋
专题导读
上一篇:
线性代数的本质[转]发布时间:2022-05-14
下一篇:
JavaScript编程常见问题集锦【二】发布时间:2022-05-14
热门推荐
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap