sparkmllib介绍

Maynor的大数据奋斗之路 Maynor的大数据奋斗之路     2023-02-05     270

关键词:

  1. SparkMllib介绍
    MLLIB是Spark的机器学习库。提供了利用Spark构建大规模和易用性的机器学习平台,组件:
    五大特性:

1-ML算法,包含-机器学习分类算法、聚类算法、属性降维算法、协同过滤算法
2-特征化:特征抽取、特征转换、特征选择、特征降维
3-管道Pipeline:将数据处理或特征工程的流程按照管道的方式去串联
4-持久化Persistence:保存模型,保存管道
如何理解保存模型?
原因就是不可能每次都去训练模型,而将已经训练好的模型进行保存,保存在本地或hdfs中,在本地或hdfs中加载已经训练好点模型,直接可以做预测分析
5-工具:包括线性代数、统计学、数据处理科学

注意:

基于DataFrame是现在主要用的API
Spark ml基于DataFrame的API
Spark mllib基于RDD的API(2.0开始处于维护模式,将被淘汰)
Spark的各种数据结构:

SparkCore-----RDD

SparkSQL-----DataFrame和DataSet

SparkStreaming批处理框架----DFrame(目前Spark官网已经对SparkStreaming停止了更新)

StructedStreming实时流处理------DataFrame和Dataset

SparkMllib机器学习库

为什么SparkMllib需要从rdd转变成dataframe?

1-Dataframe的Api是比较友好的,基于统一的数据源、sql查询、Tungsten 和catalyst优化的各种优势
2-DataFrame提供多种语言的统一的API接口
3-DataFrame可以整合Pipeline完成管道的操作
2. SparkMllib的架构详解

从架构图可以看出MLlib主要包含三个部分:

底层基础:包括Spark的运行库、矩阵库和向量库;
算法库:包含广义线性模型、推荐系统、聚类、决策树和评估的算法;
实用程序:包括测试数据的生成、外部数据的读入等功能。
MLlib算法库的核心内容:

MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。
————————————————
版权声明:本文为CSDN博主「LBJ_小松鼠」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/m0_49834705/article/details/113195451

sparkmllib介绍

SparkMllib介绍MLLIB是Spark的机器学习库。提供了利用Spark构建大规模和易用性的机器学习平台,组件:五大特性:1-ML算法,包含-机器学习分类算法、聚类算法、属性降维算法、协同过滤算法2-特征化:特征抽取、... 查看详情

sparkmllib介绍

SparkMllib介绍MLLIB是Spark的机器学习库。提供了利用Spark构建大规模和易用性的机器学习平台,组件:五大特性:1-ML算法,包含-机器学习分类算法、聚类算法、属性降维算法、协同过滤算法2-特征化:特征抽取、... 查看详情

spark学习10_1sparkmllib入门与相关资料索引(代码片段)

...文指南关于spark机器学习的知乎专栏Spark入门实战系列--8.SparkMLlib(上)--机器学习及SparkMLlib简介基本Kmeans算法介绍及其实现sparkMLlib概念1:相关系数(PPMCCorPCCorPearson‘sr皮尔森相关系数)andSpearman‘scorrelation(史匹曼等级相关系... 查看详情

sparkmllib---linearregression(线性回归)logisticregression(逻辑回归)(代码片段)

1、随机梯度下降首先介绍一下随机梯度下降算法:1.1、代码一:packagemllibimportorg.apache.log4j.Level,Loggerimportorg.apache.spark.SparkContext,SparkConfimportscala.collection.mutable.HashMap/***随机梯度下降算法*Createdby汪本成 查看详情

基于sparkmllib平台的协同过滤算法---电影推荐系统

协同过滤算法概述 基于模型的协同过滤应用---电影推荐实时推荐架构分析          一、协同过滤算法概述      本人对算法的研究,目前还不是很深入,这里简单的介... 查看详情

用spark学习fptree算法和prefixspan算法

...用这两个算法。由于scikit-learn中没有关联算法的类库,而SparkMLlib有,本文的使用以SparkMLlib作为使用环境。1. SparkMLlib关联算法概述    在SparkMLlib中,也只实现了两种关联 查看详情

spark入门实战系列--8.sparkmllib(上)--机器学习及sparkmllib简介

 Spark入门实战系列--8.SparkMLlib(上)--机器学习及SparkMLlib简介 1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,... 查看详情

sparkmllib(下)--机器学习库sparkmllib实战

 1、MLlib实例1.1 聚类实例1.1.1 算法说明聚类(Clusteranalysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习... 查看详情

sparksparkshufflesparksql及sparkmllib

查看详情

学习笔记spark——sparkmllib应用——sparkmllib应用(代码片段)

三、SparkMLlib应用3.1、SparkML线性模型数据准备基于SparkML的线性模型需要DataFrame类型的模型数据,DataFrame需要包含:一列标签列,一列由多个特征合并得到的特征列训练模型模型应用模型评估任务1:某专门面向年轻人制... 查看详情

学习笔记spark——sparkmllib应用——sparkmllib应用(代码片段)

三、SparkMLlib应用3.1、SparkML线性模型数据准备基于SparkML的线性模型需要DataFrame类型的模型数据,DataFrame需要包含:一列标签列,一列由多个特征合并得到的特征列训练模型模型应用模型评估任务1:某专门面向年轻人制... 查看详情

sparkmllib---linearregression(线性回归)logisticregression(逻辑回归)(代码片段)

1、随机梯度下降首先介绍一下随机梯度下降算法:1.1、代码一:packagemllibimportorg.apache.log4j.Level,Loggerimportorg.apache.spark.SparkContext,SparkConfimportscala.collection.mutable.HashMap/***随机梯度下降算法*Createdby汪本成on2016/8/7.*/objectSGD//屏... 查看详情

学习笔记spark——sparkmllib应用——机器学习简介sparkmllib简介

一、机器学习简介1.1、机器学习概念机器学习就是让机器能像人一样有学习、理解、认识的能力。机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机... 查看详情

学习笔记spark——sparkmllib应用——机器学习简介sparkmllib简介

一、机器学习简介1.1、机器学习概念机器学习就是让机器能像人一样有学习、理解、认识的能力。机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机... 查看详情

使用sparkmllib进行情感分析

使用SparkMLlib进行情感分析      使用SparkMLlib进行情感分析一、实验说明在当今这个互联网时代,人们对于各种事情的舆论观点都散布在各种社交网络平台或新闻提要中。我们可以在移动设备或是个人PC上轻... 查看详情

sparkmllib保序回归

"C:ProgramFilesJavajdk1.8.0_181injava""-javaagent:D:SoftwareIntelliJIDEA2017.2.2libidea_rt.jar=64070:D:SoftwareIntelliJIDEA2017.2.2in"-Dfile.encoding=UTF-8-classpath"C:ProgramFilesJava 查看详情

大数据sparkmllib机器学习(代码片段)

目录1什么是SparkMLlib?2支持的数据类型2.1本地向量集2.1.1、密集型数据集2.1.2稀疏型数据集2.2向量标签2.3本地矩阵2.4分布式矩阵2.4.1行矩阵2.4.2行索引矩阵2.4.3坐标矩阵2.4.4分块矩阵3RDD、DataSet、Dataframe区别及转化1什么是SparkMLlib... 查看详情

sparkmllib机器学习(代码片段)

目录 本章导读1. 机器学习概率2. SparkMLlib总体设计3. 数据类型3.1 局部向量3.2 标记点3.3 局部矩阵3.4 分布式矩阵4. 基础统计4.1 摘要统计4.2 相关统计1. 皮尔森相关系数2. 斯皮尔森秩相关系数4.3 分层抽样4.4 假设校验4.5 随... 查看详情