学习笔记spark——sparkmllib应用——机器学习简介sparkmllib简介

别呀 别呀     2022-12-15     491

关键词:

一、机器学习简介

1.1、机器学习概念

  • 机器学习就是让机器能像人一样有学习、理解、认识的能力。

  • 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。

  • 机器学习的过程就是通过计算机使算法模型利用输入数据的规律或以往经验进行学习,并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据。

  • 致力于研究如何通过计算的手段,利用经验(历史数据)来改善系统自身的性能[机器学习]。

  • 从数据中产生模型的算法,即“学习算法”。


1.2、基本术语

  • 学习(训练):从数据中学得模型的过程
  • 训练集:参与模型训练的样本集合
  • 测试:学得模型后,使用其样本进行预测的过程
  • 测试集:被预测的样本集合
  • 分类:输出结果是离散值
  • 回归:输出结果是连续值
  • 监督学习:训练样本有标记
  • 无监督学习:训练样本无标记
  • 泛化能力:学得模型适用于新样本的能力

1.3、机器学习常用的算法

  • 回归算法
    线性回归:根据已有数据拟合曲线,常采用的方法是最小二乘法
    逻辑回归:一种与线性回归非常类似的算法,但是线性回归处理的是数值问题,而逻辑回归属于分类算法,预测结果是离散的分类

  • 分类算法:有监督学习的方法。
    分类算法是通过有类别的训练数据对模型进行训练和评估,再根据评估后的模型对未知类别数据进行分类。主要有KNN算法、朴素贝叶斯算法、SVM支持向量机、逻辑回归、决策树、随机森林等等

  • 聚类算法:聚类是一种无监督学习算法,用于将对象分到高度相似的类中。
    常用的聚类方法有KMeans聚类、层次聚类,比较少见的有SOM聚类算法、FCM聚类算法,FCM算法是一种以隶属度来确定每个数据点属于某个聚类程度的算法。

  • 推荐算法:推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西,从而增加购买率,提升效益。
    协同过滤推荐算法:有基于用户和基于内容两种
    关联规则的算法:将满足支持度与置信度的共同购买的商品推荐给买了其中一种或几种的用户

  • 降维算法:主要作用是压缩数据与提升机器学习其他算法的效率。通过降维算法,可以将具有几千个特征的数据压缩至若干个特征。降维算法的主要代表是PCA算法(即主成分分析算法)。


二、Spark MLlib简介

2.1、MLlib简介

  • MLlib是Spark的机器学习(ML)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模,同时利用Spark分布式处理来实现模型,处理大数据全量数据的迭代计算。
  • 算法工具:常用的学习算法,如分类、回归、聚类和协同过滤。
  • 特征化工具:特征提取、转化、降维,和选择工具。
  • 管道(Pipeline):用于构建、评估和调整机器学习管道的工具。
  • 持久性:保存和加载算法、模型和管道。
  • 实用工具:线性代数、统计、数据处理等工具。

2.2、MLlib的发展

  • Spark MLlib历史比较长,在1.0以前的版本即已经包含了,提供的算法实现都是基于原始的RDD。主要有以下几个发展过程。
  • 0.8版本时,MLlib算法包被加入Spark,但是只支持Java和Scala两种语言。
  • 1.0版本时,Spark MLlib才可以支持Python语言。
  • 1.2版本开始Spark机器学习库被分为两个包
  • 1.2以后的版本,对MLlib中的算法不断的增加和改进
  • 从Spark2.0开始,基于RDD的API进入维护模式(即不增加任何新的特性),并预期于3.0版本的时候被移除出MLlib。

2.3、机器学习算法包

Spark MLlib & Spark ML

官网:http://spark.apache.org/docs/latest/ml-guide.html

学习笔记spark——sparkmllib应用——机器学习简介sparkmllib简介

一、机器学习简介1.1、机器学习概念机器学习就是让机器能像人一样有学习、理解、认识的能力。机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机... 查看详情

学习笔记spark——sparkmllib应用——机器学习简介sparkmllib简介

一、机器学习简介1.1、机器学习概念机器学习就是让机器能像人一样有学习、理解、认识的能力。机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机... 查看详情

sparkmllib学习笔记:构建一个机器学习工作流

文章目录一、任务描述二、实现步骤(一)引入包并构建训练数据集(二)定义工作流阶段(三)创建工作流,训练出模型(四)构建测试数据集(五)利用模型做预测一、任务描述查出所有包含“spark”的句子,将包含“spark... 查看详情

spark入门实战系列--8.sparkmllib(上)--机器学习及sparkmllib简介

 Spark入门实战系列--8.SparkMLlib(上)--机器学习及SparkMLlib简介 1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,... 查看详情

[机器学习spark]sparkmllib机器学习

...f393;博主:发量不足📑📑本期更新内容:SparkMLlib机器学习算法库📑📑下篇文章预告:Spark机器学习库MLlib的概述💨💨简介:分享的是一个当代疫情在校封校的大学生学习笔记目录初始机器... 查看详情

spark学习10_1sparkmllib入门与相关资料索引(代码片段)

...文指南关于spark机器学习的知乎专栏Spark入门实战系列--8.SparkMLlib(上)--机器学习及SparkMLlib简介基本Kmeans算法介绍及其实现sparkMLlib概念1:相关系数(PPMCCorPCCorPearson‘sr皮尔森相关系数)andSpearman‘scorrelation(史匹曼等级相关系... 查看详情

[机器学习spark]sparkmllib分类

👨‍🎓👨‍🎓博主:发量不足📑📑本期更新内容:SparkMLlib分类🔥🔥📑📑下篇文章预告:Hadoop全分布部署🔥🔥🔥简介:耐心 查看详情

spark2.x机器学习视频教程

...实例进行解析实战,帮助大家真正从理论到实践全面掌握SparkMLlib分布式机器学习。通过该课程的学习同学们可以全面掌握SparkMLlib机器学习,进而能够在实际工作中进行ML的应用开发和定制开发。课程目录:第一章:Spark构建协同... 查看详情

[机器学习spark]sparkmllib实现数据基本统计(代码片段)

👨‍🎓👨‍🎓博主:发量不足📑📑本期更新内容:SparkMLlib基本统计📑📑下篇文章预告:SparkMLlib的分类🔥🔥简介:耐心,自信来源于你强大的思想和知识基础&#x 查看详情

用spark学习fptree算法和prefixspan算法

...用这两个算法。由于scikit-learn中没有关联算法的类库,而SparkMLlib有,本文的使用以SparkMLlib作为使用环境。1. SparkMLlib关联算法概述    在SparkMLlib中,也只实现了两种关联 查看详情

sparkmllib介绍

SparkMLlib介绍Spark之所以在机器学习方面具有得天独厚的优势,有以下几点原因:(1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止,迭代时如果... 查看详情

spark学习笔记——sparkstreaming

...数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用,还有自动检测异常的应用。SparkStreaming是Spark为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的API来编写流式计算应用,这样就可以大... 查看详情

spark机器学习中ml和mllib中矩阵向量

1:SparkML与SparkMLLIB区别?SparkMLlib是面向RDD数据抽象的编程工具类库,现在已经逐渐不再被Spark团队支持,逐渐转向SparkML库,SparkML是面向DataFrame编程的。 2:SparkML与SparkMLLIB中矩阵、向量定义区别?这两个类库中的矩阵与向量... 查看详情

spark系统性学习笔记系列

1.SparkCoreSpark安装与启动Spark应用程序部署工具spark-submitSpark在Yarn上运行Spark应用程序2.SparkSQL3.SparkStreaming持续更新中 查看详情

spark系统性学习笔记系列

1.SparkCoreSpark安装与启动Spark应用程序部署工具spark-submitSpark在Yarn上运行Spark应用程序2.SparkSQL3.SparkStreaming持续更新中 查看详情

spark学习笔记

概念:Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架。支持用scala、java和Python等语言编写应用程序。相较于Hdoop,往往有更好的运行效率。Spark包括了SparkCore,SparkSQL,SparkStreaming,MLlib和Graphx等组件。SparkCore:内... 查看详情

sparkmllib的基础统计部分学习

参考学习链接:http://www.itnose.net/detail/6269425.html机器学习相关算法,建议初学者去看看斯坦福的机器学习课程视频:http://open.163.com/special/opencourse/machinelearning.html(已经被翻译了)所有文中示例见:http://spark.apache.org/docs/latest/mllib... 查看详情

14.sparkmllib之快速入门(代码片段)

简介??MLlib是Spark提供提供机器学习的库,专为在集群上并行运行的情况而设计。MLlib包含很多机器学习算法,可在Spark支持的所有编程语言中使用。??MLlib设计理念是将数据以RDD的形式表示,然后在分布式数据集上调用各种算法。... 查看详情