sparkmllib机器学习概论

yszd yszd     2022-12-08     756

关键词:

一.什么是机器学习?

  什么是机器学习?Herbert Sinmon给“学习”做出了这样的定义:“如果一个系统能够通过执行某个过程而改进性能,这就是学习。”更通俗的理解是:机器学习能够自动地从数据中学习“程序”,而这个程序不是人来编写的。

  平面上有两类点,黄色代表类别a,蓝色代表类别b。这时我们希望能够找到平面上的一条曲线,将两个类别的点分成两个平面,使类别a属于平面A,类别b属于平面B。这样一来,对于一个新出现的颜色未知的点x,我们通过查看点落在平面A还是平面B中来判断x属于哪个类别。

  技术图片

  当然,这个任务从人的视觉来看似比较容易完成的。人也可以将这个曲线用一个数学表达式来表示,但这个曲线方程是确定的,当观察到的数据发生变化时,需要重新调整方式,因此扩展性并不好。机器能够根据已经观测到的两个类别不同的情况自动给出不同的曲线表达式,这里的曲线就是我们常说的学习到的模型。这是一个有监督学习的典型案例。

  这个案例中自动寻找曲线的算法是由SVM程序完成的。如今,机器学习已经被广泛应用于各个领域,例如:

  • 图像识别。人脸识别,可以识别图像中人脸的位置。
  • 语音识别。将声音转换为文字,例如小米的小爱。
  • 文本识别。拼写纠错,搜索引擎大量应用文本挖掘

二.机器学习案例

  要估计腾讯大厦的具体高度,需要根据多次测量来估算大厦的精确高度。

  技术图片

 

  测量的具体过程是将卷尺从顶楼抛到地面来读数测量。由于大楼表面凹凸不平,以及风力等原因,每次读到的数据都不太一样。那么,大厦精确的高度应该是多少呢?假设实际高度是193.2米,我们称实际高度为理论值。我们可能永远不知道理论值具体是多少,但可以让估计值尽可能接近这个理论值。

  最小二乘法就是一个这样的理论。它定义多次测量值的误差之和为累计误差:

  累计误差=∑(观测值-理论值)2

  我们用g(x)表示其累计误差,x表示理论值的估计值,xi表示第i次测量,得到数学表达式:

  技术图片

 

  这里xi为已知值,依据最小二乘法可知,当累积误差最小时,我们就得到一个最接近理论值的估计值。这是求函数极值的常见方法。我们对x求导,得到公式:

  技术图片

 

  导数为0时,g(x)取极小值,求解方程得:

  技术图片

 

  估计值等于各次观测值的平均值。

  所以,我们日常中使用多次测量求平均值的做法是有严格数学依据的。当然,这个案例比较简单,在机器学习的其它问题中,问题的抽象和求解可能要比这复杂的多。

学习笔记spark——sparkmllib应用——机器学习简介sparkmllib简介

一、机器学习简介1.1、机器学习概念机器学习就是让机器能像人一样有学习、理解、认识的能力。机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机... 查看详情

学习笔记spark——sparkmllib应用——机器学习简介sparkmllib简介

一、机器学习简介1.1、机器学习概念机器学习就是让机器能像人一样有学习、理解、认识的能力。机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机... 查看详情

sparkmllib(下)--机器学习库sparkmllib实战

 1、MLlib实例1.1 聚类实例1.1.1 算法说明聚类(Clusteranalysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习... 查看详情

sparkmllib机器学习(代码片段)

目录 本章导读1. 机器学习概率2. SparkMLlib总体设计3. 数据类型3.1 局部向量3.2 标记点3.3 局部矩阵3.4 分布式矩阵4. 基础统计4.1 摘要统计4.2 相关统计1. 皮尔森相关系数2. 斯皮尔森秩相关系数4.3 分层抽样4.4 假设校验4.5 随... 查看详情

sparkmllib机器学习(代码片段)

目录 本章导读1. 机器学习概率2. SparkMLlib总体设计3. 数据类型3.1 局部向量3.2 标记点3.3 局部矩阵3.4 分布式矩阵4. 基础统计4.1 摘要统计4.2 相关统计1. 皮尔森相关系数2. 斯皮尔森秩相关系数4.3 分层抽样4.4 假设校验4.5 随... 查看详情

大数据sparkmllib机器学习(代码片段)

目录1什么是SparkMLlib?2支持的数据类型2.1本地向量集2.1.1、密集型数据集2.1.2稀疏型数据集2.2向量标签2.3本地矩阵2.4分布式矩阵2.4.1行矩阵2.4.2行索引矩阵2.4.3坐标矩阵2.4.4分块矩阵3RDD、DataSet、Dataframe区别及转化1什么是SparkMLlib... 查看详情

机器学习概论

机器学习--机器学习概论机器学习概论分类、回归机器学习流程特征工程模型训练数据来源数据预处理数据无量纲化。缺失值处理模型训练模型调参模型保存模型评估常用的库数据可视化机器学习概论通过对历史数据的一个学习&... 查看详情

通俗易懂的图解机器学习之机器学习概论

❤️通俗易懂的图解机器学习❤️之机器学习概论(这个是连载的哦…)文章目录❤️通俗易懂的图解机器学习❤️之机器学习概论一、什么是机器学习1、学习的种类1.1、监督学习1.2、无监督学习1.3、强化学习2、机器学... 查看详情

通俗易懂的图解机器学习之机器学习概论

❤️通俗易懂的图解机器学习❤️之机器学习概论(这个是连载的哦…)文章目录❤️通俗易懂的图解机器学习❤️之机器学习概论一、什么是机器学习1、学习的种类1.1、监督学习1.2、无监督学习1.3、强化学习2、机器学... 查看详情

sparkmllib学习笔记:构建一个机器学习工作流

文章目录一、任务描述二、实现步骤(一)引入包并构建训练数据集(二)定义工作流阶段(三)创建工作流,训练出模型(四)构建测试数据集(五)利用模型做预测一、任务描述查出所有包含“spark”的句子,将包含“spark... 查看详情

spark学习10_1sparkmllib入门与相关资料索引(代码片段)

...文指南关于spark机器学习的知乎专栏Spark入门实战系列--8.SparkMLlib(上)--机器学习及SparkMLlib简介基本Kmeans算法介绍及其实现sparkMLlib概念1:相关系数(PPMCCorPCCorPearson‘sr皮尔森相关系数)andSpearman‘scorrelation(史匹曼等级相关系... 查看详情

[机器学习spark]sparkmllib分类

👨‍🎓👨‍🎓博主:发量不足📑📑本期更新内容:SparkMLlib分类🔥🔥📑📑下篇文章预告:Hadoop全分布部署🔥🔥🔥简介:耐心 查看详情

python深度学习之路-1机器学习概论

【Python深度学习之路】-1机器学习概论1.1机器学习简介机器学习火热的原因是:人类无论如何也做不到在短时间内实现从大量数据中自动地计算出正确结果的操作。所谓机器学习:通过对数据进行反复的学习,来找出... 查看详情

sparkmllib介绍

SparkMLlib介绍Spark之所以在机器学习方面具有得天独厚的优势,有以下几点原因:(1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止,迭代时如果... 查看详情

统计学习方法--机器学习概论

...考李航老师的《统计学习方法》,其次是周志华老师的《机器学习》。通过自己的阅读,提炼出书中的知识点以及些许自己部分的理解(可能不到位),巩固所学知识。)统计学习方法概论本章简要叙述统计学习方法的一些基本概... 查看详情

[机器学习spark]sparkmllib机器学习

...f393;博主:发量不足📑📑本期更新内容:SparkMLlib机器学习算法库📑📑下篇文章预告:Spark机器学习库MLlib的概述💨💨简介:分享的是一个当代疫情在校封校的大学生学习笔记目录初始机器... 查看详情

[机器学习spark]sparkmllib实现数据基本统计(代码片段)

👨‍🎓👨‍🎓博主:发量不足📑📑本期更新内容:SparkMLlib基本统计📑📑下篇文章预告:SparkMLlib的分类🔥🔥简介:耐心,自信来源于你强大的思想和知识基础&#x 查看详情

sparkmllib的基础统计部分学习

参考学习链接:http://www.itnose.net/detail/6269425.html机器学习相关算法,建议初学者去看看斯坦福的机器学习课程视频:http://open.163.com/special/opencourse/machinelearning.html(已经被翻译了)所有文中示例见:http://spark.apache.org/docs/latest/mllib... 查看详情