spark2.x机器学习视频教程

author author     2023-02-14     796

关键词:

Spark2.x 机器学习视频教程
讲师:轩宇老师
链接:https://pan.baidu.com/s/1TcFl6KDjxJS597TxYFSCOA 密码:3t2z

本课程讲解Spark 在机器学习中的应用,并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵盖推荐系统、回归、聚类、分类等经典机器学习算法及其实际应用,涵盖使用Spark ML Pipeline API创建和调试机器学习流程,内容更加系统、全面、与时俱进,适合所有欲借助Spark来实现常见机器学习应用的开发者。

本课程主要讲解基于Spark 2.x的机器学习库,MLlib实现了常用的机器学习,如:聚类、分类、回归等6大算法,使用Kaggle竞赛数据集模型构建。

本课拒绝枯燥的讲述,将循序渐进从Spark2.x的基础知识开始,然后再透彻讲解各个算法的理论、详细展示Spark实现,最后均会通过实例进行解析实战,帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习。

通过该课程的学习同学们可以全面掌握Spark MLlib机器学习,进而能够在实际工作中进行ML的应用开发和定制开发。

课程目录:

第一章:Spark 构建协同过滤ALS推荐模型
第1节、推荐系统概述及ALS算法剖析
1、Spark MLlib机器学习库两类API及常见四大类算法回顾说明
2、通过JD推荐和亚马逊图书推荐剖析推荐系统功能及核心点:相似度
3、分享淘宝推荐系统及协同过滤推荐核心思想及用户对产品的评分分类
4、协同过滤推荐算法ALS核心剖析(将稀疏矩阵分解为用户因子矩阵和产品因子矩阵)
5、Spark MLlib中基于RDD的ALS算法相关类的实现深入剖析

第2节、基于MovieLens电影推荐和模型评估RMSE
1、基于MovieLens电影评分数据使用ALS算法训练模型并查看因子举证
2、将MatrixFactorizeModel对用户产品预测评价和为用户、产品进行推荐及保存加载模型
3、如何评估模型为最佳模型(均方根误差RMSE)及通过调整数据集和算法超参数获取最佳模型

第3节、基于Audioscrobbler音乐推荐及模型调优
1、回顾复习协同过滤算法核心要点及ALS算法矩阵分解
2、使用Scala语言开发对音乐推荐数据训练模型(ALS中隐式评价函数)
3、组合ALS算法中多个超参数训练模型、评估模型找到最佳模型
4、综合分析不同超参数组合训练不同模型状况(显示与隐式)

第二章:Spark 构建分类模型
第1节、分类算法概述及鸢尾花数据集分类
1、Spark MLlib中支持的分类算法(SVM、LR、NB和DT)和集成分类算法(RF和GBDT)及决策树核心剖析
2、分类算法数据格式LabeledPoint及鸢尾花数据调研
3、读取鸢尾花数据构建特征数据Features和标签label、划分数据集为训练集和测试集
4、使用逻辑回归算法训练模型(二分类,调整数据集)及预测分类
5、使用朴素贝叶斯和决策树回归算法训练鸢尾花数据集并预测计算精确度ACC

第2节、Kaggle竞赛Titanic数据集预测生存预测
1、回顾复习Spark MLlib中分类算法、机器学习三要素及特征表示Vector
2、Kaggle竞赛Titanic生存预测数据集调研及自定义Schema读取
3、构建分类算法提取特征和数据格式LabeledPoint标签向量
4、划分数据集、使用二分类算法LR算法训练模型和计算评估指标AUC
5、使用二分类算法LR、DT及RF和GBT算法分别训练模型和计算AUC值比较
6、类别特征使用1-of-K方法转换及Titanic数据中Sex转换与测试
7、对Titanic数据中Age特征字段划分范围及使用1-of-K转换特征(使用DT和RF进行分类训练)

第3节、新闻数据NewsCorpora文本分类
1、文本特征提取词袋模型BOW及TF-IDF加权方式剖析
2、针对新闻分类数据集使用朴素贝叶斯算法训练模型和预测分类(一)
3、针对新闻分类数据集使用朴素贝叶斯算法训练模型和预测分类(二)
4、朴素贝叶斯算法超参数解释说明及分类模型评估指标精确度与混淆矩阵说明
5、Word2Vec算法模型将文本转换为单词向量及查找某单词相似单词

第三章:Spark 构建回归模型
第1节、回归算法概述及BikeSharing数据集训练模型
1、Spark MLlib中支持的回归算法及共享单车数据集调研分析与读取
2、针对共享单车数据集选取特征(8个类别特征和4个数值特征)及构建RDD数据集
3、使用决策树回归算法训练模型及计算RMSE值评估模型
4、模型优化两板斧:特征数据及算法超参数、使用随机森林RF回归算法训练模型及调整参数评估模型
5、使用线性回归算法训练共享单车数据(类别特征未处理)及引出类别特征处理重要性
6、定义函数转换8个类别特征及使用线性回归算法训练模型及RMSE评估

第2节:线性回归模型深入剖析(Ridge和Lasso)
1、复习Spark MLlib中三个回归算法及从源码引入模型过拟合及泛化能力(深入剖析)
2、线性回归正则化Regularization损失函数及L1和L2两种 正则化方式
3、从线性回归算法源码剖析SGD方法参数说明及正则化参数含义说明
4、线性回归算法、Lasso算法及Ridge回归算法分别使用训练数据训练模型及调整参数训练比较

第四章:Spark 构建聚类KMeans模型
第1节:聚类KMeans对出租车轨迹聚类
1、机器学习算法分类、非监督学习中聚类算法是什么及以KMeans为例讲解聚类和数据格式Vector
2、深入剖析KMeans算法如何进行聚类操作及出租车轨迹数据说明
3、使用KMeans算法对出租车轨迹数据进行聚类和找出10个类簇中心
4、使用KMeans模型预测测试数据集所属类簇
第2节:基于DataFrame构建KMeans模型
1、基于DataFrame API机器学习库使用三要点
2、基于DataFrame的KMeans算法针对出租车轨迹数据聚类

第五章:Spark 构建关联规则模型
第1节、使用FP-Growth进行关联规则推荐
1、关联规则算法概述及重要概念剖析(支持度、置信度和提升度)
2、使用FPGrowth算法构建模型获取频繁项集
3、依据FPGrowthModel生成关联规则AssociationRules
4、使用RDD聚合函数,依据关联规则,针对业务,得到推荐列表

第2节:使用PrefixSpan构建频繁序列推荐
1、数据挖掘中三种关联算法比较、频繁序列算法PrefixSpan概述及Spark MLlib中实现
2、构建数据集,使用PrefixSpan算法训练数据获取频繁序列集
3、结合实际需要找出符合规则的频繁序列集、模型和结果保存

第六章:Spark ML Pipeline 构建机器学习
第1节:Spark ML Pipeline入门案例
1、Spark MLlib 总结回顾发展及基于DataFrame API的区别
2、Spark ML Pipeline几个重要概念(Transformer、Estimator及Pipeline)剖析
3、管道Pipeline组成及简易文本分类案例需求分析
4、定义转换器与模型学习器、创建Pipeline和模型预测
5、Model持久化及Pipeline如何工作剖析
6、采用TF-IDF方式获取文本特征及Pipeline中Estimator工作原理
7、Transformor和Estimator参数设置(实例和ParamMap)
060108_Cross Validation设置及测试演示

第2节:Spark ML预测森林植被
1、基于ML预测森林植被之SparkSession读取CSV数据并指定列名
2、基于ML预测森林植被之提取特征及决策树算法训练模型(查看决策树)
3、基于ML预测森林植被之决策树算法中每个特征重要性及测试数据预测值
4、基于ML预测森林植被之多分类评估器使用及分类评估混淆矩阵
5、基于ML预测森林植被之Pipeline组合预测流程(转换器、模型学习器、评估器、训练验证和参数调优)
6、基于ML预测森林植被之解码还原类别特征数据
7、基于ML预测森林植被之对类别特征数据使用决策树算法训练模型
8、基于ML预测森林植被之对类别特征数据使用随机决策森林算法训练模型

掌握spark机器学习库大数据开发技能更进一步视频教程

第1章初识机器学习在本章中将带领大家概要了解什么是机器学习、机器学习在当前有哪些典型应用、机器学习的核心思想、常用的框架有哪些,该如何进行选型等相关问题。 1-1导学试看 1-2机器学习概述 1-3机器学习... 查看详情

svm机器学习算法中文视频讲解

这个是李政軒Cheng-HsuanLi的关于机器学习一些算法的中文视频教程:http://www.powercam.cc/chli。 一、KernelMethod(AChineseTutorialonKernelMethod,PCA,KPCA,LDA,GDA,andSVMs)  AnAutomaticMethodtoFindtheBestParameterforRBF 查看详情

年终超全整理:机器学习视频教程和python技术路线来了

大家好,2022马上要来了,这几天对学习机器学习时收藏的资料进行了整理,当初看过《吴恩达老师》的几个视频,但是没看几个视频就直接去磕《机器学习》(又名“西瓜书”)和《机器学习实战》了。现在主... 查看详情

华为云技术分享机器学习(02)——学习资料链接

以下是我学习机器学习过程中的部分学习资料,当然除些之外还有更多的文章和视频,实际看了后觉得好多内容都太难,自己目前的数学基础很难理解里面讲解的内容。另外,资料太多反而影响学习效率,很多内容都是重复的,... 查看详情

一些网站的收集包含机器学习深度学习大牛主页等

...】非常好的OpenGL教程2D和3D的OpenGL教程【Python】从入门到机器学习的视频教程跳动的心【非常好玩的代码】跳动的心【原始网站】绕任意单 查看详情

华燕-专题视频课程

机器学习小咖养成记视频教程—1287人已学习课程介绍        本视频课程是机器学习算法入门的升级课程。从机器学习、深度学习基础入手,以模型为基础,以算法与数学推导为核心,以算法调参与应用为导向。... 查看详情

微软开源的机器学习入门课程(代码片段)

导读微软开源的ML-For-Beginners入门机器学习的课程目前在GitHub上已经有将近15k颗星。课程是专门针对机器学习的入门教程,一共包含了12周24节课程,主要是基于Scikit-learn来介绍的。课程介绍每节课程主要包含了以下几个内... 查看详情

一些网站的收集包含机器学习深度学习大牛主页等

...】非常好的OpenGL教程2D和3D的OpenGL教程【Python】从入门到机器学习的视频教程跳动的心【非常好玩的代码】跳动的心【原始网站】绕任意单位轴旋转矩阵的计算3D图形编程源码CMU图形学开设课程简介LearnOpenGL简体中文版OpenGL教程【... 查看详情

麦子学院学习视频之机器学习:1.1机器学习介绍

    今天开始学习机器学习,在网上找了很多视频还有书籍。由于本人不是计算机专业的学生,基础知识还是比较薄弱,但我非常想学习机器学习以及深度学习。最后还是选择了麦子学院的彭亮老师的《机器学习基... 查看详情

spark2.x新特性

二、Spark2.x介绍2.1Spark2.x与Spark1.x关系Spark2.x引入了很多优秀特性,性能上有较大提升,API更易用。在“编程统一”方面非常惊艳,实现了离线计算和流计算API的统一,实现了Sparksql和HiveSql操作API的统一。Spark2.x基本上是基于Spark1.x... 查看详情

机器学习基础教程笔记---机器学习概述(代码片段)

目录机器学习概述1.1人工智能概述1.1.1机器学习与人工智能、深度学习1.1.2机器学习、深度学习能做些什么1.1.3人工智能阶段课程安排1.2什么是机器学习1.2.1定义1.2.2解释1.2.3数据集构成1.3机器学习算法分类学习目标分析1.2中的例子... 查看详情

1.机器学习概论

1.python基础的准备本课程拟采用Python做为机器算法应用的实现语言,所以请确保:1)安装好Python开发环境,PyCharm或Anaconda等都可以,按个人习惯喜好。2)基本库的安装,如numpy、pandas、scipy、matplotlib3)具备一定的Python编程技能,... 查看详情

ng机器学习视频笔记(十六)——从图像处理谈机器学习项目流程

ng机器学习视频笔记(十六)——从图像处理谈机器学习项目流程 (转载请附上本文链接——linhxx) 一、概述        这里简单讨论图像处理的机器学习过程,主要讨论的是机器学习的项目流... 查看详情

机器学习基础教程pdf

...简介  · · · · · ·本书是一本机器学习入门教程,包含了数学和统计学的核心技术,用于帮助理解一些常用的机器学习算法。书中展示的算法涵盖了机器学习的各个重要领域:分类、聚类和投影。本书... 查看详情

361机器学习常见算法

K-近邻算法(KNearestNeighbors)参考:机器学习实战教程(一):K-近邻算法(史诗级干货长文)决策树算法(DecisionTree)参考:机器学习实战教程(二):决策树基础篇之让我们从相亲说起参考:机器学习实战教程(三):决策树... 查看详情

python机器学习基础教程

介绍本系列教程基本就是搬运《Python机器学习基础教程》里面的实例。Github仓库使用jupyternotebook是一个很好的快速构建代码的选择,本系列教程都能在我的Github仓库找到对应的jupyternotebook。Github仓库:https://github.com/Holy-Shine/Introd... 查看详情

深度学习

机器学习视频吴恩达http://open.163.com/special/opencourse/machinelearning.html神经网络深度学习在线教程共六章http://neuralnetworksanddeeplearning.com《神经网络设计》国外经典教程第十一章反向传播CNN:《NotesOnConvolutionalNeutralNetworks》JakeBouvriehtt 查看详情

华燕-专题视频课程

机器学习路线—1004人已学习课程介绍        机器学习路线:机器学习能做什么;机器学习有哪些方向;怎么入门和转行机器学习;怎么入门和转行机器学习;人脸识别技术的漏洞;高光谱图像技术的... 查看详情