正文

spark2.x企业级大数据项目实战（实时统计离线分析和实时etl）

 2022-04-03  505

关键词：

Spark 2.x企业级大数据项目实战（实时统计、离线分析和实时ETL）
全套课程下载：https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg 提取码: 9n1x

本门课程来源于一线生产项目，所有代码都是在现网大数据集群上稳定运行，拒绝Demo。课程涵盖了离线分析、实时分析绝大部分的场景，通过三个实际生产项目教授如何优雅地集成Hadoop、Spark、HBase、Kafka、Redis、MySQL等相关大数据技术，并实际落地。

本门课程全程实操，不用担心基础不好，讲师将会从每个项目的演进过程详细分析，手把手搭建开发环境，每个功能点都有代码实操，拿到生产上可以直接使用。

本门课程大量生产上的较佳实践，不仅能为技术选型提供参考，也能大幅度提升个人的知识和技术水平，学完可以胜任PB级大数据的开发和优化，面试中说出来都是亮点，是跳槽、转型、加薪的利器，让你轻松实现华丽转身。只要你有一点Hadoop、Spark和Scala基础，并且能保持学习的热情，那么就跟随老师来吧。

第一章：流式数据实时分析（Kafka+SparkStreaming+Redis）

1、流式实时数据分析项目实战内容提纲（企业级开发、仿双十一订单实时统计及性能优化）
2、SparkStreaming实时状态统计应用引出容灾恢复（高可用）和更新状态性能问题
3、SparkStreaming应用代码初步重构及引出实时累加应用高可用性（设置检查点及恢复）
4、StreamingContext创建优化（非第一次启动应用从检查点目录构建）及代码演示（高可用性）
5、SparkStreaming中mapWithState实时状态更新函数使用说明
6、模拟电商购物节订单分析：订单分析需求说明及准备（创建Topic及开发环境）
7、模拟电商购物节订单分析：调用Kafka Producer API模拟产生JSON格式订单数据发送Topic中（一）
8、模拟电商购物节订单分析：调用Kafka Producer API模拟产生JSON格式订单数据发送Topic中（二）
9、模拟电商购物节订单分析：针对SparkStreaming实时流式应用数据分析利用Scala贷出模式编写应用开发模块
10、模拟电商购物节订单分析：采用Direct方式获取KAFKA数据并解析JSON格式
11、模拟电商购物节订单分析：updateStateByKey实时累加统计各省份销售额（重载函数使用）
12、模拟电商购物节订单分析：Redis内存数据库介绍、下载和配置、启动服务及CLI基本使用
13、模拟电商购物节订单分析：实时累加统计各省份销售额保存Redis 数据库哈希Hash
14、模拟电商购物节订单分析：最近窗口数据Top5省份订单量（集成SparkSQL，注册临时视图，SQL分析）
15、模拟电商购物节订单分析：实时应用性能优化（设置分区最大数目、数据本地性等待时间、反压机制、内存GC等）

第二章：离线日志分析项目（SparkCore+HBase+MySQL）

16、某旅游电商用户行为分析系统数据、业务调研深入剖析
17、某旅游电商用户行为分析系统项目架构设计（技术架构）-架构三原则
18、基于SparkCore实现用户行为分析环境准备
19、数据ETL：SparkCore读取数据及解析日志数据
20、数据ETL：过滤不合格的数据（解析异常或事件类型不对）和引出广播变量
21、数据ETL：使用广播变量优化程序过滤数据
22、数据ETL：如何设计HBase表及RowKey组成设计
23、数据ETL：实现RowKey拼接及构建Put对象
24、数据ETL：定义函数依据传递处理日期参数来创建HBase表（先判断，再删除）
25、数据ETL：指定预分区、设置压缩等创建表及测试保存数据至HBase表
26、数据ETL：ETL操作时程序代码优化点详细剖析（预分区、广播变量及批量加载数据：跳过WAL和转换HFile）
27、新增用户分析：需求调研的说明（不同维度分析）及读取HBase表的不同字段值
28、新增用户分析：从HBase表中读取数据，设置Scan过滤条件（一）
29、新增用户分析：从HBase表中读取数据，设置Scan过滤条件（二）
30、新增用户分析：转换读取HBase表数据并进行维度数据组合
31、新增用户分析：基本维度分析和浏览器维度分析
32、读写HBase表数据引出优化：针对HFile数据文件进行读写操作（提高性能、减轻集群负载）
33、优化数据ETL：阅读ImportTsv源码找出HFile数据变换、修改数据转换格式为KeyValue及细节处理
34、优化数据ETL：完成数据写入至HFile文件、加载HFiles至HBase表中及本地测试
35、提交运行：将数据ETL程序打JAR包，编写Shell脚本，提交运行（查找程序依赖第三方JAR包）
36、提交运行：增加属性文件配置，针对本地测试和集群测试读取IP地址解析仿真数据文件进行优化
37、使用SparkSQL针对新增用户业务编程分析：将RDD转换为DataFrame
38、使用SparkSQL针对新增用户业务编程分析：分别使用DSL和SQL进行指标分析和引出如何保存结果数据至MySQL表中
39、综合回顾复习Spark读取HBase数据三种方式（Scan、HFile、HBaseContext）及优缺点剖析
40、HBase中快照SnapShot使用及采用TableSnapshotInputFormat读取HBase表中数据（以销售订单表为例，读取HFile文件）
41、优化新增用户分析：修改程序读取表的HFiles进行数据分析（创建快照，使用TableSnapshotInputFormat）
42、优化新增用户分析：使用foreachPartition方式将分析结果保存至MySQL表中（Key存在更新及不存在插入）一
43、优化新增用户分析：使用foreachPartition方式将分析结果保存至MySQL表中（Key存在更新及不存在插入）二

第三章：企业数据实时ETL（Kafka+SparkStreaming+HBase+Redis）

44、实时数据ETL：分析需求（实时将数据ETL到不同HBase表中）及准备开发环境（模拟测试数据，创建Topic等）
45、实时数据ETL：SparkStreaming读取Kafka Topic数据，解析orderType，自定义分区器将同类型数据重分区到一个分区
46、实时数据ETL：不同支付类型订单数据创建不同HBase表（封装插入数据方法）
47、实时数据ETL：编写代码数据插入HBase表、联动测试（模拟实时产生数据，实时消费，分区数据，插入表中）
48、SparkStreaming采用Direct方式读取Kafka Topic数据的自动管理Offsets方法深入剖析、使用Redis或Zookeeper等管理偏移量
49、优化实时数据ETL：从Redis中读取Topic的各个分区消费偏移量信息（使用哈希Hash存储）及编码测试
50、优化实时数据ETL：当每批次数据插入HBase表以后，将Topic各个分区数据消费偏移量保存Redis中
51、监控扩展：Zookeeper Cluster常见监控工具及zkUI监控工具使用详解
52、监控扩展：Kafka Cluster常见监控工具及Kafka Eagle监控工具使用详解

实时即未来，大数据项目车联网之常用部分字段明细数据etl

文章目录1.车辆常用部分字段明细数据ETL1.1自定义sink实现数据写入hbase1.2phoenix明细数据视图2.车辆明细数据统计2.1车辆总数统计2.2车辆电量统计2.3车辆油耗统计2.4车辆速度统计1.车辆常用部分字段明细数据ETL从原始数据中加载出... 查看详情

实时即未来，大数据项目车联网之常用部分字段明细数据etl

实时即未来，大数据项目车联网之车联网之车辆数据统计意义分析十三

文章目录1.车辆数据统计意义分析1.1Zeppelin简介1.1.1zeppelin的使用场景1.1.2Zeppelin安装简要说明1.2zeppelinui介绍1.2.1主页1.2.2菜单1.2.2.1Notebook1.2.2.2Settings1.2.2.3Notebook视图1.3Zeppelin整合Mysql1.3.1创建interpreter1.3.2创建notebook1.4Zepp 查看详情

实时即未来，大数据项目车联网之项目基石与前瞻(代码片段)

...：凡购买本专栏的读者，可加我好友获取车联网大数据资料文章查看详情

大型企业级云产品-数据统计分析系统（离线处理-流处理-批处理）

大型企业级云产品-数据统计分析系统（离线处理-流处理-批处理）课程观看地址：http://www.xuetuwuyou.com/course/249课程出自学途无忧网：http://www.xuetuwuyou.com讲师：友凡课程介绍本套教程为真实的大数据实战案例，适合有大数据基础... 查看详情

实时即未来，大数据项目车联网之创建flink实时计算子工程(代码片段)

...：凡购买本专栏的读者，可加我好友获取车联网大数据资料文章持续更新不止21篇ÿ 查看详情

实时即未来，大数据项目车联网之车辆驾驶行程分析十三

...车辆驾驶行程分析驾驶行程分析业务逻辑星途车联网项目大数据平台，包含数据源数据存储pipeline实时业务指标统计分析数据存储分层数据可视化我们已经学习了原始数据实时ETL部分，数据存储在hiv 查看详情

实时即未来，大数据项目车联网之车辆驾驶行程分析十三

基于echarts实现大数据项目实战一可视化分析(代码片段)

目录一、业务需求分析二、web系统数据处理服务层开发三、基于WebSocket协议的数据推送服务开发四、基于Echart框架的页面展示层开发五、运行展示一、业务需求分析根据业务需求，我们需要将spark处理过的数据写入到mysql数据... 查看详情

客快物流大数据项目（一百零六）：实时etl处理

文章目录实时ETL处理一、业务流程二、查看详情

客快物流大数据项目（一百零六）：实时etl处理

文章目录实时ETL处理一、业务流程二、查看详情

客快物流大数据项目（一百零一）：实时olap开发

文章目录实时OLAP开发一、实时ETL处理二、SparkSQL基于DataSourceV2自定义数据源查看详情

客快物流大数据项目（八十五）：实时olap分析需求

文章目录实时OLAP分析需求一、背景介绍二、技术选型三、设计方案实时OLAP分析需求一、背景介绍在之前的文章学习了离线数仓的构... 查看详情

大数据项目开发进度（实时更新）

文章目录前言项目概述项目进度第一周0525-0529：第二周0601-0605：第三周0608-0612：第四周0615-0621：（周末加班）第五周0622-0628：（周末加班）第六周0629-0705：（周末加班）第七周070 查看详情

大数据项目开发进度（实时更新）

实时即未来，大数据项目车联网之实时etl任务消费数据

文章目录1实时ETL任务消费数据1消费数据解析逻辑2测试实时ETL消费数据1封装flink流处理环境初始化工具类1创建基础任务处理基类2测试实时ETL消费数据1实时ETL任务消费数据1消费数据解析逻辑创建流式环境，设置检查点、kafka分区... 查看详情

实时即未来，大数据项目车联网之驾驶行程采样实时分析十七

文章目录1.驾驶行程采样实时分析2.驾驶行程指标分析2.1里程、SOC、行程消耗时间分析2.2高速、中速、低速soc消耗分析2.3高速、中速、低速里程分析2.4高速、中速、低速车次分析2.5驾驶行程剩余指标业务3.总结1.驾驶行程采样实时... 查看详情

实时即未来，大数据项目车联网之flinkwatermark(水位线)十四

文章目录1FlinkWatermark(水位线)1事件时间（eventtime）2FlinkWindowAssigners（窗口分配器）2.1TumblingWindows（翻滚窗口）2.2SlidingWindows（滑动窗口）2.3SessionWindows（会话窗口）2.4GlobalWindows（全局窗口）2.5窗口函数（WindowFunction）1FlinkWatermark(... 查看详情