大数据入门学习指南

Lansonli Lansonli     2022-10-22     647

关键词:

 

文章目录

大数据入门学习指南

前言

一、大数据基础

二、大数据必学Java基础

三、ZooKeeper

四、大数据环境搭建

五、Hadoop

六、Hive

七、HBase

八、Kafka

九、Scala

十、Spark


大数据入门学习指南

前言

大数据入门核心技术栏目是为初学者精心打造入门大数据必学知识整理,内容十分丰富,集合将近200篇高质文章带你轻松学习。

但是由于文章很多,集合很多不同系列的知识点,在栏目里面难以标注顺序,这次博主花时间整理一份详细的学习指南,对于刚学习大数据的初学者是非常友好的。

只要跟着学,想进入大数据做开发是很容易的,前提你得自律加坚持

为什么选择学习入门大数据开发,不选择JavaWeb开发?

借棋弈做比喻,智商高的不要选择五子琪,要选择围棋,它能长久地吸引你。

不都是在棋盘上一颗黑子一颗白子地下吗?因为围棋更复杂,能够掌握如此复杂的技艺、产生稳定输出的棋手、让我们更佩服。选择学习大数据开发也如此,能让你的职业生涯走得更远,少走弯路。

本文将持续更新优化,精心完善大数据入门文章教程,让想学大数据的你都能学会。

一、大数据基础

1、大数据概念

2、大数据的特点(5v)

3、大数据应用场景

4、大数据业务分析基本步骤

5、分布式技术

二、大数据必学Java基础

1、Java体系结构、特性和优势

2、Java核心机制

3、JAVA环境准备-->JDK

4、安装notepad++,配置path环境变量

5、第一段程序

6、程序中常见问题和编译方式

7、扩展环境变量

8、简单介绍API和注释

9、JDK,JRE,JVM的区别

10、标识符和关键字

11、变量和常量

12、基本数据类型

13、基本数据类型的转换

14、Java中的运算符

15、算术运算符

16、赋值运算符

17、关系运算符和逻辑运算符

18、条件运算符和位运算符

19、运算符总结

20、流程控制的引入和if语句介绍

21、Switch多分支结构介绍

22、循环结构

23、方法的定义/调用/重载

24、数组的引入和学习

25、数组的三种初始化方式

26、数组的应用题

27、详述main方法和了解可变参数

28、Arrays工具类和数组的复制操作

29、二维数组

30、IDEA的使用介绍

31、IDEA模板的使用

32、IDEA中的断点调试

33、面向对象介绍

34、面向对象内存分析

35、深入了解关键词this

36、深入了解关键词static

37、代码块讲解

38、包和import讲解

39、面向对象三大特性之一封装(Encapsulation)

40、面向对象三大特性之一继承(Inheritance)

41、面向对象三大特性之一多态(Polymorphism)

42、Final关键词讲解 

43、抽象类和抽象方法讲解

44、接口讲解

45、JDK1.8以后的接口新增内容 

46、内部类和面向对象项目实战 

持续更新中。。。

三、ZooKeeper

1、ZooKeeper基本知识

2、ZooKeeper集群搭建

3、Zookeeper数据模型和节点类型

4、ZooKeeper的shell操作

5、ZooKeeper Java API操作

6、ZooKeeper选举机制

四、大数据环境搭建

1、Hadoop编译

2、分布式环境搭建

五、Hadoop

1、Hadoop介绍

2、Hadoop发展简史和特性优点

3、Hadoop国内外应用

4、Hadoop发行版公司

5、Hadoop架构

6、Hadoop集群搭建

7、HDFS分布式文件系统简介

8、HDFS的Shell命令行使用

9、HDFS的高级使用命令

10、HDFS的数据读写流程

11、HDFS的元数据辅助管理

12、HDFS的API操作

13、HDFS其他功能

14、HDFS的高可用机制

15、Hadoop的联邦机制 Federation

16、MapReduce计算模型介绍

17、MapReduce编程规范及示例编写

18、MapReduce程序运行模式和深入解析

19、MapReduce分区

20、MapReduce的排序和序列化

21、MapReuce的Combineer

22、MapReduce的自定义分组

23、MapReduce的运行机制详解

24、MapReduce高阶训练

25、YARN通俗介绍和基本架构

26、YARN三大组件介绍

27、YARN运行流程

28、YARN的调度器Scheduler

29、关于YARN常用参数设置

30、Hadoop3.x的介绍

资源包下载地址:大数据Hadoop基础软件包-其它文档类资源-CSDN下载https://download.csdn.net/download/xiaoweite1/85433829

六、Hive

1、Hive基本概念

2、Hive的三种安装模式和MySQL搭配使用

3、Hive数据库和表操作

4、Hive查询语法

5、Hive的内置函数

6、Hive的表生成函数

7、Hive的开窗函数

8、Hive自定义函数

9、Hive的数据压缩

10、Hive的数据存储格式

11、Hive调优

12、Hive综合案例

13、手撕这十道HiveSQL题吊打面试官

七、HBase

1、HBase基本简介

2、HBase集群安装操作

3、HBase数据模型

4、HBase的相关操作-客户端命令式

5、HBase的相关操作JavaAPI方式

6、HBase的高可用

7、Hbase的架构

8、Apache Phoenix的基本介绍

9、Apache Phoenix的安装

10、Apache Phoenix的基本入门操作

11、Apache Phoenix的视图操作

12、Apache Phoenix 二级索引

13、HBase读取和存储数据的流程

14、HBase的原理及其相关的工作机制

15、HBase的Bulk Load批量加载操作

16、HBase的协处理器(Coprocessor)

17、HBase全面调优

18、使用HBase的陌陌案例

八、Kafka

1、消息队列和Kafka的基本介绍

2、Kafka特点总结和架构

3、Kafka的集群搭建以及shell启动命令脚本编写

4、kafka的shell命令使用

5、Kafka的java API编写

6、安装Kafka-Eagle

7、Kafka的分片和副本机制

8、Kafka如何保证数据不丢失

9、kafka消息存储及查询机制原理

10、kafka生产者数据分发策略

11、Kafka的消费者负载均衡机制和数据积压问题

12、Kafka配额限速机制

九、Scala

栏目地址:大数据必学语言Scala

十、Spark

1、框架概述

2、四大特点

3、框架模块初步了解

4、三种常见的运行模式

5、环境搭建本地模式 Local

6、环境搭建集群模式 Standalone

7、应用架构基本了解

8、环境搭建集群模式 Standalone HA

9、Spark On Yarn两种模式总结

10、环境搭建集群模式 Spark on YARN

11、应用开发基于IDEA集成环境

12、Spark Core的RDD详解

13、Spark Core的RDD创建

14、Spark Core的RDD操作

15、Spark Core的RDD常用算子

16、Spark Core的RDD算子练习

17、Spark Core的RDD持久化

18、Spark Core的RDD Checkpoint

19、Spark Core的共享变量

20、Spark Core外部数据源引入

21、Spark Core案例-SogouQ日志分析

22、内核原理

23、SparkSQL 概述

24、SparkSQL数据抽象

25、SparkSQL的RDD、DF、DS相关操作

26、SparkSQL数据处理分析

27、SparkSQL案例花式查询和WordCount

28、SparkSQL案例三电影评分数据分析

29、SparkSQL案例四开窗函数

30、SparkSQL自定义UDF函数

31、Spark On Hive

32、SparkSQL的External DataSource

33、SparkSQL分布式SQL引擎

34、Spark Streaming概述

35、SparkStreaming数据抽象 DStream

36、SparkStreaming实战案例一 WordCount

37、SparkStreaming实战案例二 UpdateStateByKey

38、SparkStreaming实战案例三 状态恢复 扩展

39、SparkStreaming实战案例四 窗口函数

40、SparkStreaming实战案例五 TopN-transform

41、SparkStreaming实战案例六 自定义输出 foreachRDD

42、SparkStreaming的Kafka快速回顾与整合说明

43、SparkStreaming整合Kafka 0.10 开发使用

44、Structured Streaming概述

45、Structured Streaming Sources 输入源

46、Structured Streaming Operations 操作

47、Structured Streaming Sink 输出

48、Structured Streaming 输出终端/位置

49、Structured Streaming 整合 Kafka

50、Structured Streaming 案例一实时数据ETL架构

51、Structured Streaming 物联网设备数据分析

52、Structured Streaming 事件时间窗口分析

53、Structured Streaming Deduplication

54、扩展阅读 SparkSQL底层如何执行

55、Spark的关键技术回顾

1、乘风破浪的Flink-Flink概述

2、Flink用武之地

3、Flink安装部署 Local本地模式

4、Standalone独立集群模式

5、Standalone-HA高可用集群模式

6、Flink On Yarn模式

7、参数总结

8、Flink入门案例

9、Flink原理初探

10、流处理相关概念

11、流批一体API Source

12、流批一体API Transformation

13、流批一体API Sink

14、流批一体API Connectors JDBC

15、流批一体API Connectors Kafka

16、流批一体API Connectors Redis

17、Flink四大基石

18、Flink Window操作

19、案例一 基于时间的滚动和滑动窗口

20、案例二 基于数量的滚动和滑动窗口

21、案例三 会话窗口

22、Time与Watermaker

23、Watermaker案例演示

24、Allowed Lateness案例演示

25、Flink 状态管理

26、State代码示例

27、Flink 容错机制 Checkpoint

28、Flink 容错机制 自动重启策略和恢复

29、Flink 容错机制 Savepoint

30、Flink Table API & SQL 介绍

31、Table与SQL案例准备 依赖和程序结构

32、Table与SQL案例准备 API

33、Table与SQL相关概念

34、​​​​​​​Table与SQL ​​​​​​案例一

35、Table与SQL ​​​​​​案例二

36、​​​​​​​Table与SQL ​​​​​​案例三

37、Table与SQL ​​​​​​案例四

38、Table与SQL ​​​​​​案例五 FlinkSQL整合Hive

39、​​​​​​​Table与SQL ​​​​​​总结 Flink-SQL常用算子

40、Flink模拟双十一实时大屏统计

41、​​​​​​​Flink实现订单自动好评

42、​​​​​​​BroadcastState

43、扩展阅读 关于并行度

44、​​​​​​扩展阅读 End-to-End Exactly-Once

45、​​​​​​扩展阅读 双流Join

46、扩展阅读 异步IO

47、扩展阅读 File Sink

48、扩展阅读 Streaming File Sink


  • 📢博客主页:https://lansonli.blog.csdn.net
  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
  • 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨

学习大数据怎样可以快速入门

学习大数据怎样可以快速入门?大数据是比较热门的一项编程科目,近年来有越来越多的小伙伴转行学习大数据,这可以充分体现大数据的重要性。而大数据是综合性的、复杂的编程语言,这也代表着学习大数据不像学java、web... 查看详情

大数据学习步骤,入门篇

目前大数据行业异常火爆,不少人都对大数据充满了兴趣,其中有大部分人都是之前没有接触过计算机技术的,对编程语言也不太了解,那是不是这部分零基础的朋友就学不了大数据了呢?答案当然是否定的。大数据学习并不是... 查看详情

大数据入门学习路线

现阶段大数据如火如荼,很多人想要学习大数据,但是却不了解大数据,也不知道该从哪开始学起的同学,希望这篇文章能够帮到你们。  1.Linux基础和JavaSE基础【包含mysql】这些是基本功,刚开始也不可能学的很精通,... 查看详情

大数据入门,到底要怎么学习大数据?

很多人都知道大数据很火,就业很好,薪资很高,想往大数据方向发展。但该学哪些技术,学习路线是什么样的呢? 其实就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/... 查看详情

小白学习大数据掌握这几个方法轻松入门

有很多学习大数据的朋友,在初期学习时,通常会对如何学习而感到迷茫。我经常在知乎上收到朋友关于如何入门、如何规划学习大数据、大数据的学习流程是什么的一些问题。今天我就粗浅的总结几点学习大数据方法。一、兴... 查看详情

大数据入门初学者需要学习的内容及学习路线详解

很多人都知道大数据很火,就业很好,薪资很高,想往大数据方向发展。但该学哪些技术,学习路线是什么样的呢?大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。先说一下大数据的4V... 查看详情

大数据入门初学者需要学习的内容及学习路线详解

很多人都知道大数据很火,就业很好,薪资很高,想往大数据方向发展。但该学哪些技术,学习路线是什么样的呢?大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。先说一下大数据的4V... 查看详情

怎样进行大数据的入门级学习

如今大数据发展得可谓是如日中天,各行各业对于大数据分析和大数据处理的需求也是与日俱增,越来越多的决策、建议、规划和报告,都要依靠大数据的支撑,学习大数据成了不少人提升或转行的机会。因此,入门大数据开始... 查看详情

0基础大数据编程怎么学?三个步骤+加一套完整学习体系教你入门

对于零基础的朋友,一开始入门可能不会太简单。大数据零基础怎么学?大数据零基础学什么?难吗?要学习大数据你至少应该知道什么是大数据,大数据一般运用在什么领域。对大数据有一个大概的了解,你才能清楚自己对大数... 查看详情

入门大数据需要学习啥内容?

俗话说,万事开头难,大数据的学习也是这样,很多人想学,但是却不知道该如何着手。尤其是针对很多外行想要转入大数据的,本身对大数据的了解还不够深,所以还存在很多的疑问。那么,入门大数据需要学习什么内容呢?... 查看详情

大数据学习(24)——spark入门

...顾一下MapReduce的知识,这对我们理解Spark大有裨益。在大数据的技术分层中,Spark和MapReduce同为计算层的批处理技术,但是Spark比MapReduce要快很多。看看官网是怎么说的ApacheSpark。简介ApacheSpark是一个统一的大规模数据处理分析引... 查看详情

大数据学习——scala入门练习(代码片段)

packagecom/***CreatedbyZXon2015/11/6.*/objectVariableDemodefmain(args:Array[String])//1定义变量-----------------------------------------//使用val定义的变量值是不可变的,相当于java里用final修饰的变量vali=1//使用var定义的变量是可变得,在Scal 查看详情

入门大数据---spark学习

一.Spark简介1.1前言ApacheSpark是一个计算系统,它的处理速度很快,很通用,并且能集群部署。可以通过Scala,Java,Python和R来操作API。它还提供了了一些高级工具,比如SparkSQL(通过SQL操作),MLlib(机器学习用的),Graphx(图形化操... 查看详情

大数据学习笔记:sparksql入门

...rkSQL(一)创建DataFrame1、将rdd转换成df案例1、生成单列的数据帧案例2、生成多列的数据帧2、将txt文件转换为df3、将json文件转换为df4、将parquet文件转换df5、利用jdbc将关系型数据中的数据转换为df(二)通过方法来使用DataFrame1、... 查看详情

大数据学习笔记:sparksql入门

...rkSQL(一)创建DataFrame1、将rdd转换成df案例1、生成单列的数据帧案例2、生成多列的数据帧2、将txt文件转换为df3、将json文件转换为df4、将parquet文件转换df5、利用jdbc将关系型数据中的数据转换为df(二)通过方法来使用DataFrame1、... 查看详情

数据科学怎样进行大数据的入门级学习?

数据科学怎样进行大数据的入门级学习?数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信参考技术A数据科学怎样进行大数据的入门级学习?数据科学并没有一个独立的学... 查看详情

机器学习算法入门

机器学习算法简单入门。由于团队(大数据团队)技术发展需要,借对交通业务数据进行需求拓展,实现数据挖掘和数据分析技术的掌握,绕不开机器学习算法,可以说,大数据的核心价值在于算法。 如下图,当前机器学习... 查看详情

零基础大数据新手学习路线教程

大数据~数据挖掘,越来越火,90%的企业都在运用或者都想要利用大数据为其带来更便利的服务,从而大数据高端软件类人才可谓供不应求。如何学好大数据?第一阶段:大数据新手入门系统教程Java+MySQL+关系型数据库+阿里巴巴... 查看详情