[学习笔记]黑马程序员-hadoop入门视频教程(代码片段)

N刻后告诉你 N刻后告诉你     2023-02-19     524

关键词:

文章目录

参考资料

黑马程序员大数据Hadoop入门视频教程,适合零基础自学的大数据Hadoop教程

目录
大数据导论与Linux基础
大数据导论
Linux操作系统概述
VMware Workstation虚拟机使用
Linux常用基础命令
Linux常用系统命令
vi/vim文本编辑器基础使用

学习目标
1.理解大数据基本概念
2.掌握数据分析基本步骤
3.理解分布式、集群概念
4.学会VMware虚拟机的导入与使用
5.掌握Linux常用操作命令使用
6.掌握vi/vim编辑器基础使用

第一章:大数据导论(p1-5)

1.1 企业数据分析方向

数据分析是为了把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。数据分析在”企业日常经营“分析中主要有三大方向:现状分析->原因分析->预测分析

  • 现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动
  • 原因分析(分析过去的数据):某一现状为什么发生,确定原因,做成调整优化
  • 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势

离线分析(Batch Processing):面向过去,面向历史,分析已有的数据;在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理

实时分析(Real Time Processing | Streaming)
面向当下,分析实时产生的数据;所谓的实时是指从数据产生到数据分析与数据应用的时间间隔很短,可细分秒级、毫秒级。实时分析又称为流式处理(Streaming)。

机器学习(Machine Learning)
基于历史数据和当下产生的实时数据预测未来发生的事情;侧重于数学算法的运用,如分类、聚类、关联、预测。

1.2 数据分析基本流程步骤

数据分析步骤(流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑;
张文霖老师在《数据分析六部曲》中提到,典型的数据分析应该包含以下几个步骤:
明确分析目的和思路->数据收集->数据处理->数据分析->数据展现->报告攥写

明确分析的目的和思路

  • 目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;
  • 思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;
  • 数据分析方法论是一些营销管理相关理论,比如用户行为理论、PEST分析法、5W2H分析法等

数据收集

  • 数据从无到有的过程:比如传感器收集气象数据、埋点收集用户行为数据
  • 数据传输搬运的过程:比如采集数据库数据到数据分析平台

常见的数据源和种类:

  • 业务数据(RDBMS)
  • 日志数据(服务器、应用日志)
  • 爬虫数据(爬虫数据库)
  • 互联网公开数据(行业、政府网站)

数据处理

  • 准确来说,应该称之为数据预处理
  • 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗数据转化数据提取数据计算
  • 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的结构化数据

思考:

  1. 当下的企业中用于分析的数据是侧重文本数据多一些,还是侧重于图片、视频数据多一些?
    答案:文本数据多一点
  2. 什么叫干净规整的结构化数据?有非结构化数据?
    答案:结构化数据,专业来说就是二维表的数据,行列对应

数据分析

  • 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
  • 需要掌握各种数据分析方法,还要熟悉数据分析软件的操作;

数据展现

  • 数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;
  • 数据可视化(Data Visualization)属于数据应用的一种;
  • 注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等。

报告攥写

  • 数据分析报告是对整个数据分析结过程的一个总结与呈现
  • 把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
  • 需要有明确的结论,最好有建议或解决方案

1.3 大数据时代

大数据定义

大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特征

5个V开头的单词,从5个方面准确、生动、形象地介绍了大数据特征。

  • Volume:数据体量大
    采集数据量大;存储数据量大;计算数据量大;TB、PB级别起步
  • Variety:种类、来源多样化
    种类:结构化、半结构化、非结构化
    来源:日志文本、图片、音频、视频
  • Value:低价值密度
    信息海量但是价值密度低
    深度复杂的挖掘分析需要机器学习参数
  • Velocity:速度快
    数据增长速度快
    获取数据速度快
    数据处理速度快
  • Veracity:数据的质量
    数据的准确性
    数据的可信赖度

应用场景

电商领域:精准广告位、个性化推荐、大数据杀熟
传媒领域:精准营销、猜你喜欢、交互推荐
金融方面:理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品,推荐相应的投资理财产品。
交通领域:拥堵预测、智能红绿灯、导航最优规划
电信领域:基站选址优化、舆情监控、客户用户画像
安防领域:犯罪预防、天网监控
医疗领域:智慧医疗、疾病预防、病源追踪

1.4 分布式与集群

概念

分布式、集群是两个不同的概念,但口语中经常混淆 二者。
分布式是指”多台机器,每台机器上部署不同组件“。
集群是指”多台机器,每台机器上部署相同组件“。

分布式示意图:
例如:去京东买东西,京东背后是多台服务器,不同服务器承担不同的服务。

集群示意图:
例如:访问百度,百度背后也有多台服务器,多台服务器都来提供搜索服务(再配合负载均衡),防止某台宕机。

应用

数据大爆炸,海量数据处理场景面临问题
如何存储?单机存储有瓶颈,多台机器分布式存储
如何计算(高效)?单台计算能力有限,多台机器分布式计算

第二章:Linux操作系统概述

2.1 操作系统概念与分类

操作系统概念

  • 操作系统(operating system, 简称OS)是管理计算机硬件与软件资源的程序,需要处理如:管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出设备、操作网络与管理文件系统等基本事务;
  • 没有操作系统的机器称之为裸机,不管是开发还是使用都十分不便。
  • 操作系统也提供一个让用户与系统交互的操作界面

操作系统分类

操作系统发展至今,种类繁多,可以根据应用的不同领域进行划分:

  • 桌面操作系统:所谓的桌面是指图形化操作页面。
    Mac os(Apple)、Windows(Microsoft)、Linux三足鼎立。
  • 服务器操作系统:一般指的是安装在大型计算机上的操作系统。比如Web服务器、应用服务器和数据库服务器等,是企业IT系统的基础架构平台。
    主要分为四大流派:Unix、LinuxWindows Server和Netware。
  • 嵌入式操作系统:是一种完全嵌入受控器内部,为特定应用而设计的专用计算机系统。
    如嵌入式Linux、WinCE(微软嵌入式、移动计算平台)、RTOS(嵌入式实时操作系统、军事航空领域)等;在工业、军事、航空等领域使用较多。
  • 移动设备操作系统:主要应用在智能手机、平板等智能设备上。
    主要有Android(谷歌)、ios(苹果)、Symbian(诺基亚)、BlackBerry OS(黑莓)、windows mobile(微软)、Harmony(华为鸿蒙)等。

Linux起源与发展

  • Unix系统是较早被广泛使用的计算机操作系统之一,油Ken Thompsonb在AT&T贝尔实验室发现,后续发展中,因开源、版权等问题陷入不断纠纷,延伸出不同Unix版本;
  • 1991年芬兰学生Linus Torvalds发布Linux系统第一版本,遵循GPL协议(通用公共许可证),开源免费
  • Linux是一个类似Unix的操作系统,Linux的初衷就是要替代Unix,并在功能和用户体验上进行优化,所以Linux模仿了Unix(但并没有抄袭Unix的源码),使得Linux在外观和交互上与Unix非常类似。

Linux内核(Kernel)

  • 操作系统的核心部分简称内核,Linux第一版本独立内核由Linus Torvalds开发实现,约10000行代码;
  • 后续Linus Torvalds公开了Linux内核代码,并邀请他人一起完善Linux;现在只有2%的Linux核心代码是由Linus Torvalds自己编写,但是仍然拥有Linux内核且保留了选择新代码和需要合并的新方法的最终裁定权
  • Linux操作系统 = Linux Kernel + GNU软件及系统软件 + 必要的应用程序
  • Linux选择企鹅图案作为Logo,其含义是:开放源代码的Linux像企鹅一样为全人类共同所有。

Linux发行版本

  • Linux发行版就是由Linux内核与各种常用软件的集合产品,如今全球大约有数百款的Linux发行版本。
  • 从大的方面来说,Linux发行版可大致分为个人桌面版企业服务器版
  • 个人桌面版中,Ubuntu成熟度颇高较受欢迎,而Redhat(红帽系列)及其延伸版本(Centos)凭借稳定的性能在企业服务器中占比很大。

第三章:

3.1 VMware虚拟机概念与安装

VMware介绍

  • VMware Workstation是一款虚拟机软件,允许用户将Linux、Windows等多个操作系统作为虚拟机在单台PC上运行
  • 用户可以在虚拟机上重现服务器、桌面和平板电脑环境,无需重新启动即可跨不同操作系统同时运行应用。

VMvare功能、组件

  • 通过对个人笔记本(PC)硬件资源的虚拟,在一台PC上运行其他隔离操作系统;
  • 隔离出来的操作系统虽然是虚拟的,但是硬件组成与功能上与物理实体机完全一致
  • VMware虚拟组件包括:网卡、交换机、DHCP、NAT设备等,此处不做深入探究。

网络架构图

3.2 Centos操作系统的虚拟机导入

3.3 VMware虚拟机常规使用

3.4 FinalShell介绍使用

黑马程序员java教程学习笔记(代码片段)

.../BV1Cv411372m如侵权,请私信联系本人删除文章目录黑马程序员Java学习笔记(二)数组概述数组定义方式一、访问、注意事项数组定义方式二,元素默认值规则数组遍历、元素求和数组案例:求最值、猜数字、随... 查看详情

黑马程序员c++教程从0到1入门编程笔记3c++核心编程(内存分区模型引用函数提高)(代码片段)

黑马程序员匠心之作|C++教程从0到1入门编程,学习编程不再难文章目录1内存分区模型1.1程序运行前1.2程序运行后(手动开辟内存:c语言malloc,c++new)1.3new操作符(在堆区开辟数据)(delete释... 查看详情

黑马程序员c++教程从0到1入门编程笔记2通讯录管理系统(代码片段)

黑马程序员匠心之作|C++教程从0到1入门编程,学习编程不再难文章目录1、系统需求2、创建项目2.1创建项目3、菜单功能4、退出功能5、添加联系人5.1设计联系人结构体5.2设计通讯录结构体5.3main函数中创建通讯录5.4封装添加联... 查看详情

黑马程序员c++教程从0到1入门编程笔记5c++核心编程(类和对象——继承多态)(代码片段)

黑马程序员匠心之作|C++教程从0到1入门编程,学习编程不再难文章目录4.6继承4.6.1继承的基本语法普通实现:继承实现:总结:派生类中的成员,包含两大部分:4.6.2继承方式(继承的语法:`clas... 查看详情

c++黑马程序员|c++教程从0到1入门编程笔记|c++提高编程(代码片段)

配套视频:https://www.bilibili.com/video/BV1et411b73Z文章目录:一、C++核心编程二、C++提高编程1模板本阶段主要针对C++泛型编程和STL技术做详细讲解,探讨C++更深层的使用1.1模板的概念模板就是建立... 查看详情

黑马程序员c++教程从0到1入门编程笔记1数据类型运算符程序流程结构数组函数指针结构体(代码片段)

黑马程序员匠心之作|C++教程从0到1入门编程,学习编程不再难文章目录1、C++初识1.1第一个c++程序1.2注释1.3变量1.4常量1.5关键字1.6标识符命名规则2数据类型2.1整型2.2sizeof关键字2.3实型(浮点型)(科学... 查看详情

hadoop入门学习

Hadoop入门学习1.Hadoop基础知识1.1基础概念1.2Hadoop特性优点1.3Hadoop集群整体概述1.4集群简介1.5hadoop集群搭建(在linux上搭建)2.参考视频1.Hadoop基础知识1.1基础概念1.2Hadoop特性优点1.3Hadoop集群整体概述1.4集群简介1.5hadoop集群搭... 查看详情

黑马程序员java教程学习笔记(代码片段)

.../BV1Cv411372m如侵权,请私信联系本人删除文章目录黑马程序员Java教程学习笔记(三)面向对象:设计对象、注意事项面向对象:内存机制面向对象:编程训练-模拟购物车面向对象:构造器、this面向对象... 查看详情

你有黑马程序员的javaee+hadoop的视频吗!分享一下呗!谢谢!

1353889168埃塔qq.com,可以发邮件附件奥!我想看他们教程的最后一部分,实战那部分,要是有全套的就更好了!提前感谢大家的无私奉献了!《2018年4月北京黑马javaee第297期全套课程(解压密码:123abc)》百度网盘资源免费下载链... 查看详情

黑马程序员java教程学习笔记(代码片段)

文章目录黑马程序员Java学习笔记Java版本Java语言的跨平台原理JRE和JDKJDK的下载和安装HelloWorld案例注释关键字常量数据类型标识符类型转换运算符字符"+"操作字符串"+"操作复制运算符自增自减运算符关系运算符... 查看详情

2022黑马程序员最新mysql笔记(01:数据库学习前言)(代码片段)

前言:本系列博客主要参考黑马程序员视频教程,仅供学习使用,整理不易转载请注明出处,多谢(*^▽^*)~。视频教程地址连接:2022黑马程序员最新MySQL知识精讲+mysql实战案例_零基础mysql入门到高级全套教程... 查看详情

黑马程序员jvm教程笔记完整目录

学习视频链接:黑马程序员JVM完整教程JVM_01内存结构(程序计数器、虚拟机栈、本地方法栈)JVM_02-03内存结构(堆、方法区)JVM_04垃圾回收机制JVM_05垃圾回收制(GC调优)JVM_06类加载与字节码技术(类文件结构)JVM_07类加载与字节码技术... 查看详情

学习笔记尚硅谷hadoop大数据教程笔记

本文是尚硅谷Hadoop教程的学习笔记,由于个人的需要,只致力于搞清楚Hadoop是什么,它可以解决什么问题,以及它的原理是什么。至于具体怎么安装、使用和编写代码不在我考虑的范围内。一、Hadoop入门大数据的... 查看详情

学习笔记尚硅谷hadoop大数据教程笔记

本文是尚硅谷Hadoop教程的学习笔记,由于个人的需要,只致力于搞清楚Hadoop是什么,它可以解决什么问题,以及它的原理是什么。至于具体怎么安装、使用和编写代码不在我考虑的范围内。一、Hadoop入门大数据的... 查看详情

尚硅谷大数据hadoop教程-笔记01入门(代码片段)

...Hadoop3.x安装搭建到集群调优)尚硅谷大数据Hadoop教程-笔记01【入门】尚硅谷大数据Hadoop教程-笔记02【HDFS】尚硅谷大数据Hadoop教程-笔记03【MapReduce】尚硅谷大数据Hadoop教程-笔记04【Yarn】尚硅谷大数据Hadoop教程-笔记04【生产调... 查看详情

java学习路线图,全套java基础视频教程

黑马程序员深知大家自学Java,苦于没有Java学习路线图,或者找不到好的Java资源还经常被骗的难处。为此黑马每年更新一次Java学习路线图,本次更新为2022年最新版。2022年黑马程序员简易版Java学习路线图:入门&#x... 查看详情

java学习路线图,全套java基础视频教程

黑马程序员深知大家自学Java,苦于没有Java学习路线图,或者找不到好的Java资源还经常被骗的难处。为此黑马每年更新一次Java学习路线图,本次更新为2022年最新版。2022年黑马程序员简易版Java学习路线图:入门&#x... 查看详情

黑马程序员java教程学习笔记(代码片段)

.../BV1Cv411372m如侵权,请私信联系本人删除文章目录黑马程序员Java教程学习笔记(四)static:修饰成员变量、内存机制static:修饰成员方法、内存机制static访问注意事项static:应用知识-工具类static:应用... 查看详情