正文

Docker是dotCloud公司的一个开源项目，诞生于 2013 年初，基于 Go 语言实现，并遵从Apache 2.0协议，基于容器技术的轻量级虚拟化解决方案。
Docker是容器引擎，把Linux的cgroup、namespace等容器底层技术进行封装抽象，为用户提供了创建和管理容器的便捷界面（包括命令行和API）。
Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的 Linux或Windows操作系统的机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口。

技术支柱：Namespaces、Control Groups、UnionFS

三个基本概念：

容器：类似于从模板中创建虚拟机；容器是从镜像创建的运行实例。它可以被启动、开始、停止、删除。每个容器都是相互隔离的；可以把容器看做是一个简易版的 Linux 环境（包括root用户权限、进程空间、用户空间和网络空间等）和运行在其中的应用程序。

镜像：Docker 的镜像类似虚拟机的模板，但是更轻量；一个镜像可以包含一个完整的 Linux 操作系统环境，里面仅安装了 Tomcat；镜像可以用来创建容器

仓库：仓库是集中存放镜像文件的场所；仓库注册服务器上往往存放着多个仓库，每个仓库中又包含了多个镜像，每个镜像有不同的标签；仓库分为公开仓库（Public）和私有仓库（Private）两种形式；push镜像到仓库,从仓库pull镜像

📑四、Hadoop

1、Hadoop是什么

概念：Hadoop是一种处理大数据的分布式软件框架，具有可靠、高效、扩展、低成本、兼容性等特点。Hadoop擅长于在廉价机器搭建的集群上进行海量数据(结构化与非结构化)的存储与离线处理。

2、Hadoop的核心组件有什么

三大核心组件：

HDFS（Hadoop Distribute File System）：hadoop的数据存储工具。

YARN（Yet Another Resource Negotiator,另一种资源协调者）：Hadoop 的资源管理器。

Hadoop MapReduce：分布式计算框架

3、Hadoop和Google三驾马车的关系

相当于衍生出来的HDFS、Hadoop MapReduce、HBase都是Google三驾马车的山寨版

4、Hadoop的优点

①高可靠性 ②高扩展性 ③高效性 ④高容错性 ⑤低成本

5、知道Hadoop生态系统中主要的项目名称及作用

6、Hadoop2.0中加入Yarn的原因

为了实现一个Hadoop集群的集群共享、可伸缩性和可靠性。

7、Hadoop的三种安装模式

单机模式：只在一台机器上运行，存储采用本地文件系统，没有采用分布式文件系统HDFS；

伪分布式模式：存储采用分布式文件系统HDFS，但是，HDFS的名称节点和数据节点都在同一台机器上；

分布式模式：存储采用分布式文件系统HDFS，而且，HDFS的名称节点和数据节点位于不同机器上。

8、Hadoop集群配置的步骤

1、选定一台机器作为 Master；

2、在Master节点上创建hadoop用户、安装SSH服务端、安装Java环境；

3、在Master节点上安装Hadoop，并完成配置；

4、在其他Slave节点上创建hadoop用户、安装SSH服务端、安装Java环境；

5、将Master节点上的“/usr/local/hadoop”目录复制到其他Slave节点；

6、在Master节点上开启Hadoop；

10、Linux中最基本的shell命令：如cd、cat、rm、cp、mv、source、vim….

cd：打开目录

cat：查看文件内容

rm：删除

cp：复制文件

mv：移动文件，相当于剪切

source：读取并执行文件中的命令

vim：编辑文本

📚五、HDFS

1、GFS是什么、HDFS是什么

GFS：Google文件系统（GFS）Google文件系统是一个可扩展的分布式文件系统，用于对大量数据进行访问的大型、分布式应用。GFS是一种面向不可信服务器节点而设计的文件系统。

HDFS：Hadoop的文件系统称为HDFS（Hadoop Distributed File System）。

2、HDFS的体系结构

NameNode：Master节点，在hadoop1.X中只有一个，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理客户端请求。

DataNode：Slave节点，存储实际的数据，汇报存储信息给NameNode。

Secondary NameNode：辅助NameNode，分担其工作量；定期合并fsimage和fsedits，推送给NameNode；紧急情况下，可辅助恢复NameNode，但Secondary NameNode并非NameNode的热备。

工作过程：

①用户请求创建文件的指令由Namenode进行接收。

②Namenode将存储数据的Datanode的IP返回给用户，并通知其他接收副本的Datanode，由用户直接与Datanode进行数据传送。

3、HDFS的存储原理：分块策略和副本策略

分块策略：一个文件被分成多个块，以块作为存储单位。数据块会被分别存储在不同的Datanode节点上

副本策略：HDFS对数据块典型的副本策略为3个副本，第一个副本存放在本地节点，第二个副本存放在同一个机架的另一个节点，第三个本副本存放在不同机架上的另一个节点。

4、名称节点、数据节点出错时怎么处理

HDFS设置了备份机制，把这些核心文件备份到SecondaryNameNode上。当名称节点出错时，就可以根据SecondaryNameNode中的FsImage和Editlog数据进行恢复。

名称节点会定期检查这种情况，一旦发现某个数据块的副本数量小于冗余因子，就会启动数据冗余复制，为它生成新的副本。

5、支持三种shell 命令格式：hadoop fs、Hadoop dfs、hdfs dfs

hadoop fs：适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统

hadoop dfs：只能适用于HDFS文件系统

hdfs dfs：跟hadoop dfs的命令作用一样，也只能适用于HDFS文件系统

⏳六、MapReduce

1、MapReduce是什么

分布式计算框架MapReduce是Google系统和Hadoop系统中的一项核心技术。

2、MapReduce的核心思想：

分而治之

3、MapReduce的体系结构，主从式，了解每个组件的功能

1）Client：

用户编写的MapReduce程序通过Client提交到JobTracker端。

用户可通过Client提供的一些接口查看作业运行状态。

2）JobTracker：

JobTracker负责资源监控和作业调度。

JobTracker 监控所有TaskTracker与Job的健康状况，一旦发现失败，就将相应的任务转移到其他节点。

JobTracker 会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器（TaskScheduler），而调度器会在资源出现空闲时，选择合适的任务去使用这些资源。

3）TaskTracker：

TaskTracker 会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作（如启动新任务、杀死任务等）。TaskTracker 使用“slot”等量划分本节点上的资源量（CPU、内存等）。一个Task 获取到一个slot 后才有机会运行，而Hadoop调度器的作用就是将各个TaskTracker上的空闲slot分配给Task使用。slot 分为Map slot 和Reduce slot 两种，分别供MapTask 和Reduce Task 使用。

4）Task：

Task 分为Map Task 和Reduce Task 两种，均由TaskTracker 启动。

4、Map函数和Reduce函数分别做什么以及MapReduce的工作过程

（切分、map、shuffle、reduce，四步大致）

Map:

InputFormat根据输入文件产生键值对，并传送到map函数中；

map输出键值对到一个没有排序的缓冲内存中；

当缓冲内存达到给定值或者map任务完成，在缓冲内存中的键值对就会被排序，然后输出到磁盘中的溢出文件；

如果有多个溢出文件，那么就会整合这些文件到一个文件中，且是排序的；

这些排序过的、在溢出文件中的键值对会等待Reducer的获取。

Reduce:

Reducer获取Mapper的记录；

shuffle相同的key被传送到同一个的Reducer中；

当有一个Mapper完成后，Reducer就开始获取相关数据，所有的溢出文件; 会被排序到一个内存缓冲区中；

当内存缓冲区满了后，就会产生溢出文件到本地磁盘；

当Reducer所有相关的数据都传输完成后，所有溢出文件就会被整合和排序；

Reducer中的reduce方法针对每个key调用一次；

Reducer的输出到HDFS。

5、MapReduce适合做哪类任务，它的优缺点

特点：

1）需要在集群条件下使用。

2）需要有相应的分布式文件系统的支持。

3）不需要特别的硬件支持。

4）假设节点的失效为正常情况。

5）适合对大数据进行处理。

6）计算向存储迁移。

7）MapReduce的计算效率会受最慢的Map任务影响

优点：

MapReduce易于编程

良好的扩展性

廉价、容错性高

适合海量数据的离线处理

缺点：

不擅长实时计算

不擅长流式计算

不擅长图计算

⏲️七、HBase

1、HBase是什么，和Big
一文带你快速了解spark架构设计与原理思想

卷友们，大家好~我是Alex。之前已经陆续输出了Hadoop三大核心组件的架构思想和原理和Hive架构设计和原理，每篇都受到了读者小伙伴们的一致好评~感谢大家的支持。按照发展趋势，本篇将... 查看详情

不知道该学那一个语言？一文带你了解三门语言

名字：阿玥的小东东学习：Python。正在学习c++主页：阿玥的小东东目录粉丝留言，回答问题1.首先，初步了解查看详情

一文带你了解怎样快速上手微信小程序开发

写在前面微信小程序，简称小程序，是一种不需要下载安装即可使用的应用，开发者可以快速地开发一个小程序。小程序可以在微信内被便捷地获取和传播，同时具有出色的使用体验。它实现了应用“触手可及”... 查看详情

一文带你了解eipaas和eipaas的国际趋势

摘要：EiPaaS(EnterpriseIntegrationPlatformasaService)是企业级的集成平台和服务。本文分享自华为云社区《初识EiPaaS和EiPaaS的国际趋势》，作者：华为云PaaS服务小智。什么是EiPaaSEiPaaS(EnterpriseIntegrationPlatformasaService)是企业级的... 查看详情

一文带你了解大数据技术之mapreduce

MapReduce概述1.MapReduce定义2.MapReduce优缺点2.1优点2.2缺点3.MapReduce核心思想4.MapReduce进程5.官方WordCount源码6.常用数据序列化类型7.MapReduce编程规范8.WordCount案例实操1.MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开... 查看详情

一文带你了解推荐系统常用模型及框架

可以看KDD会议，最新推荐系统论文。推荐系统概述传统推荐模型OldschoolModel协同过滤模型通过对用户之间的关系，用户对物品的评价反馈一起对信息进行筛选过滤，从而找到目标用户感兴趣的信息。用户---商品的评分矩阵（该矩... 查看详情

一文带你快速了解java线上问题快速诊断神器arthas(代码片段)

文章目录一、什么是Arthas二、特性一览三、Arthas能为你做什么？四、快速安装1、前提条件2、一键安装五、快速使用1、启动脚本并连接进程2、启动jar包并连接进程六、使用示例1、dashboard（当前系统的实时数据面板）2... 查看详情

一文带你了解大数据技术之hadoop(代码片段)

Hadoop概述1.Hadoop是什么2.Hadoop发展历史3.Hadoop三大发行版本3.1ApacheHadoop3.2ClouderaHadoop3.3HortonworksHadoop4.Hadoop优势5.Hadoop组成5.1HDFS架构概述5.2YARN架构概述5.3MapReduce架构概述5.4HDFS、YARN、MapReduce三者关系6.大数据技术生态体系7.推荐系统... 查看详情

一文带你了解大数据技术之hdfs

大数据技术之Hadoop-HDFS概述1.HDFS产出背景及定义2.HDFS优缺点3.HDFS组成架构4.HDFS文件块大小1.HDFS产出背景及定义1）HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管... 查看详情

深度学习一文带你了解神经网络，激活函数

神经网络神经网络是深度学习的核心，在了解神经网络之前，我们先来了解几个概念：智能(Intelligence)是个体有目的的行为,合理的思维以及有效的适应环境的综合能力。或者说智能是个体认识客观事物和运用知识解决问题的能力... 查看详情

一文了解边缘计算与云计算

公有云计算平台使企业能够使用全球服务器补充其私有数据中心，将基础设施扩展到任何位置，并根据自身需求扩展和缩减计算资源。这些公私混合云为企业计算应用提供了前所未有的灵活性、价值和安全性。但在全球... 查看详情

一文带你了解大数据技术之zookeeper（入门级）(代码片段)

大数据技术之Zookeeper入门1.Zookeeper概述2.Zookeeper特点3.数据结构4.应用场景5.下载地址1.Zookeeper概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。Zookeeper的工作机制：2.Zookeeper特点3.数据结构4.应用... 查看详情

一文带你了解大数据技术之hadoop（yarn）(代码片段)

Yarn资源调度器1.Yarn基础架构2.Yarn工作机制3.作业提交全过程4.Yarn调度器和调度算法4.1先进先出调度器（FIFO）4.2容量调度器（CapacityScheduler）4.3公平调度器（FairScheduler）5.Yarn常用命令5.1yarnapplication查看任务5.... 查看详情

一文带你了解常见的数据指标都有哪些数据分析

为了进一步提升自己分析业务的能力，首先得先了解好在日常业务分析当中往往会用到那些数据指标。接下来我给大家整理了常见的一些数据指标，建议收藏后慢慢阅读。目录用户获取渠道到达量渠道转化率渠道ROI日应... 查看详情

猿创征文｜一文带你了解前端开发者工具(代码片段)

前端开发者工具目录一、前言二、前端开发者工具——编译器（含插件）1、VSCode2、VSCode必备插件3、WebStorm三、前端开发者工具——UI框架工具1、Element2、Vant四、前端开发者工具——API调试工具1、ApiPost五、写在最后（... 查看详情

一文带你了解人脸检测算法的类型及其工作原理(代码片段)

在过去的几年里，人脸识别受到了广泛的关注，被认为是图像分析领域最有前途的应用之一。人脸检测可以考虑人脸识别操作的很大一部分。根据其强度将计算资源集中在持有人脸的图像部分。图片中的人脸检测方法很... 查看详情

一文带你了解hive详细介绍hive与传统数据库有什么区别？

...么是埋点？如何进行数据埋点？【超详细介绍】一文搞懂什么是数据仓库(DataWarehouse)数据仓库与数据库区别有哪些？什么是元数据？本期终于要给大家介绍Hive了，为此我还花了好几个小时的写了如何安装Hive的... 查看详情

云计算与大数据介绍（非原创）

文章大纲一、什么是云计算二、什么是大数据三、云计算与大数据、人工智能关系四、参考文章一、什么是云计算云计算（CloudComputing），是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需提供给... 查看详情