大数据入门-三分钟读懂hadoop

水坚石青 水坚石青     2022-12-18     165

关键词:

最近在收集整理大数据入门文章,各位盆友关注点赞不迷路,每天都要开心鸭!

大数据入门系列文章

1.大数据入门-大数据是什么

1.大数据入门-大数据是什么

2.大数据入门-大数据技术概述(一)

2.大数据入门-大数据技术概述(一)

3.大数据入门-大数据技术概述(二)

3.大数据入门-大数据技术概述(二)

一、背景及概念

背景:经过自己三年多的接触,个人谈一些自己的愚见。我们之所以用Hadoop,是因为关系型数据库已经不能满足我们对数据处理的要求。比如我们要进行数据的追溯以及关联,简单的关系型数据库经过优化以及处理没有办法满足我们对于数据的即时性要求。所以通过Hadoop,我们可以将数据放到Hive通过MR或者Impala去计算查询数据,这样我们的数据会跑的比较快一点。给业务带来诸多便利,帮助业务更好的发展。

概念:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

二、特点

高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

高效性: Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

高容错性:Hadoop能够自动保存数据的多个副本,并且能够将失败的任务重新分配。

低成本:与一体机、商用数据仓库是开源的,项目成本大大降低。

三、架构

 

四、大白话

个人理解的Hadoop

首先,是因为数据量大,数据种类多,我们传统的关系型数据库已经不能满足我们的需求。Hadoop能干啥,Hadoop是免费的,我们暂时没有很多资金的小伙伴可以使用它。

第二,Hadoop是可以扩展的,就是说我们一台机器不够用了,可以再加一台,流程不是很复杂,简单的写几条命令就可以了。

第三,Hadoop的机器是可以动态的移动数据,这就是啥呢,这就是互帮互助,在现实生活中,你负担大了,我可以帮助你,你可以帮助我。这种帮助机制是有自己的调度资源的。

第四,Hadoop是有容错机制的,什么意思呢。就是说你事情做错了,我们可以有办法给你矫正。当然是要备份之前的副本,可以给你还原回去了。保证你的数据是错误的,现实生活中错误是没有办法避免的,我们唯有每天自省,每天反思,才能避免少犯错误或者不犯错误。让自己弯道超车,让自己少走弯路。

五、其他

下一篇:介绍我们伟大的HDFS,走起。

鸡汤:认识谁都没有用,只有自己牛逼了才有用。人只有奋斗,才会快乐。

备注:以上资料来自网络,侵删。

来来来,看这里,如果你觉得这篇文章对您有帮助,请关注点赞加收藏,想要了解更多请关注公众号联系博主,祝您生活愉快,身心健康!

大数据入门系列文章

1.大数据入门-大数据是什么

1.大数据入门-大数据是什么

2.大数据入门-大数据技术概述(一)

2.大数据入门-大数据技术概述(一)

3.大数据入门-大数据技术概述(二)

3.大数据入门-大数据技术概述(二)

大数据入门-五分钟读懂hive(代码片段)

目录大数据入门系列文章一、概念二、架构三、表分类四、Hive常用语句1.Hive建表语句2.Hive新增列3.Hive删除列4.Hive修改列5.Hive清空表6.Hive加载数据7.HDFS删除文件操作五、存储格式1.Textfile2.RCFile3.ORCFile4.Parquet六、大白话七、其他大... 查看详情

2分钟读懂hadoop和spark的异同

谈到大数据框架,现在最火的就是Hadoop和Spark,但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,倒底现在业界都在使用哪种技术?二者间究竟有哪些异同?它们各自解决了哪些问题?下面不妨跟我一... 查看详情

三分钟读懂摘要算法(代码片段)

摘要算法又称哈希算法,它表示输入任意长度的数据,输出固定长度的数据,相同的输入数据始终得到相同的输出,不同的输入数据尽量得到不同的输出。Java中的Object.hashCode()方法就是一个摘要算法,它可以输入任意数据,它的... 查看详情

大数据技术——hadoop3.x入门搭建+安装调优(1.入门)(代码片段)

文章目录一、大数据概论二、Hadoop概述三、Hadoop运行环境搭建(开发重点)3.1模板虚拟机环境准备3.2克隆虚拟机3.3在hadoop102安装JDK3.4在hadoop102安装Hadoop3.5Hadoop目录结构四、Hadoop运行模式4.1本地运行模式(官方WordCount&#x... 查看详情

三分钟读懂tt猫分布式微服务和集群之路

针对新手入门的普及,有过大型网站技术架构牛人路过,别耽误浪费了时间,阅读之前,请确保有一定的网络基础,熟练使用Linux,浏览大概需要3-5分钟的时间,结尾有彩蛋。目录分布式微服务负载均衡集群高可用集群弹性云故... 查看详情

三分钟读懂tt猫分布式微服务和集群之路

针对新手入门的普及,有过大型网站技术架构牛人路过,别耽误浪费了时间,阅读之前,请确保有一定的网络基础,熟练使用Linux,浏览大概需要3-5分钟的时间,结尾有彩蛋。分布式小马正在经营一个在线购物网站,名叫TT猫,... 查看详情

尚硅谷大数据hadoop教程-笔记01入门(代码片段)

视频地址:尚硅谷大数据Hadoop教程(Hadoop3.x安装搭建到集群调优)尚硅谷大数据Hadoop教程-笔记01【入门】尚硅谷大数据Hadoop教程-笔记02【HDFS】尚硅谷大数据Hadoop教程-笔记03【MapReduce】尚硅谷大数据Hadoop教程-笔记04【Ya... 查看详情

大数据hadoop入门之hadoop家族详解

大数据hadoop入门之hadoop家族详解大数据这个词也许几年前你听着还会觉得陌生,但我相信你现在听到hadoop这个词的时候你应该都会觉得“熟悉”!越来越发现身边从事hadoop开发或者是正在学习hadoop的人变多了。作为一个hadoop入门... 查看详情

一片非常有趣的文章三分钟读懂tt猫分布式微服务和集群之路

针对新手入门的普及,有过大型网站技术架构牛人路过,别耽误浪费了时间,阅读之前,请确保有一定的网络基础,熟练使用Linux,浏览大概需要3-5分钟的时间,结尾有彩蛋。目录分布式微服务负载均衡集群高可用集群弹性云故... 查看详情

大数据技术之hadoop入门

?第1章大数据概论1.1大数据概念 大数据概念如图2-1所示。 图2-1大数据概念 1.2大数据特点(4V) 大数据特点如图2-2,2-3,2-4,2-5所示 图2-2大数据特点之大量 图2-3大数据特点之高速 图2-4大数据特点之多样 图2-5大数据... 查看详情

大数据入门学习指南

 文章目录大数据入门学习指南前言一、大数据基础二、大数据必学Java基础三、ZooKeeper四、大数据环境搭建五、Hadoop六、Hive七、HBase八、Kafka九、Scala十、Spark十一、Flink大数据入门学习指南前言大数据入门核心技术栏目是为初学... 查看详情

大数据hadoop入门之hadoop家族详解

大数据这个词也许几年前你听着还会觉得陌生,但我相信你现在听到hadoop这个词的时候你应该都会觉得“熟悉”!越来越发现身边从事hadoop开发或者是正在学习hadoop的人变多了。作为一个hadoop入门级的新手,你会觉得哪些地方很... 查看详情

[hadoop大数据]--kafka入门

问题导读:1.zookeeper在kafka的作用是什么?2.kafka中几乎不允许对消息进行“随机读写”的原因是什么?3.kafka集群consumer和producer状态信息是如何保存的?4.partitions设计的目的的根本原因是什么? 一、入门  1、简介 &... 查看详情

大数据入门-大数据技术概述

目录大数据入门系列文章1.大数据入门-大数据是什么一、概念二、技术详解1.基础架构:Hadoop2.分布式文件系统:HDFS3.数据仓库:Hive4.存储引擎:Kudu5.分布式数据库:HBase6.实时框架:Flink三、其他大数据入... 查看详情

三分钟读懂数字藏品

...并由此获得一个证明,这个证明就是NFT。因为区块链具有数据不可篡改、可追溯等优势,这个证明的真实性可以得到保障。(参见我以前的文章《三分钟读懂区块链》)因为NFT里面涉及到通证,国内涉嫌不合规,所以从去年10月2... 查看详情

大数据入门学习之hadoop技术优缺点

大数据入门学习之Hadoop技术优缺点(1)Hadoop具有按位存储和处理数据能力的高可靠性。(2)Hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便地扩展到数以千计的节点中,具有高扩展性。(3)Hadoop能够在节... 查看详情

大数据入门学习框架

文章目录大数据入门学习框架前言一、大数据基础二、大数据必学Java基础三、ZooKeeper四、大数据环境搭建五、Hadoop六、Hive七、HBase八、Kafka九、Scala十、Spark十一、Flink十二、核心面试题最后要重塑认知穷困一生的五个毛病大数据... 查看详情

大数据—hadoop(入门篇一)(代码片段)

...e基金会所开发的分布式系统基础架构主要解决,海量数据的存储和海量数据的分析计算问题广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈高可靠性:Hadoo 查看详情