关键词:
文章目录
第1章 Hadoop概述
1.1 Hadoop是什么
1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2)主要解决,海量数据的存储和海量数据的分析计算问题。
3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
1.2 Hadoop发展历史(了解)
-
Hadoop创始人Doug Cutting,为了实现与Google类似的全文搜索功能,他在Lucene框架基础上进行优
化升级,查询引擎和索引引擎。 -
2001年年底Lucene成为Apache基金会的一个子项目。
-
对于海量数据的场景,Lucene框架面对与Google同样的困难,存储海量数据困难,检索海量速度慢。
-
学习和模仿Google解决这些问题的功法:微型版Nutch。
-
可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文)
GFS —>HDFS
Map-Reduce —>MR
BigTable —> HBase -
2003-2004年,Google公开了部分GFS和MapReduce思想的细节,以此为基础Doug Cutting等人用
了2年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。 -
2005年Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
-
2006年3月份,Map-Reduce和Nutch Distributed File System(NDFS)分别被纳入到Hadoop项目
中,Hadoop就此正式诞生,标志着大数据时代来临。 -
名字来源于Doug Cuting儿子的玩具大象
1.3 Hadoop三大发行版本(了解)
Hadoop三大发行版本:Apache、Cloudera、Hortonworks。
Apache版本最原始(最基础)的版本,对于入门学习最好。2006
Cloudera内部集成了很多大数据框架,对应产品CDH。2008
Hortonworks文档较好,对应产品HDP。2011
Hortonworks现在已经被Cloudera公司收购,推出新的品牌CDP。
1)Apache Hadoop
官网地址:http://hadoop.apache.org
下载地址:https://hadoop.apache.org/releases.html
2)Cloudera Hadoop
官网地址:https://www.cloudera.com/downloads/cdh
下载地址:https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_6_download.html
(1)2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。
(2)2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support
(3)CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。Cloudera的标价为每年每个节点10000美元。
(4)Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。
3)Hortonworks Hadoop
官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
(1)2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。
(2)公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。
(3)Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。
(4)2018年Hortonworks目前已经被Cloudera公司收购。
大数据hadoop版本介绍
参考技术A你知道大数据Hadoop版本介绍,1.0版本和2.0对比有哪些缺点?Hadoop发行版本分为开源社区版和商业版,社区版是指由Apache软件基金会维护的版本,是官方维护的版本体系。商业版Hadoop是指由第三方商业公司在社区版Hadoop... 查看详情
hadoop各种发行版本
目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’sDistributionIncludingApacheHadoop,简称CDH)、Hortonworks版本(HortonworksDataPlatform,简称“HD... 查看详情
hadoop最新发行稳定版:dkhadoop版本选择详解
hadoop最新发行稳定版:DKHadoop版本选择详解Hadoop对于从事互联网工作的朋友来说已经非常熟悉了,相信在我们身边有很多人正在转行从事hadoop开发的工作,理所当然也会有很多hadoop入门新手。Hadoop开发太过底层,技术难度远比我... 查看详情
hadoop入个门(代码片段)
文章目录1️⃣、Hadoop概述1.1、Hadoop是什么1.2、三大发行版本1.3、优势1.4、组成HDFSYARNMapReduceHDFS、YARN、MapReduce三者关系1.6、大数据技术生态体系image-202303111027195802️⃣、Hadoop运行环境搭建2.1、虚拟机环境准备2.2、克隆虚拟机2.3、... 查看详情
hadoop发行版本hortonworks安装详解准备工作
一、前言目前Hadoop发行版非常多,所有这些发行版均是基于ApacheHadoop衍生出来的,之所以有这么多的版本,完全是由ApacheHadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售。Hortonworks这个名字源... 查看详情
大数据概念及hadoop介绍(代码片段)
大数据概念及Hadoop介绍大数据概念数据存储单位大数据定义大数据的特点(5V特征)大数据部门组织架构分布式技术负载均衡故障转移伸缩性分布式技术总结分布式和集群的区别Hadoop介绍Hadoop核心组件Hadoop发展简史Hadoop特性优点与... 查看详情
hadoop入门(代码片段)
...右边的帮助文档Hadoop入门1Hadoop概述1.1Hadoop是什么1.2Hadoop发展历史(了解)1.3Hadoop三大发行版本(了解)1.4Hadoop优势(4高)1.5Hadoop组成(面试重点 查看详情
hadoop概述
Hadoop概述1、Hadoop介绍2、Hadoop发展简史3、Hadoop特性优点4、Hadoop发行版本5、Hadoop架构变迁Hadoop概述1、Hadoop介绍Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop是一个适合大数据的分布式存储和计算平台主要解决&... 查看详情
大数据学习之hadoop生态圈(代码片段)
文章目录前言1、什么是hadoop2、Hadoop起源3、Hadoop的四大特点4、Hadoop的三大发行版本5、Hadoop的版本迭代6、Hadoop的优点及缺点7、Hadoop组成前言上篇文章讲述了大数据的发展及历程,这篇文章就带大家进入大数据的技术应用... 查看详情
大数据学习笔记~hadoop基础篇(代码片段)
...前言一、Hadoop介绍二、Hadoop发行版介绍三、Hadoop核心架构发展历史四、Hadoop三大核心组件介绍五、Hadoop集群安装部署a、伪分布式集群安装部署1.下载hadoop安装包2.设置静态ip 3、修改主机名 4.关闭防火墙5.ssh免密登录 6.安装jdk7. ... 查看详情
大数据一阶段总结
1Hadoop是什么1.hadoop是一个由Apache基金会所开发的分布式系统基础架构。2.主要解决,海量数据的储存和海量数据的分析计算问题。3.广义来说,hadoop通常是指一个更广泛的概念----Hadoop生态圈。 Hadoop三大发行版本 Hadoop... 查看详情
一文带你了解大数据技术之hadoop(代码片段)
Hadoop概述1.Hadoop是什么2.Hadoop发展历史3.Hadoop三大发行版本3.1ApacheHadoop3.2ClouderaHadoop3.3HortonworksHadoop4.Hadoop优势5.Hadoop组成5.1HDFS架构概述5.2YARN架构概述5.3MapReduce架构概述5.4HDFS、YARN、MapReduce三者关系6.大数据技术生态体系7.推荐系统... 查看详情
大数据之hadoop图解概述(代码片段)
文章目录🌹0写在开头☕1Hadoop是什么🚀2Hadoop发展历史(了解)💒3Hadoop三大发行版本(了解)🍎①ApacheHadoop(常用)🍏②ClouderaHadoop🍇③HortonworksHadoop☔️ 查看详情
轻量级 Hadoop 发行版
】轻量级Hadoop发行版【英文标题】:LightweightHadoopDistribution【发布时间】:2016-04-1819:58:55【问题描述】:我想学习为Hive开发UDF。我为virtualbox下载了Cloudera的快速启动虚拟机,但是运行ClouderaManager需要8GB内存。我有一台只有8GB的... 查看详情
hadoop基础之《—hadoop概述》
一、Hadoop是什么1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2、主要解决,海量数据的存储和海量数据的分析计算问题。3、广义上来说,Hadoop通常是指一个更广泛的概念—Hadoop生态圈。二、Hadoop的三大发... 查看详情
hadoop简介和体系架构
目录2.1Hadoop简介2.1.1Hadoop由来2.1.2Hadoop发展历程 2.1.3Hadoop生态系统 2.2Hadoop的体系架构 2.2.1分布式文件系统HDFS2.2.2分布式计算框架MapReduce 2.2.3分布式资... 查看详情
在 Hadoop 2.2 上安装 oozie
】在Hadoop2.2上安装oozie【英文标题】:InstalloozieonHadoop2.2【发布时间】:2014-02-2718:24:22【问题描述】:我需要一些有关在Hadoop2.2上安装Oozie的指导。快速入门文档页面表明重要提示:默认情况下,它基于Hadoop1.1.1构建。有可能也针... 查看详情
hadoop及其组件安装
...命令,进行验证6、组件所用版本安装路径:mkdir/usr/local/hadoop/hadoop-2.7.3/bin/1、解压hadoop2、执行命令检查hadoop是否可用查看是否显示hadoop版本信息Hadoop2.7.3显示即正常3、创建所需目录4、设置hadoop环境变量任意目录输入hado,然后按... 查看详情